Tko govori haićanski i kreolski? Google

Autor: Luka Rinčić , 20. travanj 2010. u 22:00

Google Translate funkcionira i to na 52 jezika, a prijepori o potrebi za strojnim prevođenjem i kvaliteti takvog jezika vode se još od hladnog rata kada je ono nastalo

Svatko bi zasigurno mogao prepričati svoja iskustva s katastrofalnim prevođenjem kada se pokuša poslužiti automatskim prevoditeljima, no ionako smo navikli na natpise “splitska banana” i “ugodne cijene”, započinje tekst The New York Timesa. I “ljudski proizvedeni” prijevod katkad se pokaže neadekvatnim u još važnijim domenama. Na sudovima i u bolnicama, u vojsci i sigurnosnim službama, nedovoljno plaćeni i prezaposleni prevoditelji griješe pri prevođenju najvažnijih tekstova. Googlove legendarne pogreške često nisu veće od pogrešaka koje načine ljudi pod stresom.

Hitna potreba za prijevodom
U kritičnim situacijama strojno se prevođenje pokazuje izuzetno korisnim. Kada je u siječnju snažan potres devastirao Haiti, međunarodne jedinice za pomoć slile su se na razrušeni otok, govoreći brojne jezike, no ne i haićanski ili kreolski. Pa kako bi onda zaglavljeni preživjeli mogli spasiocima preko mobitela prenijeti važne informacije? Da su morali čekati dolazak prevoditelja, moguće da bi prije umrli nego što bi ih netko razumio. Stoga je Carnegie Mellon University odmah izbacio bazu podataka ovog jezika, a mreža programera volontera stvorila je neizglađen, ali funkcionalan sustav strojnog prevođenja za svega nekoliko dana. On nije bio u stanju proizvesti prozu, no radio je. Prednosti i nedostaci strojnog prevođenja česta su tema rasprava među prevoditeljima zbog krupnih koraka koje je prošle godine napravio novi igrač na ovom području – Google Translate. Međutim, ovakvi su razgovori započeli još daleko prije, odmah nakon stvaranja samog sustava strojnog prevođenja. Potreba za grubim strojnim prevođenjem javila se još nakon početka hladnog rata. Sjedinjene Američke Države željele su istražiti svaki komadić ruskog jezika koji je proizašao iz Sovjetskog Saveza, no nije bilo dovoljno prevoditelja da se uhvate ukoštac s golemim obujmom tog posla (kao što ih nema ni sada da prevode sve jezike koje SAD želi pratiti). Hladni rat podudarao se s izumom računala, a jedan od njihovih prvih zadataka bilo je upravo “dešifriranje ruskog”.

Otac strojnog prevođenja, William Weaver, odabrao je promatrati ruski poput “koda”, zanemarujući pravo značenje teksta. Njegov tim i njihovi nasljednici s obje strane Atlantika nastavili su na zdravorazumski način: prirodni jezik sastoji se od rječnika (skupa riječi) i gramatike (skupa pravila). Ako u stroj možete staviti rječnike dvaju jezika (što je prilično jednostavno) te unijeti čitav skup pravila na temelju kojih ljudi stvaraju smislene kombinacije riječi u ta dva jezika (što je znatno teže), tada bi taj stroj bio u stanju prevesti iz jednoga “koda” u drugi. Lingvisti toga razdoblja, na čelu s Noamom Chomskym, također su promatrali jezik kao rječnik i gramatiku, sposoban da stvara neograničeno mnogo različitih rečenica iz ograničenog skupa pravila. No protivnici Chomskog s Oxforda tada su komentirali kako postoji neograničeno mnogo automobila koji se mogu proizvesti u britanskim tvornicama a da svaki od njih ima neku drugu grešku. Tijekom sljedeća četiri desetljeća strojno je prevođenje postiglo mnoge korisne rezultate, no kao i britanska autoindustrija nije doseglo predviđanja iz pedesetih. Krajem prošle godine pojavio se pravi ozbiljan igrač: Google Translate, statistički sustav za strojno prevođenje, što znači da on ne pokušava išta razumjeti. Umjesto da rastvori rečenicu na dijelove i onda je ponovno izgradi na “ciljanom” jeziku kao što su radili stariji strojni prevoditelji, Google Translate traži slične rečenice u već prevedenim tekstovima na webu. Nakon što je zahvaljujući iznimno pametnom i brzom uređaju za statističko izračunavanje pronašao najvjerojatniju postojeću podudarnost, Google Translate je izbacuje u sirovom ili, ako je nužno, blago izmijenjenom izdanju. Na taj način simulira – dakle, samo simulira – ono što pretpostavljamo da se događa u prevoditeljevoj glavi.

Zaboravite moždane funkcije
Google Translate, koji funkcionira na 52 jezika, zaobilazi teoretsko pitanje lingvista o tome što je jezik i kako on djeluje u ljudskom mozgu. U praksi se jezici upotrebljavaju kako bi se uvijek iznova rekle iste stvari. Za možda 95% svih izraza Translator je fantastičan alat. No postoje dva važna ograničenja koja korisnici ovoga ili bilo kojega drugog statističkog sustava za strojno prevođenje moraju razumjeti. Ciljana rečenica koju dostavi Google Translate nije i nikada se ne smije uzeti za “ispravan prijevod”. I to ne samo zato što nešto kao “ispravan prijevod” zapravo uopće ne postoji. Google Translate daje samo izraz koji se sastoji od najvjerojatnijih ekvivalentnih fraza odabranih na temelju analize astronomski velikog skupa sparenih rečenica pronađenih na webu. Ti podaci velikim dijelom proizlaze iz dokumentacije međunarodnih organizacija. Tisuće ljudskih prevoditelja koji rade u Ujedinjenim narodima, Europskoj uniji i sličnim institucijama proveli su milijune sati, stvarajući upravo ove parove među kojima Google Translate danas prebire u potrazi za rješenjima. Da bi Google Translate uopće imao s čim raditi, potrebni su mu upravo “ljudski” prijevodi. Razumljivo je i da razlika u kvaliteti prevođenja među raznim jezicima uglavnom proizlazi iz neujednačene kvantitete prijevoda za te jezike dostupnih na webu.

Prevoditelji se ne boje Googlea
A književnost? Google Translate može proizvesti prava mala čuda jer ima pristup svjetskoj knjižnici Google Booksa. Kada upišete izvornu rečenicu iz poznate strane knjige, prijevod će biti vrlo precizan jer će Translator upotrijebiti njezin pandan iz službeno objavljenog prijevoda na traženom jeziku. Hoće li Google Translate moći stvarati nove književne prijevode? Za tim nema potrebe: prevoditelji se bore za priliku da se objavi njihov prijevod. No čak i da postoji potreba, Google Translate ne bi mogao učiniti nešto korisno na ovom području jer nije zamišljen ni programiran da uzme u obzir svrhu, kontekst ili stil bilo kojeg izraza. Sustav koji bi to mogao učiniti bio bi epohalno otkriće, no takvo čudo još nije na dnevnom redu čak ni najnaprednijih programera strojnog prevođenja. Ipak, ako se igramo đavoljeg odvjetnika i ograničeno gledamo na neki žanr suvremene fikcije (npr. jeftini ljubavni romani), možemo pretpostaviti, s obzirom na relativno nisku kvalitetu tog izričaja, da bi nakon dovoljnog broja prijevoda skeniranih i stavljeni na web Google Translate bio u stanju izvesti poprilično dobru simulaciju prevođenja drugih varijacija iste teme. No to nije smisao literarnog prevođenja. Kod djela koja su originalna – i stoga vrijedna prijevoda – statističko strojno prevođenje nema šanse. Google Translate može pružiti čudesne usluge u mnogim domenama, no nije postavljen da smisleno prevodi ono što nije rutina – to se ne bi ni trebalo očekivati od njega. Naposljetku, kada je riječ o pravim izazovima literarnog prevođenja, to ni ljudima nije lagan posao.

Haiti

Prevoditelji su odmah reagirali
Djelatnici Carnegie Mellon Universityja odmah su nakon potresa u Haitiju izbacili bazu podataka kreolskog i haićanskog jezika, a mreža volontera stvorila je sustav strojnog prevođenja u roku nekoliko dana.

Strojni jezik
Unatoč brojnim međunarodnim jedinicama koje su pohitale na Haiti, pitanje je kako bi mogle pomoći unesrećenima, primjerice komunicirati s ljudima zatrpanim pod ruševinama.

Komentirajte prvi

New Report

Close