EN DE

Internetskom kupnjom pomažete dešifriranju starih tekstova

Autor: The New York Times
01. svibanj 2011. u 22:00
Podijeli članak —

Lako je kupiti ulaznice za utakmice i koncerte putem internetskih sustava prodaje. No, prije nego što vam skinu sredstva s kartice, na internetskoj će vas stranici zatražiti da prepišete dva niza krivudavih, iskrivljenih slova. Te se sigurnosne slike s kodom nazivaju Captche i prepoznatljive su samo ljudskom oku.

već od 5 € mjesečno
Pretplatite se na Poslovni dnevnik
Pretplatite se na Poslovni Dnevnik putem svog Google računa, platite pretplatu sa Google Pay i čitajte u udobnosti svoga doma.
Pretplati se i uštedi

Naime, kod je osmišljen tako da se internetske stranice ne mogu hakirati putem strojne manipulacije. Međutim, korisnici interneta ne znaju da također sudjeluju u projektu pretvaranja starih knjiga, časopisa, novina i brošura u pretražive i točne tekstualne datoteke. Moguće je da je jedna od tih krivudavih riječi potekla iz digitalnog prikaza starog i prašnog teksta pa su prilikom pretvaranja u digitalni oblik nastale brojne greške. Upravo je to ono što sada korisnici interneta rade – kad kupe ulaznicu za nogometnu utakmicu, pomažu u očuvanju pisane povijesti pravilnom transkripcijom vijugave riječi. Softverski alat koji je to omogućio naziva se ReCaptcha, a razvio ga je tim znanstvenika sa Sveučilišta Carnegie Mellon pod vodstvom Luisa von Ahna. Riječ Captcha zapravo je engleska skraćenica sintagme “potpuno automatizirani javni Turingov test razlikovanja računala i ljudi”, a test je dobio ime po pioniru računalstva, britancu Alanu Turingu. Prema procjeni doktora von Ahna, programom ReCaptcha koristi se od 70 do 90 posto internetskih stranica koje se služe Captchom. Pilot projekt započeo je radi raščišćavanja digitalne arhive New York Timesa, osobito onih izdanja tiskanih prije 1900. godine. Takvi tekstovi najčešće imaju razne mrlje koje uređaji za skeniranje teško očitavaju, a njihov je program danas glavna metoda kojom se Google koristi u prepoznavanju sadržaja teksta u sklopu Google Books, opsežnog projekta kojemu je cilj rijetke tekstove prebaciti u digitalni oblik. Digitalizacija je obično postupak od tri faze: fotografskog prikaza teksta ili bitmapa, kodiranja teksta u kompaktan i lako pretraživ oblik putem sustava za optičko prepoznavanje znakova ili OCR-a te, konačno, ispravljanja grešaka.

Lako je kupiti ulaznice za utakmice i koncerte putem internetskih sustava prodaje. No, prije nego što vam skinu sredstva s kartice, na internetskoj će vas stranici zatražiti da prepišete dva niza krivudavih, iskrivljenih slova. Te se sigurnosne slike s kodom nazivaju Captche i prepoznatljive su samo ljudskom oku.

Naime, kod je osmišljen tako da se internetske stranice ne mogu hakirati putem strojne manipulacije. Međutim, korisnici interneta ne znaju da također sudjeluju u projektu pretvaranja starih knjiga, časopisa, novina i brošura u pretražive i točne tekstualne datoteke. Moguće je da je jedna od tih krivudavih riječi potekla iz digitalnog prikaza starog i prašnog teksta pa su prilikom pretvaranja u digitalni oblik nastale brojne greške. Upravo je to ono što sada korisnici interneta rade – kad kupe ulaznicu za nogometnu utakmicu, pomažu u očuvanju pisane povijesti pravilnom transkripcijom vijugave riječi. Softverski alat koji je to omogućio naziva se ReCaptcha, a razvio ga je tim znanstvenika sa Sveučilišta Carnegie Mellon pod vodstvom Luisa von Ahna. Riječ Captcha zapravo je engleska skraćenica sintagme “potpuno automatizirani javni Turingov test razlikovanja računala i ljudi”, a test je dobio ime po pioniru računalstva, britancu Alanu Turingu. Prema procjeni doktora von Ahna, programom ReCaptcha koristi se od 70 do 90 posto internetskih stranica koje se služe Captchom. Pilot projekt započeo je radi raščišćavanja digitalne arhive New York Timesa, osobito onih izdanja tiskanih prije 1900. godine. Takvi tekstovi najčešće imaju razne mrlje koje uređaji za skeniranje teško očitavaju, a njihov je program danas glavna metoda kojom se Google koristi u prepoznavanju sadržaja teksta u sklopu Google Books, opsežnog projekta kojemu je cilj rijetke tekstove prebaciti u digitalni oblik. Digitalizacija je obično postupak od tri faze: fotografskog prikaza teksta ili bitmapa, kodiranja teksta u kompaktan i lako pretraživ oblik putem sustava za optičko prepoznavanje znakova ili OCR-a te, konačno, ispravljanja grešaka.

“Onda smo se upitali možemo li s tim postupkom ostvariti i neku drugu korist”, kaže von Ahn. Umjesto da proizvodimo Captche od nasumično odabranih, krivudavih riječi, zašto nam korisnici interneta ne bi pomogli da prevedemo problematične riječi iz arhivskih tekstova? Sve riječi koje oba programa drukčije dešifriraju ili ih nema u rječniku engleskog jezika softver ReCaptcha označi kao “sumnjive”. U rječniku se bilježe one riječi koje oba sustava za optičko prepoznavanje tekstova krivo prepišu, a drugi programi prate samo jednu stranu pogrešnog prijepisa te izvode pretpostavke na temelju te analize. Svaka se sumnjiva riječ potom pretvara u Captchu, a svaka je Captcha zapravo iskrivljena verzija riječi zabilježena na fotografskom prikazu. Captche se ne sastavljaju od prijepisa OCR-om jer se tu najčešće radi o nečitkim prijenosima. Nepoznata se riječ zatim stavlja u par s “kontrolnom riječi”, drugom Captchom čiji je prijevod poznat. Kad korisnici interneta pokušaju ući na neku zaštićenu stranicu, daju im se obje riječi koje trebaju zasebno dešifrirati. Točan unos kontrolne riječi dokazuje da se radi o osobi, a ne o stroju, a odgovori za nepoznatu riječ potom se uspoređuju s OCR-ovim prikazom te na temelju analize konteksta. Ako sustav odobri točnost odgovora, igra je gotova. Google je tvrtku doktora von Ahna kupio 2009. godine i uposlio je na projektu Google Books. Von Ahn kaže da korisnici svakodnevno prevedu “nekoliko milijuna riječi”. Točnost ReCaptche iznosi 99 posto, čime je postignut znatno bolji učinak nego kod profesionalnih prepisivača. “Radit ćemo još dugo”, kaže von Ahn. “Postoji jako puno tiskanog materijala.

Guy Gugliotta

Autor: The New York Times
01. svibanj 2011. u 22:00
Podijeli članak —
Komentirajte prvi

Moglo bi vas Zanimati

New Report

Close