recapatcha

Digitalizacija kao postupak prebacivanja dokumenata (informacija, znanja) iz analognog u digitalni oblik uz dodatnu obradu i arhiviranje su danas postupci pomoću kojih različiti dokumenti (informacije, znanje) postaju javno dostupni korisnicima, a imaju i svrhu očuvanja izvornih dokumenata. Google Books omogućuje nam pregledavanje knjiga u digitaliziranom obliku (pri čemu svakako moraju paziti na stavku zaštite autorskih prava), nedavno je Google u suradnji s časopisom Live digitalizirao njihove fotografije i učinio ih javno dostupnim. U sklopu projekta Europeana digitalizirani su brojni materijali od kulturnog značenja i dostupni su online svim korisnicima! Časopis New York Times također digitalizira svoje tiskane časopise od 1981. godine.

Digitalizacija, u najednostavnijem smislu, zahtijeva postupak skeniranja koji prebacuje fizički dokument u sliku, a da bismo sliku prebacili u tekst koristimo se programom za optičko prepoznavanje znakova (engl. Optical Character Recognition – OCR). OCR ne prepoznaje sve znakove ispravno i nije savršen. I opet se Luis von Ahn dosjetio kako upotrijebiti “napore” velikog broja korisnika koji će u pomoću reCaptcha dešifirati neprepoznate riječi od strane OCR-a i zapisati ih u ispravnom obliku. To će računalo zapamtiti kao “sveznajući odgovor” i smatrati ga ispravnim (nizom znakova). Točnije, pomoću reCaptcha korisniku se nasumično prikazuju riječi iz arhive digitaliziranih materijala Internet Archive-a i New York Times-a. Kada se odgovori u uzorku većeg broja korisnika međusobno preklapaju, riječ će se smatrati točnom i uvrstit će se kao ispravna u odgovarajuću rečenicu.

Naravno da vam se i nudi da postavite reCAPTCHA na svoju stranicu. Ako ste korisnik sustava Wordpress, možete preuzeti plugin za korištenje reCAPTCHA na vašoj stranici. U ponudi vam još i reCaptcha MailHide koji vam pruža zaštitu od spama ili neželjene pošte.

Luis von Ahn najavljuje i novu igru (nakon svoje ESP igre) pomoću koje će omogućiti korisnicima da prevode rečenice s jednog jezika na drugi. To će njemu opet omogućiti punjenje baze podataka s uzorcima i konačno stvaranje alata za strojno prevođenje za koji danas poželjno da ga ima svaka veća tvrtka (a da ne govorimo o pravnim tekstovima EU koje će trebati prevesti na brojne jezike članica EU što prevoditelji bez pomoći alata za strojno prevođenje neće moći sami prevesti).



Utipkajte komentar