Zemanta – plugin, mashup i semantička mreža?
Zemanta i je funkcionalni dodatak (engl. plugin) namijenjen za integraciju na brojne platforme ili sustave za rukovođenje blogova (kao što su WordPress, Drupal, Tumblr, Blogger, i sl.), a njegova je osnovna je funkcionalnost semantičko dodjeljivanje linkova dijelovima posta bloga (točnije riječima, složenicama, frazama) služeći se pri tome kao izvorima brojnim web stranicama.
Upravo na temelju svojih obilježja Zemanta je ujedno i mashup aplikacija, jer koristi nekoliko izvora i ujedinjuje ih potom u jedinstven prikaz. .
Kao semantička mreža omogućuje analizu (čistog/neoznačenog) teksta posta na temelju konteksta, te na temelju toga daje prikaz povezanih sadržaja i to u formi fotografija, videa (YouTube), tagova/ključnih riječi (delicious) i poveznica (Wikipedia, IMDb, techcrunch), te kontekstualnih metapodataka. Ukoliko je i tekst na hrvatskom (ili nekom drugom jeziku koji nije engleski) analizom teksta prepoznaju se imenski entiteti i kratice, a za engleski jezik uspjeli su se razriješiti i problemi homografa odnosno istopisnica
Zemanta kao sustav za automatsko generiranje poveznica i tagova, odnosno servis za preporuku tagova, koristi postupak crpljenja informacija (engl. information extraction) koji uključuje u pojedinim fazama tehnike strojnoga učenja i obrade prirodnoga jezika. Vanjsko znanje koje ovaj sustav koristi jesu baze znanja sustava, odnosno servisa kao što su Wikipedija, YouTube, Flickr, IMDb, TechCrunch, delicious i dr.
Zemantin semantički algoritam analizira nestrukturirani tekst (posta), odnosno čisti tekst i dodjeljuje mu oznake na temelju usporedbe riječi iz posta bloga sa riječima u svojoj preindeksiranoj bazi podataka.
Zemanta u slučaju generiranja poveznica i tagova polazi od činjenice da se korisnici danas služe hiperlinkovima kako bi došli do novoga sadržaja. Hiperlinkovi se većinom kreiraju ručno od strane autora teksta čiji odabir ne mora uvijek biti relevantan i zadovoljiti informacijsku potrebu korisnika. Servisi, odnosno sustavi za automatsko generiranja poveznica bi trebali uzeti u obzir znanje i interese prosječnoga čitatelja.
Prvi korak u dodjeljivanju poveznica nestrukturiranome tekstu je njihova klasifikacija na temelju semantičkih relacija između izvora i odredišta dokumenta. Zemanta kreira poveznice unutar teksta čija je i funkcija detaljnije objašnjenje termina ili koncepta s kojim čitatelj nije upoznat. U sidrištu poveznice unutar tijela teksta koristi se jedna riječ ili jednostavna fraza, pa je potrebna niža razina obrade prirodnoga jezika kako bi se izračunala mjera sličnosti, odnosno popis zamjenskih imena i URL-ova.
Zemanta nema ograničenja samo na vlastite imenice odnosno imenske entitete, već uzima u obzir i ostale vrste riječi koje prepoznaje na temelju POS oznaka. Ovaj servis koristi semantičku sličnost kako bi se razriješila višeznačnost u jeziku (razlikuje homografe kao što su primjerice Apple i apple), prepoznaje pravopisne pogreške (npr. computer i computor) kao i kulturološke razlike u jeziku (npr. riječi rig, box, machine i host prepoznaje kao riječi koje referiraju na riječ computer). Potrebno je jedino poboljšati višejezičnost, jer servis obogaćuje čisti tekst koji je na engleskom jeziku. Mogući problemi oko autorskih prava razriješeni su korištenjem izvora kao što je Wikipedija, a u slučaju slika sa servisa Flickr, prikazuju se samo one koje su objavljene pod licencom Creative Commons.