semantička tražilica Hakia

Ključna riječ u novoj fazi interneta , koja se sada naziva web3.0 ili semantički web (još jedan buzzword), i je semantika. Osnovni problem pri računalnoj obradi i razumijevanju prirodnih jezika oduvijek je bila višeznačnosti u jeziku. Višeznačnost je prisutna na svim jezičnim razinama i na svakoj od njih je potrebno njezino razrješavanje. Mogu li računala razlikovati riječi kao što su homografi, npr. riječ jaguar razložiti na sva njezina značenja? I mogu li znati koje značenje riječi jaguar treba vratiti u rezultatima pretraživanja s obzirom na informacijsku potrebu korisnika?  Mogu li uočiti da riječ rose može biti i imenica i glagol i u skladu s time razlikovati kojoj vrsti riječi pripada navedena riječ u korisničkom upitu? Semantički web bi na području pretraživanja informacija trebao omogućiti razvoj tražilica ili pretraživača koje bi mogle razlikovati homografe, ali i razriješavati ostale probleme višeznačnosti.

(more…)

funkcionalni dodatak tagaroo

Tagaroo je plugin (za Wordpress) koji omogućuje automatsku analizu sadržaja posta bloga i na temelju te analize preporučuje relevantne tagove i slike koji mogu nadopuniti sadržaj bloga o kojem pišete. Tagaroo u svakom slučaju svojom funkcijom podsjeća do određene mjere na spomenutu Zemantu. Razlika je u izvorima iz koje dohvaćaju svoje informacije – Zemanta ih pronalazi iz više njih, dok Tagaroo to čini iz jednog izvora – Flickra. Što uopće podrazumijevamo pod pojmom automatska analiza? Taj postupak zasigurno uključuje korištenje znanja i alata za obradu prirodnog jezika.  Sigurno je da se radi o ekstrakciji (analizi, dohvatu) informacija (engl. information extraction) iz određenih nestrukturiranih dokumenata (teksta, sadržaja) koja uključuje prepoznavanje imenskih entiteta (engl. named entity recognition) – vlastitih imena, organizacija, mjesta, valuta, datuma i sl. te pronalazi za prepoznate podatke rezultate fotografija s Flickra što bi bilo pronalaženje informacija (engl. information retrieval).

(more…)