Semantičke tražilice: Hakia i DeepDyve
Ključna riječ u novoj fazi interneta , koja se sada naziva web3.0 ili semantički web (još jedan buzzword), i je semantika. Osnovni problem pri računalnoj obradi i razumijevanju prirodnih jezika oduvijek je bila višeznačnosti u jeziku. Višeznačnost je prisutna na svim jezičnim razinama i na svakoj od njih je potrebno njezino razrješavanje.
Mogu li računala razlikovati riječi kao što su homografi, npr. riječ jaguar razložiti na sva njezina značenja? I mogu li znati koje značenje riječi jaguar treba vratiti u rezultatima pretraživanja s obzirom na informacijsku potrebu korisnika? Mogu li uočiti da riječ rose može biti i imenica i glagol i u skladu s time razlikovati kojoj vrsti riječi pripada navedena riječ u korisničkom upitu? Semantički web bi na području pretraživanja informacija trebao omogućiti razvoj tražilica ili pretraživača koje bi mogle razlikovati homografe, ali i razriješavati ostale probleme višeznačnosti.
Semantički web ne zanima struktura poveznica između dokumenata, odnosno mrežnih stranica, već relacije između elemenata i njihovih svojstava. Kako bi računala mogla razlikovati i rješavati problematiku višeznačnosti tada nestrukturiranim dokumentima treba dodijeliti određene oznake odnosno opisne informacije. To može biti u obliku metapodataka ili ‘podataka o podatcima’ pomoću kojih se strukturiraju nestrukturirane (HTML stranice, word, excel, powerpoint dokumenti, itd.) i polustrukturirane informacije. Semantički web koristi male jedinice kako bi prezentirao informacije: subjekt, predikat, objekt; objekt, ključ, vrijednost; ID, glagol, objekt.
Semantički web bi u kratkoročnom razdoblju trebala omogućiti “inteligentnije” pregledavanje i pretraživanje informacija na temelju čega će se moći odrediti kojoj skupini, prema području interesa, korisnik pripada i na taj način mu s obzirom na kontekst njegovih pregledavanja i pretraživanja isporučivati sličan sadržaj. Povlači li to problem privatnosti korisnika?
U ovom trenutku postoji nekoliko specijalziranih semantičkih tražilica, neke od njih su Powerset, FreeBase, Twine, Tagaroo o kojima sam govorila u prijašnjim postovima. U ovom su postu opisane semantičke tražilice Hakia i DeepDyve.
Hakia
Hakia je semantička tražilica koja koristi sintaktičku analizu nad označenim korpusom tekstova primjerice s Wikipedije kako bi isporučila inteligentnije rezultate. Rezultati pretraživanja su organizirani u 4 kategorije: ‘credible sites’, ‘news’, ‘images’ i ‘web results’. Pod kategorijom ‘credible sites’ izlistane su kao rezultati pretraživanja stranice koje su odabrali knjižničari i informacijski stručnjaci. A zašto se Hakia naziva semantičkom tražilicom može se vidjeti u sljedećim primjerima.
DeepDyve
DeepDyve je semantička tražilica koja za razliku od tradicionalnih tražilica koje indeksiraju površinski web, omogućuje pretraživanje nevidljivoga weba (elektorničkih baza podataka, časopisa – Oxford University Press, MIT Press i SAGE, patenata, članaka s Wikipedije itd.). Korisnički upit može se sastojati od samo jedne riječi pa do 25, 000 znakova. Inicijalni rezultati pretraživanja su ograničeni na prvih 250 rezultata koji mogu biti biti sortirani po relevantnosti, datumu objavljivanja članaka ili prema izvoru članaka. Zgodna je i opcija “More like this” za svaki članak, a aktivirajte nad onim člankom koji sadržajno najaviše odgovara vašem upitu čime ćete dobiti novu listu rezultata konteksutalno vezanih s tim člankom. Dakle, opet imamo situaciju pretraživanja velikog broja različitih izvora, novitet je zasigurno pretraživanje nevidljivog weba, što omogućuje i Hakia i sve o ujedinjeno u jedinstven prikaz.