Information retrieval

information retrieval

Information Retrieval predstavlja selektivni postupak za dohvat informacija, pa i njihovo spremanje i indeksiranje.  Odnosno, predstavlja pronalaženje informacija iz velikih kolekcija informacija kako bi se zadovoljila informacijska potreba. Sustavi za dohvat informacija su se koristili tradicionalno za dohvat informacija koje su po svom tipu bili tekstualne (nestrukturirane informacije – cjeloviti tekstovi, sažeci tekstova, itd.), a danas dohvaćaju i audio-vizualne informacije (slika, video, itd.).

Information Retrieval je ujedno i interaktivni postupak koji uključuje korisnika koji ima informacijsku potrebu i sam sustav za dohvat informacija. Upiti korisnika se sastoje od jednog ili više termina pretraživanja nad kojima se mogu uključiti i Booleanovi operatori kako bi se suzili rezultati pretrage. Termini pretraživanja se uspoređuju s indeksnim terminima i konačno se isporučuje lista rezultata pretraživanja.

Dokumenti, odnosno rezultati na korisnički upit zasigurno bi trebali biti relevantni, iako to naravno nije uvijek tako. Djelomično je razlog tome i višeznačnost u jeziku. Recimo, ukoliko kao upit unesemo u tražilicu Google termin ‘Magnolia’ pri čemu mislimo na servis za razmjenu vijesti, a ne na film, biljku ili gradove u određenim saveznim državama Amerike, Google će na temelju svojih statističkih rezultata rangirati rezultate koji u ovom slučaju neće biti u potpunosti relevantni s obzirom na našu informacijsku potrebu.

Većina tražilica određuje relevantnost dokumenata na način da izračunava učestalost pojavljivanja određene riječi u grupi dokumenta, pa se dokumenti prema statističkim podacima rangiraju onda slijedom relevantnosti, iako ponovno, ne zadovoljavaju našu informacijsku potrebu jer postoji previše rezultata pretraživanja. Zato danas veliki (ili oni manji) stručnjaci za optimizacije sadržaja za tražilice predlažu (između ostaloga) da pri pisanju sadržaja naših tekstova određenu ključnu riječ ponavljamo kroz tekst određeni broj puta. Međutim i da nema toga savjeta, osobe sasvim prirodno ponavljaju određenu ključnu riječ u tekstu.

Kako područje informacijskih znanosti (ili informacijske znanosti) istražuje prostor podataka, informacija, obavijesti, dokumenata i znanja, tako je i istraživanje weba kao prostora međusobno povezanih dokumenata, ali i sustava koji dohvaćaju u najširem smislu informacije s weba zasigurno područje interesa istraživanja informacijskih znanosti.

Nova faza Interneta poznatija kao Web3.0, odnosno semantički web bi trebala doprinijeti razumijevanju značenja sadržaja, odnosno dokumenata, te povećati relevantnost u našim rezultatima pretraživanja.



Utipkajte komentar