Vitibornar leitarvélar

13. ágúst 2020

Vitibornar leitarvélar

Leitarvélar eru æði misjafnar að gæðum. Þrautþjálfuð leitartæki á borð við Google hitta nokkuð oft í mark, en mig grunar að flestir netnotendur séu jafn tregir og ég til að skrá nokkuð inn í leitarglugga á vefsíðum minni fyrirtækja eða samtaka. Mín reynsla er sú að þessar vélar skili mér næstum aldrei því sem ég var að leita að.

Það er stundum sagt að netið muni fyrir okkur, við þurfum bara að leita í símanum. Gagnabankar muna vissulega allt sem þeim hefur verið kennt, en þeir skilja í raun ekkert. Við notendurnir skiljum talsvert, en munum ekki nema brotabrot. Gagnabankinn sem leitarvélin skimar inn í er því ótvírætt gagnlegt hjálpartæki, en vandinn er að finna nál í heystakki.

Það sem lélegu leitarvélarnar skortir tilfinnanlega er skilningur á samhengi leitarorðanna. Ef ég leita t.d. að borginni Stalíngrad, vil ég að leitarvélin „skilji“ að þetta er sama borg og heitir nú Volgograd. Google myndi sennilega skila mér Wikipediu-færslu sem ber titilinn „Volgograd“ (jú, það gerði hún!). Óæðri leitarvélar myndu hins vegar flestar falla á prófinu og skila mér aðeins þeim niðurstöðum þar sem orðið „Stalíngrad“ kemur beinlínis fyrir í textanum.

Stundum skiptir litlu hvort leitarvél skilar gagnlegri niðurstöðu, en þessir tæknilegu annmarkar geta sett alvörugefinni þekkingarleit óheppilegar skorður. Lögfræðingur leitar að fordæmum í lagasöfnum. Vísindamaður leitar að greinum sem varða rannsókn á þröngt afmörkuðu viðfangsefni. Sagnfræðingur leitar að upplýsingum um tiltekið landsvæði sem hefur kannski tilheyrt þremur ríkjum síðustu hundrað árin og skipt jafnoft um nafn.

Lausnin er að veita leitarvélinni einhverja innsýn í samhengi orða og texta. Til þess eru margar leiðir og ein þeirra hefur talsvert komið við sögu í heimi fræðanna. Sú aðferð hefur verið kölluð semantic enrichment, sem gæti kannski útlagst sem merkingarauðgun á íslensku. Hugtakið vísar til þess þegar einstök orð eða orðasambönd í textum eru „auðguð“ með lýsigögnum, sem síðan hjálpa leitarvélum sem eiga leið hjá að skila notendum sínum gagnlegum og heildrænum niðurstöðum. Þannig veit leitarvél sem kemur auga á orðið „Shakespeare“ í texta, að notandi sem leitar að enskum rithöfundum frá 17. öld gæti viljað sjá þessa tilteknu grein, ef að lýsigögnin tilgreina að Shakespeare sé „Englendingur“, „rithöfundur“ og að hann hafi verið á lífi milli 1564 og 1616.

Orð og orðasambönd sem eru auðguð með þessum hætti mynda svo saman merkingarvef (e. semantic web). Sá vefur þræðir saman hugtök sem kunna að eiga sér fleiri en eina birtingarmynd, eins og t.d. borgin Volgograd, og tengir saman greinar og bækur sem eiga sér einhvern sameiginlegan snertiflöt í umfjöllunarefni sínu.

Það gefur auga leið að það getur verið bæði tímafrekt og kostnaðarsamt að uppfræða leitarvélar með þessum hætti, jafnvel þó að ferlið sé gert eins sjálfvirkt og völ er á. Hjálpartæki á borð við orðabækur á tölvutæku formi geta veitt lið við skráningu, við að koma merkimiða á hugtök í textum og tengja þau saman, en erfitt er að gera útkomuna fullkomlega áreiðanlega án þess að þar komi til mannsheili sem sker úr um hvað sé rétt og hvað rangt.

Sjálfur kannaði ég í námi mínu hvernig mætti nýta þessa tækni á sviði sagnfræðirannsókna, en meira fer fyrir pælingum af þessu tagi á sviði vísindanna, þar sem upplýsingaflóðið er geysilegt og nytsemi nákvæmra upplýsingasía augljós. Kostina verður þó alltaf að vega upp á móti kostnaðinum við innleiðingu lýsigagnanna, sem er verulegur. Það er vafalaust ein ástæða þess að vonlausar leitarvélar fyrirfinnast enn víða og margir fara á mis við gagnlegt efni. Reyndar sýnist mér eftir lauslega leit á Google (!) að flestar greinar um „semantic enrichment“ séu orðnar nokkurra ára gamlar.

Hvort sem merkingarauðgun af þessu tagi á sér framtíð eða ekki, er það verðugt viðfangsefni að hjálpa netnotendum að finna það sem þeir leita að. Og auðvitað eru betri leitarvélar ekki bara fyrir þá sem leita, heldur líka fyrir þá sem skrifa. Allir sem fást við einhvers konar skrif og gefa afraksturinn út á netinu, ættu að láta sig málið varða. Það er sama hversu upplýsandi og æðislegur textinn er, ef enginn finnur hann, þá les hann enginn.

Höfundur: Óskar Völundarson, textasmiður hjá Icelandair

Nánari upplýsingar

What is semantic enrichment? https://www.retresco.de/en/encyclopedia/semantic-enrichment/

How smart is your content? http://www.councilscienceeditors.org/wp-content/uploads/v37n2p40-44.pdf

Europeana – semantic enrichment https://pro.europeana.eu/page/europeana-semantic-enrichment

Semantic publishing in the humanities (MA ritgerð) https://openaccess.leidenuniv.nl/bitstream/handle/1887/43330/MA-thesis_volundarson_semanticpublishing.pdf?sequence=1

Skoðað: 1253 sinnum

Blaðið Tölvumál

Eldri tölublöð

Skil á efni

Til greinahöfunda

Til auglýsenda

Leita í vefútgáfu Tölvumála

Um Tölvumál

Tölvumál - tímarit Skýrslutæknifélags Íslands er óháð tímarit um tölvutækni og hefur verið gefið út frá árinu 1976.

Vefútgáfa Tölvumála birtir vikulega nýja grein á vef Ský og árlega er gefið út veglegt prentað tímarit undir nafninu "Tölvumál" þar sem fjallað er um tölvutækni frá ýmsum sjónarhornum og er þema blaðsins jafnan valið snemma árs og útgáfa að hausti.

Ritnefnd Ský sér um að afla efni í Tölvumál og geta allir sem áhuga hafa sent inn efni.

Um ritnefnd Tölvumála