Staða íslenskrar tungutækni
Eiríkur Rögnvaldsson prófessor í íslensku, Háskóla Íslands |
Tungutækniátaki menntamálaráðuneytisins lauk formlega um síðustu áramót og í tilefni þess verða hér rifjuð upp nokkur atriði úr tungutækniskýrslu ráðuneytisins frá 1999 og athugað hvað áunnist hefur á þeim sex árum sem liðin eru síðan henni var skilað. |
1. Inngangur
Í skýrslunni frá 1999 var lagt til að stjórnvöld beittu sér fyrir átaki á fjórum sviðum til eflingar íslenskri tungutækni:
1. Byggð
verði upp sameiginleg gagnasöfn, málsöfn, sem geti nýst fyrirtækjum sem
hráefni í afurðir.
2. Fé
verði veitt til að styrkja hagnýtar rannsóknir á sviði tungutækni.
3. Fyrirtæki
verði styrkt til þess að þróa afurðir tungutækni.
4. Menntun
á sviði tungutækni og málvísinda verði efld.
Allt þetta hefur verið gert í einhverjum mæli. Mest
fé hefur farið í fyrsta liðinn. Byggð hefur verið upp ítarleg íslensk
beygingarlýsing hjá Orðabók Háskólans (sjá http://www.tungutaekni.is/news/kristin.pdf)
og einnig hefur verið safnað hráefni og komið upp hljóðrituðu orðasafni fyrir
þjálfun íslenskra talgreina í samstarfi Háskóla Íslands og nokkurra fyrirtækja
(sjá http://www.tungutaekni.is/news/helga.pdf).
Orðabók Háskólans er nú enn fremur að koma upp stórri íslenskri málheild
(corpus) sem verður greind málfræðilega og á að geta nýst í margvíslegum
tungutækniverkefnum (sjá http://www.tungutaekni.is/news/sigrun2.pdf).
Ýmiss konar hagnýtar rannsóknir hafa einnig verið
styrktar. Þannig hefur Friðrik Skúlason ehf. unnið að vélrænni íslenskri
setningagreiningu sem geti nýst í ýmiss konar leiðréttingarforritum m.a. (sjá http://www.tungutaekni.is/news/maren.pdf).
Hjá Orðabók Háskólans hefur verið þjálfaður málfræðilegur markari (grammatical
tagger) sem greinir íslenska texta málfræðilega (sjá http://www.tungutaekni.is/news/sigrun.pdf).
Friðrik Skúlason ehf. hefur einnig fengið fé til að þróa og endurbæta Púkann
(sjá http://www.tungutaekni.is/news/fridrik.pdf),
og Grunnur – gagnalausnir fékk styrk til að skoða notkun tungutækni í
símtölvunarlausnum (sjá http://www.tungutaekni.is/news/bjorn.pdf).
Þetta er ekki tæmandi upptalning verkefna, þótt
flest helstu verkefnin sem styrkt voru hafi hér verið nefnd. En að auki var
komið á þverfaglegu meistaranámi í tungutækni við Háskóla Íslands haustið 2002
(sjá http://www.tungutaekni.is/info/menntun2.html).
Fyrsti nemandinn útskrifaðist úr því námi haustið 2004 og skrifaði lokaritgerð
um talgervla (sjá http://www.tungutaekni.is/news/Towards
Speech Synthesis for Icelandic.pdf). Fleiri nemendur munu væntanlega
útskrifast á næstu misserum, en framhald námsins er í nokkurri óvissu þótt
ljóst sé að einhver tungutækninámskeið verði kennd áfram innan íslenskuskorar.
Tilvist þessa náms hefur einnig leitt til þess að Háskóli Íslands er kominn í
samstarf við aðra norræna háskóla um norrænan tungutækniháskóla (Nordic
Graduate School of Language Technology, sjá http://www.ngslt.org).
Í krafti þess samstarfs geta íslenskir stúdentar sótt tungutækninámskeið í
ýmsum háskólum á Norðurlöndum og í Eystrasaltslöndunum og fengið styrki til
ferða og uppihalds.
Í skýrslu starfshóps um tungutækni var eftirfarandi slegið föstu:
Meginmarkmið Íslendinga hlýtur að verða að unnt verði
að nota íslenska tungu, ritaða með réttum táknum, sem víðast innan tölvu- og
fjarskiptatækninnar. Þar verður þó að sjálfsögðu að sníða sér stakk eftir
vexti. Það er mikið verkefni að gera íslensku gjaldgenga á öllum sviðum, við
allar aðstæður. Því verður að leggja megináherslu á þá þætti sem varða daglegt
líf og starf alls almennings, eða munu gera það á næstu árum.
Í framhaldi af þessu setti starfshópurinn fram
lista um ákveðin verkefni sem hann lagði til að áhersla yrði lögð á næstu fimm
árin. Þessi verkefni eru talin hér skáletruð, en á eftir hverjum tölulið er
skoðað hvernig framvindan hefur verið þessi fimm ár.
1. Helstu
tölvuforrit á almennum markaði verði á íslensku (Windows, Word, Excel;
Netscape, Internet Explorer; Eudora; …)
Sumarið 2004
kom Windows XP (og þar með Internet Explorer) og Microsoft Office á íslensku.
Sú þýðing virðist vera mun betur heppnuð tæknilega en fyrri þýðing Windows á
íslensku. Greinarhöfundur hefur notað íslenskt XP á sínum tölvum síðan í haust
og líkar ágætlega. Reynslan verður þó að skera úr um það hvað útbreiðslu þessar
þýðingar fá.
2. Unnt
verði að nota íslenska bókstafi (áéíóúýðþæöÁÉÍÓÚÝÐÞÆÖ) við allar aðstæður; í
tölvum, GSM-símum textavarpi og öðrum tækjum sem almenningur notar.
Hér hefur
staðan batnað nokkuð, m.a. með aukinni útbreiðslu Unicode. Nú eru GSM-símar með
íslenska stafi í valmyndum, en ýmsar hömlur eru þó enn á að þeir skili sér við
allar aðstæður.
3. Unnið
verði að þróun málgreiningar fyrir íslensku, með það að markmiði að geta greint
íslenskan texta í orðflokka og setningarliði.
Tvö verkefni á
þessu sviði hafa verið í gangi, styrkt af tungutækniverkefninu: málfræðilegur
markari fyrir íslensku (http://www.tungutaekni.is/news/sigrun.pdf)
og vélræn íslensk setningagreining (http://www.tungutaekni.is/news/maren.pdf).
En til að þetta væri hægt taldi starfshópurinn nauðsynlegt að:
3.1. Koma upp stórri tölvutækri textaheild með íslenskum
textum af sem fjölbreyttustum toga til að byggja áframhaldandi vinnu á.
Vinna
við slíka textaheild (málheild, corpus) er nýhafin, eins og áður er nefnt (sjá http://www.tungutaekni.is/news/sigrun2.pdf).
3.2. Koma upp fullgreindu orðasafni (með málfræðilegri og
merkingarlegri greiningu) til nota í áframhaldandi vinnu.
Ekkert
slíkt orðasafn er til, né í vinnslu. Hins vegar er til margvíslegt hráefni sem
vinna mætti út frá, t.d. í íslenskri beygingarlýsingu (http://www.tungutaekni.is/news/kristin.pdf)
og í ýmsum söfnum Orðabókar Háskólans (http://www.lexis.hi.is/islex.html,
http://www.lexis.hi.is/lexin_ny.html)
o.v.
4. Til
verði góð hjálparforrit við ritun texta á íslensku, s.s. orðskiptiforrit,
stafsetningarleiðréttingarforrit, málfarsleiðréttingarforrit o.fl.
Púki Friðriks
Skúlasonar var til þegar þetta var ritað, en hefur nú verið endurbættur (sjá http://www.tungutaekni.is/news/fridrik.pdf).
Einnig útbjó hollenska fyrirtækið Polderland nýtt stafsetningarleiðréttingarforrit
sem fylgir Microsoft Office (sjá http://www.polderland.nl/english/spellcheck.htm).
Málfarsleiðréttingarforrit eru engin til enn, en vinnu Friðriks Skúlasonar ehf.
við vélræna setningagreiningu (sjá http://www.tungutaekni.is/news/maren.pdf)
er þó ekki síst ætlað að leggja grunn að gerð slíkra forrita.
5. Til
verði góður íslenskur talgervill sem geti lesið upp íslenskan texta með skýrum
og auðskiljanlegum framburði og eðlilegu tónfalli og sem sé skiljanlegur án
þjálfunar.
Íslenskur
talgervill sem upphaflega var gerður um 1990 í samstarfi sænska fyrirtækisins
Infovox, Öryrkjabandalags Íslands, Málvísindastofnunar Háskólans og verkfræðideildar
hefur verið endurbættur. Hann byggist nú á annarri og nýrri tækni en áður en er
þó langt frá því að vera nógu góður (sjá http://www.babeltech.com/Demos.php?Langue=Icelandic-Snorri&sw=1&IndexValue=20&m=3&s=48&f=96).
Undirbúningur að gerð nýs talgervils hefur staðið yfir í nokkurn tíma og er von
til þess að það verk verði unnið á þessu ári, a.n.l. fyrir styrk frá
tungutækniverkefninu.
6. Unnið verði
að þróun talgreiningar fyrir íslensku, með það að markmiði að til verði forrit
sem geti túlkað eðlilegt íslenskt tal.
Á árinu 2003
unnu Háskólinn og fjögur íslensk fyrirtæki að þróun íslenskrar
stakorðagreiningar í samstarfi við fjölþjóðlega tungutæknifyrirtækið ScanSoft
(sjá http://www.tungutaekni.is/news/helga.pdf,
http://www.tungutaekni.is/news/hjal.PDF).
Þjálfun íslensks talgreinis tókst mjög vel og talgreinirinn virkar ekki síður
en sambærilegir talgreinar fyrir ýmis önnur tungumál. Hins vegar hefur ekkert
verið unnið í því að þróa talgreini sem skilji samfellt talað mál.
7. Unnið
verði að þróun forrita til vélrænna þýðinga milli íslensku og annarra
tungumála, m.a. til að auðvelda leit í gagnabönkum.
Á þessu sviði
hefur lítið sem ekkert gerst. Einstöku tilraunir hafa verið gerðar (sjá http://www.simnet.is/stbr/heim.html)
og ýmsir hafa unnið með hjálparforrit eins og þýðingarminni, en engin nothæf
þýðingarforrit eru á leiðinni svo að vitað sé.
8. Ákveðnum
aðilum (stofnunum eða fyrirtækjum) verði falin ábyrgð á einstökum verkefnum.
Eins og áður
hefur komið fram varð skýrslan frá 1999 til þess að sett var á fót
verkefnisstjórn í tungutækni (sjá http://www.tungutaekni.is/info/verkefnid.html)
sem átti að hafa yfirlit yfir stöðu tungutækni í landinu, ýta verkefnum af stað
og samræma aðgerðir. Óhætt er að segja að þetta hafi skilað góðum árangri.
Verkefnisstjórnin var hins vegar lögð niður um síðustu áramót, og óvíst hvernig
starfi hennar verður fylgt eftir.
Í tillögum starfshópsins vorið 1999 var lagt til að tungutækniátakið stæði í a.m.k. fjögur ár og heildarkostnaður á ári yrði:
Þróunarmiðstöð
|
25 til 50 MKR
|
Rannsókna- og þróunarsjóður
|
150 MKR
|
Sérstakur styrkur til stærri alþjóðlegra verkefna
|
30 MKR
|
Stutt hagnýtt nám í máltækni
|
10 MKR
|
Meistaranám í máltölvun
|
10 MKR
|
Alls
|
225 til 250
MKR
|
Þótt vissulega
hafi verulegu fjármagni verið varið til tungutækniátaksins fer því fjarri að
þessum tillögum hafi verið fylgt eftir. Það sem fengist hefur undanfarin fimm
ár er:
Fjáraukalög 2000
|
40 MKR
|
Fjárlög 2001
|
64,5 MKR
|
Fjárlög 2002
|
0 MKR
|
Fjárlög 2003
|
15 MKR
|
Fjárlög 2004
|
13,5 MKR
|
Alls
|
133 MKR
|
Þetta er því u.þ.b. 1/8 þess sem starfshópurinn
taldi að þyrfti til að ná tilætluðum árangri. Það er því ekki von að öllum
verkefnunum sem talin eru í 3. kafla hafi verið gerð skil. Þó er óhætt að segja
að furðu mikið hafi áunnist miðað við tilkostnað. Tungutækniáætlunin hefur
skilað heilmiklu. Kennsla í tungutækni og samstarf við erlenda háskóla á þessu
sviði er hafið, Íslendingar eru farnir að fara í tungutækninám erlendis,
mikilvæg gagnasöfn hafa verið byggð upp, og ýmsum rannsóknar- og
þróunarverkefnum hefur verið ýtt af stað. En því fer þó fjarri að íslensk
tungutækni sé orðin sjálfbær, eins og stefnt var að.
Því miður ber tungutækniverkefnið sömu einkenni og
mörg önnur íslensk „átaksverkefni“. Á þeim vilja vera tveir megingallar. Annar
er sá að þeim er ætlaður of skammur tími. Það tekur tíma að byggja upp menntun,
rannsóknir, þróunarstarf og iðnað úr nánast engu. Fjögur – fimm ár duga
einfaldlega ekki til þess. Hinn megingalli átaksverkefna felst í dreifingu
fjármagns yfir verktímann. Iðulega er mest fé sett í verkefnin fyrst, áður en
aðstæður hafa verið skapaðar til að taka við því og nýta það eins vel og
skynsamlega og hægt væri, ef betra tóm gæfist til undirbúnings. Síðan dregur úr
fjárveitingum þegar líður á líftíma verkefnisins, öfugt við það sem þyrfti að
vera, og þegar búið er að mennta fólk og byggja upp þróunarumhverfi í
fyrirtækjum eru peningarnir búnir. Ég endurtek að vissulega hefur
tungutækniverkefnið skilað miklu, en það væri mjög mikilvægt að halda áfram
opinberum stuðningi við íslenska tungutækni enn um hríð, til að nýta betur það
fé sem hefur verið varið í verkið hingað til og þá þekkingu sem hefur verið
byggð upp hjá fræðimönnum og fyrirtækjum.
Hér er ástæða til að nefna einnig íslenskt upplýsingasetur um tungutækni, þótt það sé ekki í beinum tengslum við tungutækniverkefni menntamálaráðuneytisins. Frá hausti 2001 hefur Orðabók Háskólans rekið slíkt setur, en sams konar setur voru sett upp um sama leyti á öllum Norðurlöndunum fyrir fé úr norrænu tungutækniáætluninni (sjá http://www.nordforsk.org/meny.cfm?m=148). Þau hafa með sér samstarfsnet, NorDokNet (http://www.nordoknet.org). Verkefnisstjórn í tungutækni hélt á starfstíma sínum úti vefsetrinu http://www.tungutaekni.is. Um síðustu áramót, þegar starfstíma verkefnisstjórnarinnar lauk, voru þessir vefir sameinaðir, enda hlutverk þeirra svipað. Sameinaða vefsetrið hefur veffangið http://www.tungutaekni.is og er rekið af Orðabók Háskólans. Efni þess og efnisskipan tekur mið af sameiginlegu mynstri sem notað er á öllum norrænu upplýsingasetrunum. Allt efni hefur verið uppfært og mjög miklu bætt við. Allar síður eru nú til bæði á íslensku og ensku. Leitarvélin SiteSeeker (http://www.euroling.se) hefur verið tengd inn á vefinn, eins og á vefi hinna norrænu upplýsingasetranna, og leitar á þeim öllum. Hægt er að leita að „upplýsingum á íslensku um einstaklinga sem fást við vélrænar þýðingar“ eða „upplýsingum á norsku um fyrirtæki á sviði taltækni“ eða „upplýsingum á dönsku um talgervla“ eða „upplýsingum á hvaða máli sem er um málheildir“ o.s.frv. Þetta er hægt vegna þess að upplýsingarnar eru alls staðar flokkaðar á sama hátt, og samræmd lykilorð eru alls staðar notuð. Nú er unnið að því að koma upp hliðstæðum íðorðalistum fyrir öll Norðurlandamálin, auk ensku, með það að markmiði að hægt verði að slá inn leitarorð á hverju málanna sem er og fá upplýsingar á þeim öllum, eða einhverjum tilgreindum málum.
Nú eru í gangi ýmsar tilraunir til að tryggja
framhaldslíf norrænu upplýsingasetranna eftir að fjármögnun úr norrænu
tungutækniáætluninni lýkur um mitt ár. Þessar tilraunir ganga einkum út á það
að tengja setrin nánar við fyrirtæki á sviði tölvu- og upplýsingatækni. Það
hefur komið í ljós annars staðar á Norðurlöndunum (a.m.k. í Danmörku) að
fyrirtækin sækja sér talsvert mikið upplýsingar til setranna, þótt menn hefðu
upphaflega hugsað þau fyrst og fremst til akademískra nota. Því hefur Center
for sprogteknologi í Danmörku (http://www.cst.dk),
sem hefur forystu í NorDokNet, náð samstarfi við samtök iðnaðarins á
Norðurlöndum og sent inn forumsókn til Norrænu nýsköpunarmiðstöðvarinnar
(Nordisk Innovationscenter, http://www.nordicinnovation.net/) um að kanna möguleika á samstarfi um
áframhaldandi rekstur og útvíkkað hlutverk setranna. Þessi forumsókn var nýlega
samþykkt, og um miðjan mars verður haldið málþing í Kaupmannahöfn með þátttöku
setranna og fulltrúa samtaka iðnaðarins á Norðurlöndum, þ. á m. Íslandi. Upp úr
því kemur í ljós hvort grundvöllur er fyrir áframhaldandi samstarfi. Þá er
Aksis í Noregi (http://www.aksis.uib.no/)
að undirbúa umsókn í 6. rammaáætlun Evrópusambandsins þar sem gert er ráð fyrir
útvíkkuðu samstarfsneti upplýsingasetra á sviði tungutækni. Þar eru öll norrænu
setrin með, en einnig Language Technology World (http://www.lt-world.org) í Þýskalandi sem
er alþjóðlegt upplýsingasetur um tungutækni, svo og spænskt upplýsingasetur,
auk þess sem gert er ráð fyrir stofnun sambærilegra setra í öllum
Eystrasaltslöndunum.
Þegar mikilvægi íslenskrar tungutækni er metið verður að líta til þess að upplýsingatæknin er orðin mikilvægur þáttur í daglegu lífi alls almennings í landinu. Ef ekki verður hægt að nota íslensku innan hennar kemur upp splunkuný staða, sem ekki á sér hliðstæðu fyrr í málsögunni. Þá verður orðinn til mikilvægur þáttur í daglegu lífi venjulegs fólks, þar sem móðurmálið er ónothæft. Hvaða áhrif hefur það á málnotendur og málsamfélagið? Hvað gerist ef móðurmálið er ekki lengur nothæft í nýrri tækni og öðru sem er nýtt og spennandi; á sviðum þar sem nýsköpun af ýmsu tagi á sér stað; og á sviðum þar sem ný atvinnutækifæri bjóðast? Menn þurfa varla að velta þessu lengi fyrir sér til að sjá hættumerkin.
En það er rangt að meta þörf á íslenskri tungutækni
eingöngu út frá sjónarmiði málsins og varðveislu þess. Við eigum einnig og ekki
síður að líta á þetta út frá þörfum málnotendanna. Þeir eiga ekki að þurfa að
sitja skör lægra en aðrir, og vera neyddir til þess að nota erlend mál við
hversdagslegar aðstæður. Þeir eiga kröfu á því að geta notað móðurmál sitt hvar
sem er í íslensku málsamfélagi. Allt annað er uppgjöf fyrir ytri aðstæðum –
uppgjöf sem við eigum ekki að sætta okkur við.
Það er
auðvitað ljóst að við getum aldrei fengið allt á íslensku. Smæð málsamfélagsins
gerir það að verkum að við verðum alltaf að sætta okkur við einhverjar málamiðlanir.
Við gerum ekki athugasemd við það að það standi R, N og P á gírstönginni í
bílnum okkar, og leiðum sjaldnast hugann að því að þessir bókstafir standa
fyrir ensku orðin reverse, neutral og park. Fyrir okkur
eru þetta bara tákn, óháð tungumáli. En mál í virkri notkun, mál í samhengi,
slítur sig ekki frá uppruna sínum á sama hátt og einstakir bókstafir geta gert.
Þess vegna verðum við að geta notað íslensku í staðinn, við sem flestar og
fjölbreyttastar aðstæður. Að öðrum kosti verðum við málfarslega undirokuð í
okkar eigin málsamfélagi.
Ég fór í haust í vikuferð um Eystrasaltslönd með
hópi norræns tungutæknifólks. Tilgangurinn var að mynda sambönd, kynna hvað við
værum að gera, og kynnast því hvað væri að gerast í tungutækni í þessum löndum.
Þetta eru allt smáþjóðir, þótt þær séu vissulega stærri en við, en mun
fátækari. Metnaður þeirra í því að gera móðurmál sín gjaldgeng innan
upplýsingatækninnar vakti þó mikla athygli okkar. Ekki síst hrifumst við af
frumkvæði Eista sem hafa gert sérstaka áætlun um uppbyggingu eistneskrar
tungutækni næstu sjö árin. Þar er tilgreint í smáatriðum hvað ætlunin sé að
gera á hverju ári fram til 2011. Það er ekki nema um það bil milljón manns sem
á eistnesku að móðurmáli, og þeir eru núna á svipuðu stigi og við í þróun tungutækni
– komnir aðeins lengra á sumum sviðum en skemmra á öðrum. Munurinn er hins
vegar sá að þeirra tungutækniáætlun er
að byrja – okkar að enda. Eigum við að láta hér við sitja?