Íslensk málföng

18. september 2014

Íslensk málföng

Í pistli sem birtist í vefútgáfu Tölvumála í ágúst 2013 (Sigrún Helgadóttir 2013) var greint í stórum dráttum frá vinnu við máltækni á Íslandi frá síðustu aldamótum. Sérstaklega var greint frá verkefninu META-NORD. Í tengslum við það verkefni var komið á fót sérstöku vefsetri http://www.málföng.is. Þar eru nú aðgengileg margvísleg málföng. Í tengslum við verkefnið voru einnig skráð lýsigögn um 23 málföng í sérstaka META-SHARE gagnahirslu (http://metashare.tilde.com/). Eins og greint var frá í vefgreininni er orðið málföng nýyrði, þýðing á enska heitinu language resources og er myndað með hliðsjón af orðunum tilföng og aðföng. Í þessari grein verður sagt frá helstu málföngum sem eru aðgengileg á http://www.málföng.is.

Stór þáttur í starfi META-NORD hópsins fólst í að semja við rétthafa málfanga um að fá að skrá þau og með hvers konar skilmálum þau yrðu gerð aðgengileg. Einnig var lögð áhersla á að færa gögn í staðlað snið. Alls voru skráð 23 málföng í META-SHARE (http://metashare.tilde.com/) gagnahirsluna, 11 málheildir, 9 orðasöfn og 3 máltól. Ekkert af þessum málföngum er geymt í META-SHARE gagnahirslunni. Í staðinn eru gefnir tenglar á staði í netheimum þar sem gögnin eru geymd, oftast á málfangasíðuna.

Mikilvægasta máltólið er IceNLP forritasamstæðan (Hrafn Loftsson og Eiríkur Rögnvaldsson 2007) fyrir greiningu íslensks texta. Í forritasamstæðunni eru einingar til þess að skipta texta í lesmálsorð og setningar, fyrir mörkun texta (e. part-of-speech tagging), til þess að finna nefnimyndir (e. lemmatising), fyrir þáttun (e. shallow parsing) og til þess að bera kennsl á sérnöfn. Þegar texti er markaður fá orðin mark sem er greiningarstrengur þar sem fram kemur orðflokkur og ýmsar beygingarmyndir.

Nefnimyndir eru líka stundum kallaðar flettimyndir og eru t.d nefnifall eintölu fyrir nafnorð og nafnháttur sagna. Taka má sem dæmi setningarbrotið ég sagði. Nefnimynd fornafnsins ég er ég og markið verður fp1en, þar sem f táknar fornafn, p táknar persónufornafn, 1 táknar fyrstu persónu, e táknar eintölu og n táknar nefnifall. Nefnimynd sagnarinnar sagði er segja og markið verður sfg1eþ þar sem s táknar sagnorð, f táknar framsöguhátt, g táknar germynd, 1 táknar fyrstu persónu, e táknar eintölu og þ táknar þátíð. Með þáttun er greind formgerð setninga og tengsl einstakra hluta þeirra. Prófa má virkni forritanna (http://nlp.cs.ru.is/) og sækja þau á http://icenlp.sourceforge.net/ með því að samþykkja leyfið LGPL. Einnig má prófa og sækja grófþýðingarkerfið Apertium-is-en (Martha Dís Brandt o.fl. 2011) sem þýðir af íslensku á ensku. Þriðja máltólið er CombiTagger (Verena Heinrich o.fl. 2009) sem getur sameinað niðurstöðu úr tveimur eða fleiri flokkurum (t.d. mörkurum) með kosningu.

Á málfangasíðunni er nú aðgangur að 6 málheildum með texta og 5 málheildum sem hafa bæði texta og tal. Stærsta textamálheildin er Íslenskur orðasjóður (http://wortschatz.uni-leipzig.de/ws_isl/) (Erla Hallsteinsdóttir o.fl. 2007) sem hefur að geyma um 500 milljónir lesmálsorða. Stærstu hlutar þeirrar málheildar er textar sem Landsbókasafn-Háskólabókasafn safnaði haustin 2005 og 2010 af lénum sem hafa veffang sem endar á .is. Textar í orðasjóðnum eru ekki markaðir. Hins vegar fylgir m.a. einmála orðasafn sem er búið til með sjálfvirkum aðferðum og listi yfir tíðni orða. Þessi málheild hefur þegar nýst fyrir ýmis verkefni, t.d. við gerð gagnagrunns fyrir merkingarvensl og við gerð forrits fyrir samhengisháða stafsetningarleiðréttingu fyrir íslensku og fyrir leiðréttingu á ljóslesnum textum úr gömlum blöðum og tímaritum.

Elsta markaða málheildin er textasafn sem var gert vegna Íslenskrar orðtíðnibókar (Jörgen Pind o.fl. 1991) sem var gefin út árið 1991. Í textasafninu eru um 500.000 lesmálsorð úr 100 mismundandi textum sem voru gefnir út á áratugnum 1980–1989. Um 80% af textunum eru bókmenntatextar. Textarnir voru markaðir með sjálfvirkum aðferðum að hluta til og mörkunin var handleiðrétt. Þessi málheild hefur verið notuð til þess að þróa þá markara fyrir íslensku sem nú eru notaðir og einnig eina þáttarann sem hefur verið gerður.

Í apríl 2013 var formlega opnaður aðgangur að Markaðri íslenskri málheild (MÍM) sem hefur að geyma um 25 milljónir lesmálsorða af fjölbreyttum textum sem voru ritaðir á árunum 2000–2010 (Sigrún Helgadóttir o.fl. 2012). Málheildin verður notuð bæði fyrir málfræðilegar rannsóknir og margvísleg máltækniverkefni. Um 88,5% af textum málheildarinnar er textar sem eru bundnir höfundarrétti. Afgangurinn er opinberir textar (ræður alþingismanna, textar laga og frumvarpa, dómar og reglugerðir o.þ.h.). Leitað var eftir samþykki allra rétthafa texta sem eru varðir af höfundarrétti til þess að hafa þá í málheildinni. Beðið var um leyfi fyrir tvenns konar not. Í fyrsta lagi er leyft að leita í textunum á vefsetri Stofnunar Árna Magnússonar í íslenskum fræðum (http://mim.arnastofnun.is/) og nýta í leitinni málfræðilegar upplýsingar sem felast í mörkunum. Í öðru lagi má sækja textana og nota þá fyrir rannsóknir og í máltækniverkefnum með því að samþykkja sérstakt notkunarleyfi.

Aðalatriði notkunarleyfisins snúast um það að leyfishafi getið notað það sem hann lærir af málheildinni að vild. Leyfishafa er þó ekki heimilt að gefa út á prenti eða í rafrænu formi, birta, miðla til almennings eða hagnýta á annan hátt í atvinnu- eða hagnaðarskyni texta úr MÍM umfram það sem heimilað er í 14. gr. höfundalaga nr. 73/1972 og skal þá ætíð geta heimildar. Ekki er heldur leyfilegt að framselja notkunarleyfið til þriðja aðila. Textarnir í MÍM voru markaðir og fundnar nefnimyndir á vélrænan hátt. Textana ásamt lýsigögnum má sækja á málfangasíðuna í sérstöku XML-sniði sem hefur verið skilgreint fyrir málheildir (http://www.tei-c.org/release/doc/tei-p5-doc/en/html/). Leitarviðmót málheildarinnar má nota m.a. í kennslu og gögnin hafa þegar verið notuð t.d. við gerð búnaðar fyrir leiðréttingu samhengisháðra stafsetningarvillna.

GULL-staðall fyrir mörkun texta (Hrafn Loftsson o.fl. 2010) hefur að geyma úrtak úr MÍM með um einni milljón orða. Í þeirri útgáfu (0,9) sem er aðgengileg á málfangasíðunni þegar þetta er skrifað hafa mörk verið leiðrétt handvirkt af einum starfsmanni. Nú er unnið við að fara aftur yfir mörkin. Gull-staðallinn verður síðan notaður fyrir þróun markara og annarra máltæknitóla þar sem rétt mörkun og lemmun er nauðsynleg.

Sett var upp sérstakt leitarviðmót fyrir markaðar málheildir á vefsetrinu http://mim.arnastofnun.is/ sem er líka aðgengilegt frá málfangasíðunni. Stuðst var við norskt leitarkerfi Glossa (http://www.hf.uio.no/iln/tjenester/kunnskap/sprak/glossa/index.html) sem byggist á sérstöku leitarkerfi fyrir málheildir, IMS Coprus Workbench (http://www.ims.uni-stuttgart.de/forschung/projekte/CorpusWorkbench.html). Leita má í þremur mörkuðum málheildum með íslenskri útgáfu af þessu leitarkerfi: málheild Íslenskrar orðtíðnibókar, MÍM og málheild með fornritum. Í fornritamálheildinni (Eiríkur Rögnvaldsson og Sigrún Helgadóttir 2011) eru textar úr 41 Íslendingasögu, Sturlungu, Heimskringlu og Landnámabók. Stafsetning hefur verið færð til nútímahorfs og nokkrar beygingarendingar eru færðar til nútímamáls. Einnig má sækja textana og nota þá við málrannsóknir og í máltækniverkefnum. Texta Íslenskrar orðtíðnibókar, GULL-staðalsins og Markaðrar íslenskrar málheildar má sækja með því að samþykkja sérstakt notkunarleyfi sem var búið til sérstaklega fyrir þá texta. Markaðir textar fornritanna eru hins vega aðgengilegir með því að samþykkja staðlað leyfi, CC BY 3.0.

Sögulegur íslenskur trjábanki (Icelandic Parsed Historical Corpus – IcePaHC ) var eitt af þeim verkefnum sem var unnið sem hluti af verkefninu Hagkvæm máltækni utan ensku – íslenska tilraunin. Trjábankinn er safn þáttaðra (setningafræðilega greindra) texta. Í trjábankanum (Icelandic Parsed Historical Corpus – IcePaHC, http://www.linguist.is/icelandic_treebank/Download) (Joel Wallenberg o.fl. 2011, Eiríkur Rögnvaldsson o.fl. 2012) er um 1 milljón orða af textum frá öllum málstigum íslensku. Elsti textinn er Fyrsta málfræðiritgerðin frá um 1150 og yngstu textarnir eru úr skáldsögunum Segðu mömmu að mér líði vel - saga um ástir eftir Guðmund Andra Thorssonar og Ofsa eftir Einar Kárason, báðar frá árinu 2008. Textabrotin hafa frá ríflega 3000 orðum upp í ríflega 25.000 orð.

Á málfangasíðunni er aðgangur að fimm textasöfnum þar sem eru samstilltar texta- og hljóðskrár. Þessi söfn má m.a. nota við gerð talgreina. Hjal-málheildin (Helga Waage 2004) var notuð við gerð talgreinisins sem var styrktur af tungutækniverkefni menntamálaráðuneytisins. Arnar Jensson gerði Jensson-, Þór- og RUV-málheildirnar sem hluta af doktorsverkefni sínu við japanskan háskóla (Arnar Jensson o.fl. 2008). Einnig eru aðgengilegar skrár með umrituðum ræðum frá Alþingi, alls um 21 klukkustund.
Í tengslum við Hjal-verkefnið var einnig gerð framburðarorðabók. Framburðarorðabókin er aðgengileg í Excel-skjali þar sem eru milli 50 og 60 þúsund hljóðritaðar orðmyndir. Orðmyndirnar voru bæði hljóðritaðar samkvæmt SAMPA- (http://www.phon.ucl.ac.uk/home/sampa/) og IPA-stöðlum (http://www.langsci.ucl.ac.uk/ipa/).

Fyrir utan framburðaorðabókina er aðgangur að 8 málföngum sem má flokka sem nokkurs konar orðasöfn eða orðabækur. Á málfangasíðunni er tengill á Beygingarlýsingu íslensks nútímamáls, BÍN, (Kristín Bjarnadóttir 2012) sem var eitt af fyrstu máltækniverkefnum sem unnið var að á Orðabók Háskólans. Stöðugt er unnið við að bæta BÍN sem nú hefur um 270.000 beygingardæmi með ríflega 5,8 milljónum beygingardæma. Uppflettiaðgangur að BÍN nýtist öllum sem vilja kynna sér beygingu einstakra orða og gögnin sem einnig má sækja eru nýtt í margvísleg máltækniverkefni.

Sem hluti af META-NORD verkefninu var aflað leyfa frá rétthöfum 41 orðasafns í Íðorðabankanum (http://www.ordabanki.hi.is/wordbank/search) til þess að hafa orðasöfnin aðgengileg til notkunar í máltækniverkefnum. Þessi orðasöfn eru aðgengileg í TBX-sniði (http://www.tbxconvert.gevterm.net/) á málfangasíðunni. Orðasöfn í TBX-sniði má nota í sumum þýðingaminnum (e. translation memories). Eitt af orðasöfnunum í þessum pakka er 5. útgáfa Tölvuorðasafns. En það má einnig sækja á síðu Tölvuorðasafnsins á vefsetri Skýrslutæknifélagsins (http://sky.is/).

Í nóvember 2011 var opnaður aðgangur að veforðabókinni ISLEX (http://islex.lexis.hi.is/) þar sem íslenska er viðfangsmálið og markmálin eru danska, sænska og norska, bæði bókmál og nýnorska. ISLEX er samstarfsverkefni fjögurra stofnana á Íslandi, í Svíþjóð, Noregi og Danmörku. Þær eru Stofnun Árna Magnússonar í íslenskum fræðum í Reykjavík, Det Danske Sprog- og Litteraturselskab í Kaupmannahöfn, Institutt for lingvistiske, litterære og estetiske studier við Háskólann í Bergen og Institutionen för svenska språket við Háskólann í Gautaborg. Gert var samkomulag við þessar stofnanir um að gagnasafn orðabókarinnar yrði aðgengilegt fyrir notkun í máltækniverkefnum. Efnið var flutt í LMF-snið (http://www.lexicalmarkupframework.org/) sem er staðlað snið fyrir orðabókagögn. Við hvert uppflettiorð í ISLEX-orðabókinni er gefinn framburður í formi hljóðskrár. Um er að ræða tæplega 49.000 orð og auk þess rúmlega 700 orðasambönd (t.d. sjá aumur á honum, eiga í brösum við hana). Hljóðskrárnar eru aðgengilegar á málfangasíðunni.

Á málfangasíðunni eru tenglar á fleiri verkefni þar sem er aðgangur að gagnlegum orðasöfnum eins og Íslenskum merkingarbrunni (MerkOr, http://merkor.skerpa.com/MerkorApplication), Íslensku orðaneti (http://ordanet.is/), Hugtakasafni utanríkisráðuneytisins (http://www.hugtakasafn.utn.stjr.is/) og IceWordNet sem er frumgerð að íslenskri útgáfu af kjarnalista Princeton WordNet (Princeton Core WordNet, http://wordnetcode.princeton.edu/standoff-files/core-wordnet.txt).

Lesendur Tölvumála eru hvattir til þess að kynna sér þessi margvíslegu málföng sem nú er greiður aðgangur að í gegnum síðuna http://www.málföng.is/.

Höfundur: Sigrún Helgadóttir, tölfræðingur, verkefnisstjóri á Stofnun Árna Magnússonar í íslenskum fræðum

Heimildir:
Arnar Thor Jensson, Koji Iwano og Sadaoki Furui. (2008). Language model adaptation using machine-translated text for resource-deficient languages. Eurasip Journal on Audio, Speech, and Music Processing, 2008. Article ID 573832.
Eiríkur Rögnvaldsson og Sigrún Helgadóttir. 2011. Morphosyntactic Tagging of Old Icelandic Texts and Its Use in Studying Syntactic Variation and Change. Sporleder, Caroline, Antal P.J. van den Bosch og Kalliopi A. Zervanou (ritstj:): Language Technology for Cultural Heritage: Selected Papers from the LaTeCH Workshop Series. s. 63–76. Springer, Berlín.
Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2012. Sögulegi íslenski trjábankinn. Gripla 23:331-352.
Erla Hallsteinsdóttir, Thomas. Eckart, Chris Biemann, og Matthias. Richter. 2007. Íslenskur orðasjóður – Building a Large Icelandic Corpus. In Proceedings of the 16th Nordic Conference of Computational Linguistics (NoDaLiDa 2007), Tartu, Estonia.
Verena Henrich, Timo Reuter og Hrafn Loftsson. 2009. CombiTagger: A System for Developing Combined Taggers. In Proceedings of the 22nd International FLAIRS Conference, Special Track: "Applied Natural Language Processing". Sanibel Island, Florida, USA. © 2009 AAAI.
Helga Waage. 2004. Hjal – gerð íslensks stakorðagreinis. Samspil tungu og tækni. Menntamálaráðuneytið, Reykjavík.
Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceNLP: A Natural Language Processing Toolkit for Icelandic. Í Proceedings of InterSpeech 2007, Special session: "Speech and language technology for less-resourced languages". Antwerp, Belgium.
Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoS-tagged corpus using existing tools. In Proceedings of "Creation and use of basic lexical resources for less-resourced languages", workshop at the 7th International Conference on Language Resources and Evaluation (LREC 2010). Valetta, Malta.
Jörgen Pind, Friðrik Magnússon, og Stefán Briem. 1991. Íslensk orðtíðnibók. Orðabók Háskálans, Reykjavik.
Kristín Bjarnadóttir. 2012. The Database of Modern Icelandic Inflection. Í Proceedings of the SaLTMiL-AfLaT Workshop „Language Tecnology for normalisation of less-resourced languages"“, 8th International Conference on Language Resources and Evaluation (LREC 2012). Istanbúl, Tyrklandi.
Martha Dís Brandt, Hrafn Loftsson, Hlynur Sigurþórsson og Francis M. Tyers. 2011. Apertium-IceNLP: A rule-based Icelandic to English machine translation system. Í Proceedings of the 15th Annual Conference of the European Association for Machine Translation (EAMT-2011). Leuven, Belgium.
Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus (MÍM). Í Proceedings of the SaLTMiL-AfLaT Workshop „Language Tecnology for normalisation of less-resourced languages"“, 8th International Conference on Language Resources and Evaluation (LREC 2012). Istanbúl, Tyrklandi.
Sigrún Helgadóttir. 2013. Máltækni á Íslandi, vefútgáfa Tölvumála (http://sky.is/)
Joel C Wallenberg, Anton Karl Ingason, Einar Freyr Sigurðsson og Eiríkur Rögnvaldsson. 2011. Icelandic Parsed Historical Corpus (IcePaHC). Version 0.9. http://www.linguist.is/icelandic_treebank

Skoðað: 3755 sinnum

Blaðið Tölvumál

Eldri tölublöð

Skil á efni

Til greinahöfunda

Til auglýsenda

Leita í vefútgáfu Tölvumála

Um Tölvumál

Tölvumál - tímarit Skýrslutæknifélags Íslands er óháð tímarit um tölvutækni og hefur verið gefið út frá árinu 1976.

Vefútgáfa Tölvumála birtir vikulega nýja grein á vef Ský og árlega er gefið út veglegt prentað tímarit undir nafninu "Tölvumál" þar sem fjallað er um tölvutækni frá ýmsum sjónarhornum og er þema blaðsins jafnan valið snemma árs og útgáfa að hausti.

Ritnefnd Ský sér um að afla efni í Tölvumál og geta allir sem áhuga hafa sent inn efni.

Um ritnefnd Tölvumála