Hey Google!
Á tímum tölva og snjalltækja hefur íslenskan aldrei verið í jafn mikilli hættu stödd og hræðast margir að yfirvofandi hætta sé á að hún muni deyja stafrænum dauða ef ekki er bætt úr stöðu hennar í hinum stafræna heimi. Ungmenni alast upp með snjallsíma í annarri hendinni sem líta má á sem gátt inn í hinn stafræna heim þar sem fátt fer fram á íslensku.
Börn alast upp með enskumælandi snjallaðstoðarmann sem þau kalla ýmist Alexa eða Google og fer með þeim í leiki, svarar spurningum og spilar tónlist ef þau biðja um það. Þrátt fyrir að þessi nýja tækni sé frábær og geri upplýsingar og afþreyingarefni aðgengilegra en nokkurn tímann áður þá viljum við ekki útiloka íslenskuna frá ákveðnum þáttum í lífi okkar. Íslenskir talgreinar og talgervlar hafa þó verið til um nokkurt skeið en notkun þeirra hefur ekki verið neitt sérstaklega áberandi.
Fyrsti íslenski talgervillinn var gerður um 1990 og talgreinir var þróaður fyrir íslensku í samvinnu við Google árið 2012 (Eiríkur Rögnvaldsson, 2014). Árið 2018 var opnað fyrir vefgátt fyrir talgreini á íslensku sem opin er öllu og var stór þáttur í að snúa vörn í sókn („Talað við tölvur“, 2018).
Í krafti fjöldans
Ekki hefur borið mikið á því að hugbúnaðarfyrirtæki séu að nýta sér þær lausnir sem komnar eru í máltækni líklega er það vegna þess að nákvæmni talgreinanna jafnast ekki á við erlenda talgreina. Til þess að þróa mjög góðan talgreini þarf nefnilega gífurlegt magn af gögnum, Málrómur er stærsta safn af raddsýnum til þróunar á máltæknilausnum á íslensku og nemur 152 klukkustundum af tali frá 563 mismunandi röddum (Málrómur, e.d.). Gagnasöfn eins og þetta tel ég vega meira í dag heldur en hinn einstaki talgreinir, þar sem það eru opin gagnasöfn sem leyfir almenning að gera tilraunir og eigin rannsóknir til þess að bæta stöðu máltækni á Íslandi.
Gagnasöfnunin er lang dýrasti þátturinn af slíkum verkefnum og oft sá mikilvægasti þar sem flestir talgreinar og mörg önnur kjarnaverkefni máltækninnar byggja á notkun vélræns gagnanáms (e. machine learning) sem krefst mikils magns af gögnum til þess að skila góðum niðurstöðum. Raddstýrð tækni er einnig oft takmörkuð að einhverju ákveðnu notagildi og er þá nægilegt að talgreinir skilji bara ákveðnar skipanir og greining á frjálsu máli óþarfi, fyrir þá tækni er upplagt að framleiðendur geti nýtt opin gagnasöfn til þess að gera sína eigin sérhæfðu talgreina.
Málrómur er ágætis safn en það er langt í land fyrir íslenskuna. Það vantar mikið magn af raddsýnum sem endurspegla hinn meðal Íslendinga og enn meiri vöntun er á raddsýnum frá öðrum hópum, þá helst börnum og fólki sem talar með erlendum hreim. Ein leið til að safna raddsýnum fyrir stærra opið gagnasafn er í krafti fjöldans, með því að hópvirkja (e. crowd source) söfnun raddsýna náum við til breiðari hóps innan þjóðfélagsins og sem dæmi má nefna að ef allir Íslendingar gæfu rúmlega 12 sekúndna raddsýni þá myndi það skila af sér 1,200 klukkutíma gagnasafni.
Opinsæi út á við
Söfnun raddsýna með hópvirkjun og opinn máltækni hugbúnaður hefur skilað góðum árangri erlendis. Sjálfseignarstofnunin Mozilla Foundation hefur verið hvað mest áberandi á því sviði síðastliðin ár. Árið 2017 gaf Mozilla Foundation út opinn hugbúnað sem gerir öllum kleift að þróa sinn eigin talgreini á tiltölulega einfaldan hátt, verkefnið er byggt á rannsókninni Deep Speech frá Baidu og mega notendur hugbúnaðarins eiga von á talgreini sem er nægilega hraður fyrir snjallsíma án þess að krefjast nettengingar („A Journey to“, 2017).
Deep Speech rannsóknin sýndi fram á að þeirra tækni geti skilað af sér meiri nákvæmni í talgreiningu en fremstu talgreinar þess tíma en til þess þurfi þó tæplega 12,000 klukkutíma af raddsýnum („A 2019 Guide“, 2019). Til þess að gera hugbúnaðinn enn aðgengilegri almenningi setti Mozilla Foundation af stað verkefnið Common Voice, hugbúnaður sem sér um söfnun raddsýna með hópvirkjun. Þau raddsýni sem safnað er með hugbúnaðnum verða partur af opnu gagnasafni sem er aðgengilegt öllum og er stærsta opna gagnasafn raddsýna í heiminum með tæplega 1,400 klukkutíma af raddsýnum („Sharing our Common“, 2019). Með útgáfu svona gagnasafna er á vissan hátt verið að taka völd máltækninnar úr höndum fárra tæknirisa og gera almenningi kleift að hanna háþróaðar máltækni lausnir.
Hópvirkjum Ísland
Í sumar unnu 4 háskólanemar að rannsóknarverkefni sem sneri að talgreiningu fyrir vélmenni í eigu Deloitte á Íslandi. Hópurinn notaði Deep Speech hugbúnaðinn frá Mozilla Foundation til þess að búa til sinn eigin talgreinir og notuðu til þess raddsýni úr gagnasafninu Málrómur. Með einungis 150 klukkustundir af raddsýnum tókst hópnum að gera talgreinir með sem nær 84% orða rétt, talgreinir Gervigreindarseturs HR nær 85% orða rétt á sama gagnasafni. Sami hópur sá um að undirbúa söfnun raddsýna á Íslandi með tækni byggða á Common Voice og verður hún sett verður af stað í október n.k. (Eyþór Máni Steinarsson, 2019).
Ótrúlegur árangur Mozilla Foundation sýnir hversu mikilvægt er fyrir okkur að styðja við þá aðila sem eru að þróa opinn hugbúnað fyrir máltækni og hópvirkja Ísland í söfnun á raddsýnum fyrir opið gagnasafn. Ef að 4 háskólanemar geta gert talgreini með 150 klukkustundir af raddsýnum, ímyndaðu þér þá hvað hægt að gera með 1000 klukkustundir.
Skortur á opnum gögnum er stórt vandamál í máltækni í dag, íslenska gæti verið í hættu á að deyja stafrænum dauða og því þurfum við að standa vörð um tungumálið okkar og bjarga íslenskunni saman!
Höfundur Viktor Sveinsson nemi við Háskólann í Reykjavík
Heimildir
Derrick Mwiti. (2019). A 2019 Guide for Automatic Speech Recognition. Heartbeat. Sótt 20. september af https://heartbeat.fritz.ai/a-2019-guide-for-automatic-speech-recognitionf1e1129a141c
Eiríkur Rögnvaldsson. (2014). Hvað er máltækni og hvaða máli skiptir hún fyrir íslensku?
Vísindavefurinn. Sótt 20. september 2019 af http://visindavefur.is/svar.php?id=66671
Eyþór Máni Steinarsson. (2019). Máltækniverkefnið ANNA. Óbirt efni.
George Roter. (2019). Sharing our Common Voices – Mozilla releases the largest to-date public domain transcribed voice dataset. Mozilla. Sótt 21. september af https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domaintranscribed-voice-dataset
Talað við tölvur á íslensku með nýjum talgreini. (2018). Háskólinn í Reykjavík. Sótt 20. september 2019 af https://www.ru.is/haskolinn/frettir/talad-vid-tolvur-a-islensku-med-nyjum-talgreini
Reuben Morais. (2017). A Journey to <10% Word Error Rate. Mozilla. Sótt 20. september af https://hacks.mozilla.org/2017/11/a-journey-to-10-word-error-rate
Skil á efni
Leita í vefútgáfu Tölvumála
Um Tölvumál
Tölvumál - tímarit Skýrslutæknifélags Íslands er óháð tímarit um tölvutækni og hefur verið gefið út frá árinu 1976.
Vefútgáfa Tölvumála birtir vikulega nýja grein á vef Ský og árlega er gefið út veglegt prentað tímarit undir nafninu "Tölvumál" þar sem fjallað er um tölvutækni frá ýmsum sjónarhornum og er þema blaðsins jafnan valið snemma árs og útgáfa að hausti.
Ritnefnd Ský sér um að afla efni í Tölvumál og geta allir sem áhuga hafa sent inn efni.