Embla og tækifærin í íslenskri máltækni
Áhugafólk um íslenska máltækni kannast margt við snjallforritið (appið) Emblu, sem hefur staðið landsmönnum ókeypis til boða í AppStore og PlayStore undanfarin tvö ár eða svo. Embla er raddstýrður stafrænn aðstoðarmaður sem „skilur“ mæltar íslenskar fyrirspurnir og svarar upphátt á íslensku. Verkefnið, sem er opinn hugbúnaður, hefur verið í þróun hjá Miðeind frá árinu 2019. Það er tilraun til þess að skapa eins konar íslenska Alexu eða Siri, og er það fyrsta sinnar tegundar hérlendis. En hvernig virkar Embla eiginlega á bak við tjöldin?
Heildarvirkni Emblu skiptist í grófum dráttum í fimm einingar: Raddvirkjun, talgreiningu, þáttun, fyrirspurnasvörun, og talgervingu.
Raddvirkjun
Raddvirkjun (e. hotword detection) er sú tækni að greina hljóð í rauntíma í leit að virkjunarfrasa (e. hotword). Flestir notendur snjalltækja hafa væntanlega prófað að virkja stafrænan aðstoðarmann með því að segja „Hey Siri“ eða „Hey Alexa“. Líkt og raddþjónar tæknirisanna hlustar Embla eftir virkjunarfrasa, sem í hennar tilfelli er „Hæ Embla“. Raddvirkjunarferlið keyrir alfarið á snjalltækinu sjálfu, enda væri bæði seinlegt og sóun á bandvídd að senda hljóðgögn í sífellu yfir netið í þessu skyni.
Frumútgáfa Emblu nýtti opna hugbúnaðinn PocketSphinx frá Carnegie-Mellon háskóla við útfærslu á raddvirkjun. PocketSphinx, sem styður bara ensku, var stilltur til að leita að ensku orðunum „hi emm blah”, sem eru þrjú góð og gild ensk orð. Sú lausn reyndist ófullnægjandi. Í dag notast Embla við hálfopna hugbúnaðinn Snowboy, sem byggir á djúpu tauganeti (e. deep neural network) og notar greiningarlíkan þjálfað á upptökum á starfsmönnum Miðeindar að segja „Hæ Embla“.
Þegar Snowboy raddvirkjunarkerfið „heyrir“ virkjunarfrasann byrjar Embla að streyma gögnum frá hljóðnema yfir á netþjón og þá hefst svokölluð talgreining.
Talgreining
Talgreining (e. speech recognition) er sú tækni að þýða talað mál yfir í skriflegan texta, og er það sem gerir Emblu kleift að skilja íslenskt talmál. Eins og stendur notar hún tauganetatækni frá Google, sem býður upp á merkilega góða íslenska talgreiningu gegn vægu gjaldi. Þegar þróun hófst var þetta eina slíka lausnin fyrir íslensku. Ný tækni sem lofar góðu í þessum efnum hefur síðan litið dagsins ljós, m.a. frá Microsoft, og svo frá Háskólanum í Reykjavík og Tiro, sem hafa þróað frambærilega innlenda lausn undir hatti máltækniáætlunar stjórnvalda.
Embla sendir gögn í rauntíma frá hljóðnemanum yfir á talgreiningarþjón og fær til baka lista af mögulegum túlkunum á textasniði, oftast tíu líklegustu túlkanirnar. Þegar niðurstöður talgreiningar liggja fyrir eru þær sendar á fyrirspurnaþjón (e. query server).
Þáttun og fyrirspurnasvörun
Á fyrirspurnaþjóni er máltæknivélinni Greyni (greynir.is) beitt til þess að greina málfræðilega þessar líklegustu textatúlkanir, í lækkandi röð eftir líkindum. Greynir, sem er einnig opinn hugbúnaður, hefur verið í þróun hjá Miðeind undanfarin sjö ár og býr yfir öllum helstu hugbúnaðareiningum sem þarf til að vinna með íslenskt ritmál. Hluti þróunar Greynis fór fram innan máltækniáætlunar stjórnvalda. Fyrsta skrefið er að tóka (e. tokenize) fyrirspurnina, en þá er henni m.a. skipt upp í orð (og setningar ef það á við). Þá þáttar (e. parse) Greynir fyrirspurnina í setningatré og notar til þess svokallaða samhengisfrjálsa málfræði (e. context-free grammar). Setningatré þessi lýsa innri gerð og uppbyggingu málsgreina og stórlega einfalda það verk að fiska upplýsingar upp úr íslenskum setningum, til að mynda hver er að segja hvað um hvern, hvað er verið að spyrja um og svo framvegis.
Að þáttun lokinni eru þau setningatré sem koma til greina sem gildar fyrirspurnir mötuð inn í fyrirspurnakerfi. Kerfið beitir sérstakri fyrirspurnamálfræði til þess að greina inntak fyrirspurnar og gerir sitt besta til að leita í gögnum og útbúa efnislega og málfræðilega rétt svar á textasniði. Embla ræður við afmarkað en sívaxandi mengi fyrirspurna, meðal annars um veðrið, tímann, reiknidæmi, strætósamgöngur, fólk í fjölmiðlum, gengi gjaldmiðla, orðabókaskilgreiningar, fjarlægðir, staðsetningu, landafræði, fréttir, dagskrá fjölmiðla, mælieiningar og ýmislegt fleira. Í mörgum tilfellum eru gögn sótt í rauntíma frá utanaðkomandi upplýsingaveitum, til dæmis Veðurstofunni, Google Maps, Já.is, Gasvaktinni, Seðlabankanum, íslensku Wikipedíu og RÚV. Tiltölulega einfalt er að bæta við fleiri upplýsingaveitum og svara þannig fjölbreyttari fyrirspurnum.
Talgerving
Talgerving (e. speech synthesis) er sú tækni að snúa texta yfir í hljóðupptöku af stafrænni gervirödd að lesa textann. Þegar svar við fyrirspurn til Emblu er reiðubúið á textaformi er það matað inn í talgervil (e. speech synthesizer). Talgervillinn útbýr hljóðskrá sem Embla sækir og spilar, og svarar þannig notandanum með röddu.
Embla notar í dag gerviröddina Dóru sem var þróuð af pólsku fyrirtæki fyrir tilstilli Blindrafélagsins árið 2014. Röddin er nú komin í eigu Amazon og er aðeins aðgengileg í gegnum skýjaþjónustuna AWS Polly. Talgervingarþjónusta þeirra er hvorki opin né ókeypis en hefur reynst vel hingað til og er í boði gegn mjög vægu gjaldi.
Á síðustu tveimur árum hafa nokkrar nýjar íslenskar gerviraddir litið dagsins ljós. Þar má helst nefna raddirnar Gunnar og Guðrúnu frá Microsoft, og svo Diljá og Álf frá íslenska fyrirtækinu Tiro. Þær síðastnefndu voru smíðaðar á vegum máltækniáætlunar stjórnvalda og eru aðgengilegar á slóðinni tts.tiro.is.
Sumir lesendur kannast væntanlega við Samrómsverkefnið á samromur.is, þar sem safnað er upptökum af íslensku tali frá fólki í samfélaginu í krafti lýðvirkjunar. Þau gögn eru nú opin og munu vafalaust opna ýmsar dyr þegar kemur að áframhaldandi þróun á íslenskum talgervlum og talgreiningu.
Margt smátt gerir eitt stórt
Embla er gott dæmi um hvernig hægt er að grípa lausnir úr ýmsum áttum til að leysa ólíka þætti stærra vandamáls. Með því að samtvinna lausnirnar sem hér voru ræddar getur Embla tekið við mæltri fyrirspurn notanda, greint merkingarkjarna hennar, fundið svar við fyrirspurninni og skilað því á mæltu máli til notanda. Hún er vissulega ekki alltaf jafn góð í íslenskunni og raddmenni stóru tæknirisanna eru í ensku (að minnsta kosti enn sem komið er!), en hún sýnir samt sem áður hvað hægt er að smíða með íslenskri máltækni samtímans.
Öflugar lausnir í boði
Ofantaldar lausnir hafa gert Miðeind kleift að þróa íslenskt raddmenni með mjög fámennu teymi á tiltölulega skömmum tíma. Stafrænar lausnir sem ráða við íslenskuna, bæði talmál og ritmál, eru komnar merkilega langt á leið, lengra en margt fagfólk í hugbúnaðargeiranum hérlendis gerir sér grein fyrir. Það eru ekki mörg málsamfélög, hvað þá örtungur á borð við íslensku, sem geta státað sig af góðri talgreiningu, góðri talgervingu og öflugri þáttun ritmáls. En það getum við sannarlega gert. Mikið af þessari tækni er í ofanálag opin og frjáls eða fáanleg gegn vægu gjaldi. Lausnirnar eru til staðar og aðgengilegar. Það er í höndum íslensks atvinnulífs og stjórnvalda að taka íslenska máltækni lengra og innleiða hana á fleiri sviðum, öllum landsmönnum til hagsbóta.
Höfundur: Sveinbjörn Þórðarson, hugbúnaðarsérfræðingur hjá Miðeind og upphafsmaður Emblu
Orðalisti
stafrænn aðstoðarmaður, raddmenni - digital assistant, voice assistant
raddvirkjun - hotword detection
virkjunarfrasi - hotword
talgreining - speech recognition
þáttun - parsing
fyrirspurnasvörun - question/query answering
talgerving - speech synthesis
talgervill - speech synthesizer
djúpt tauganet - deep neural network
fyrirspurnaþjónn - query server
tókun - tokenization
samhengisfrjáls málfræði - context-free grammar
Skil á efni
Leita í vefútgáfu Tölvumála
Um Tölvumál
Tölvumál - tímarit Skýrslutæknifélags Íslands er óháð tímarit um tölvutækni og hefur verið gefið út frá árinu 1976.
Vefútgáfa Tölvumála birtir vikulega nýja grein á vef Ský og árlega er gefið út veglegt prentað tímarit undir nafninu "Tölvumál" þar sem fjallað er um tölvutækni frá ýmsum sjónarhornum og er þema blaðsins jafnan valið snemma árs og útgáfa að hausti.
Ritnefnd Ský sér um að afla efni í Tölvumál og geta allir sem áhuga hafa sent inn efni.