Skip to main content
21. ágúst 2014

Rannsóknir og tækniþróun á raddmerkjum og máltækni

JonGudnasonÍ þessari grein verður fjallað um þau rannsóknarverkefni sem ég hef fengist við og snúa að máltækni og talmerkjafræði.  Skýrðar verða lauslega út ástæður þess að ég valdi mér þessi viðfangsefni og af hverju mér finnst þau vera mikilvæg.  Einnig verður lýst hvað er að gerast á þessu sviði á Íslandi og hvað mér finnst þurfi að gerast í þessum málum til þess að við sem búum á þessu landi og viljum nota íslensku, getum átt sömu möguleika og tækifæri og aðrir sem búa á stærri málsvæðum.

 

Ég tók snemma þá stefnu að beita sérfræðiþekkingu minni í merkjafræði og mynsturgreiningu á verkefni máltækninnar.  Þessi stefna þróaðist með mér um það leiti sem ég vann að meistaraverkefni í rafmagns- og tölvuverkfræði í Háskóla Íslands.  Verkefnið snérist um að líkanagera raddað talmerki með tauganetum en slík greining er sérstaklega gagnleg í fjarskiptum.  Líkanagering á tali (oftar með línulegum spásíum frekar en tauganetum) myndar kjarnann í þeirri kóðun á tali sem notuð er í farsímafjarskiptum.  Með þessu er hægt að minnka gagnamagnið sem senda þarf yfir fjarskiptarásina umtalsvert.  Á þessum tíma kynntist ég þeirri framtíðarsýn að einhvern tímann gæti fólk talast við á mismunandi tungumálum með sjálfvirkum þýðingarvélum.  Þannig væri til dæmis hægt að taka upp símtólið og tala íslensku og heyra íslensku en viðmælandinn á hinum endanum myndi heyra þýsku og tala þýsku.  Sannfæring mín varð sú að tækni sem bætir samskipti milli fólks og gerir samfélögum heimsins kleift að skilja hvert annað betur, sé af hinu góða.

Máltækninni hefur fleygt fram síðan þá og er hægt að sjá nokkuð marktækan árangur.  Talgervlar eru orðnir mjög raunverulegir og bestu talgreinar nútímans eru það nákvæmir að þeir eru hluti af vöru- og viðskiptaþróun helstu tæknifyrirtækja heimsins.  Apple kom fram með máltæknibúnaðinn Siri sem gerir fólki kleift að eiga samskipti við iPhone snjallsímann með talmáli.  Siri getur hlustað á fyrirspurnir með talgreini, útvegað ýmiskonar upplýsingar og komið þeim til skila í gegnum talgervil.  Google hefur einnig þróað sambærilegt kerfi sem heitir Google Voice Search sem leyfir notandanum að segja Google leitina við snjallsímann í stað þess að slá hana inn.  Máltæknin er mikilvæg viðbót við snjallsímana sem geta ekki boðið upp á jafn þjált viðmót og stærri tölvur gera með lyklaborði, mús og stórum skjá.

Máltækni er svið sem nær yfir hverskonar tækni sem notuð er til að greina og meðhöndla tungumálið og því er hægt að skipta máltækninni upp í tækni sem fæst við talmál og ritmál.  Talgreinir er tækni sem umbreytir talmáli í ritmál og talgervill umbreytir ritmáli í talmál.  Dæmi um máltækni sem fjallar bara um ritmál er sjálfvirk textagreining sem er mikið notuð af fyrirtækjum sem vilja komast að því hvort og þá hvernig verið er að fjalla um það eða vörur þess á netinu. Clara er gott dæmi um fyrirtæki sem veitir þjónustu með þessari tækni en Google og Facebook nota sjálfvirka textagreiningu til þess að tengja auglýsendur betur við sína markhópa.  Annað gott dæmi um ritmálstækni er sjálfvirk þýðing milli tungumála og er þekktasta dæmið Google Translate.

Doktorsverkefnið mitt fjallaði um að líkanagera raddmyndun með það fyrir augum að geta greint hver er að tala [1].  Helsti árangur verkefnisins var aðferð sem getur sagt til um á hvaða augnabliki raddböndin lokast í rödduðu tali.  Þetta gerist til dæmis þegar við segjum sérhljóða, en þá sveiflast raddböndin og mynda þá tíðni sem við tölum á (talandann).  Sveiflan er ekki jöfn heldur smellast raddböndin saman og lokast á einu augnabliki og mynda ósamfellu í loftflæðinu.  Þessi ósamfella er svo mótuð af raddholinu en lögun þess er einstök fyrir þann sérhljóða sem verið er að segja.  Það að geta ákvarðað þetta augnablik í raddbandasveiflunni kemur að góðum notum í mörgum undirsviðum talmerkjafræðinnar.  Þetta hefur aukið gæði í talkóðun og ýmsar tegundir talgervla hafa nýtt sér þessa vitneskju.  Ég hannaði aðferð til að draga út einkenni úr raddmerkinu sem geta auðkennt hver er að tala.  Þau einkenni sem ég hannaði bættu nákvæmni í raddgreiningu umtalsvert.

Síðan ég hóf störf við Háskólann í Reykjavík haustið 2009 hef ég haldið áfram að þróa þær talmerkjafræðiaðferðirnar sem hannaðar voru í doktorsnáminu.  Ég hef skoðað hvort hægt sé að bæta talgreiningu á svipaðan hátt en að undanförnu hefur athyglin beinst að því að skoða möguleika á að greina tilfinningar, stress og þunglyndi í rödd, í samstarfi við dr. Kamillu Rún Jóhannsdóttur, lektor í sálfræði við Háskólann í Reykjavík.  Rannsóknirnar byggjast á þeirri tilgátu að tilfinningaástand hafi áhrif á samskipti heilans við talfærin og að þetta megi greina í rödd viðkomandi.  Þessar rannsóknir eru ennþá á frumstigi en niðurstöður kollega okkar í Bandaríkjunum sína til dæmis að hægt sé að greina Parkinsons veiki mun fyrr en áður með raddgreiningu [2].  Einnig sýna niðurstöður forathugana fram á mikla fylgni ýmissa einkenna í raddmerkinu við þunglyndi og kvíða.

Talgreining fyrir íslensku varð að veruleika í ágúst 2012 þegar Google bætti 13 tungumálum við Google Voice Search kerfið sitt [3].  Nýju tungumálin voru baskneska, búlgarska, evrópsk portúgalska, finnska, gallíska, katalónska, norska, rúmenska, serbnenska, slóvenska, sænska, ungverska og íslenska.  Ástæðuna fyrir því að íslenskan var eitt þessara tungumál má rekja til þess að ég hafði kynnst dr. Trausta Kristjánssyni þegar ég vann við rannsóknir í Columbia háskóla árið 2009.  Trausti, sem var starfsmaður hjá Google í New York á þessum tíma, hafði lengi hvatt til þess innan fyrirtækisins að íslensku yrði bætt við sem tungumáli í kerfinu, oft við litlar undirtektir.  Vorið 2011 ákvað hópur um alþjóðavæðingu (i18n) innan Google undir forustu Pedro Moreno að láta á þetta reyna.  Til þess að framleiða talgreini þarf tækni-innviði annarsvegar og gögn hinsvegar.  Þar sem Google hafði þá þegar framleitt talgreina fyrir fjölmennari málsvæði skorti þá ekki tækni né þekkingu til þess að búa til talgreini fyrir íslensku heldur þurftu þeir talgögn.

Trausti og Pedro leituðu til mín og settum við talgagnasöfnunarverkefni af stað sem var kallað Almannarómur.  Nemendur og starfsmenn Háskólans í Reykjavík og Máltækniseturs stóðu fyrir söfnun talgagnanna haustið 2011 og náðist að safna yfir 120.000 yrðingum frá um það bil 550 einstaklingum.  Google gat einnig nýtt sér íslenska málheild og textasöfn sem til voru hjá Árnastofnun og Háskóla Íslands en dr. Eiríkur Rögnvaldsson prófessor hjá Háskóla Íslands, Sigrún Helgadóttir sérfræðingur hjá Árnastofnun og Hrafn Loftsson dósent við Háskólann í Reykjavík hafa staðið að söfnun og mörkun málheildar undanfarinn ár [4].  Söfnuninni lauk snemma árs 2012 og síðla sumars gaf Google út framangreinda yfirlýsingu um að íslensk talgreining væri virk í kerfum þeirra.

Stofnun sjálfseignafélags um máltækni er nú í burðarliðnum.  Félagið  nefnist Almannarómur og er ætlunin að það sjái til þess að nauðsynleg máltæknitól verði þróuð og geti nýst  íslenskum iðnaði og almenningi.  Hægt er að gerast stofnaðili að félaginu fyrir 150-450 þúsund krónur og er ætlunin að geta rekið félagið í tvö ár fyrir stofnféð  Áætlað er að fyrsta verkefni félagsins verði þróun á talgreini sem verði aðgengilegur fyrir fyrirtæki og almenning.  Ætlunin er að opinberir styrkir og fjárframlög frá félagasamtökum og fyrirtækjum í landinu kosti verkefnið, en áætlað er að það muni kosta um 100 milljónir króna.  Almannarómur mun sjá um að reka og viðhalda þessari tækni fyrir tekjur sem það hefur af þjónustu og ráðgjöf.  Stjórn Almannaróms mun útbúa lista af máltæknitólum og sjá til þess að þau verði og útfærð, þróuð og þeim viðhaldið þannig að almenningur og fyrirtæki njóti sem mest góðs af því starfi.
 
Þau sem starfa með mér í undirbúningshópnum eru dr. Eiríkur Rögnvaldsson, prófessor við Háskóla Íslands, Garðar Guðgeirsson, framkvæmdastjóri hjá TM, dr. Hrafn Loftsson, dósent við Háskólann í Reykjavík, Kristinn Halldór Einarsson, formaður Blindrafélagsins, Sigríður Margrét Oddsdóttir, forstjóri Já, Sigrún Helgadóttir, sérfræðingur hjá Árnastofnun og dr. Trausti Kristjánsson, athafnamaður.  Hvatningin sem við höfum í þessari vinnu er sú sýn að samskipti milli fólks og milli fólks og tölva/kerfa velti á góðri og velútfærðri máltækni og að íslenskan verði hluti af þeirri alþjóðaþróun sem við munum sjá á komandi árum.

Þetta er ekki bara spurning um málvernd, heldur þau tækifæri sem íslenskur almenningur og atvinnulíf mun hafa ef það getur nýtt sér þessa tækni.  Sjálfboðaliðsstarf er ágætt í einstök takmörkuð verkefni og er saga máltækninnar á Íslandi vörðuð af ósérhlífni og atorku þeirra sem hafa tekið þátt í slíkum verkefnum.  Nú er kominn tími til þess að þróun á þessari tækni verði í gegnum félag sem hefur þann eina tilgang að sinna máltækni. Félagið Almannarómur mun sjá til þess að þau tækifæri sem máltæknin býður uppá verði einnig til staða hér og þar af leiðandi félag sem stuðlar  að því að viðhalda íslenskri tungu í heimi tækninnar.

Viðfangsefni sem spretta upp af rannsóknum á tungumálinu eru margskonar og kalla fram margar rannsóknarspurningar og ýmsa möguleika til tækniþróunar.  Víðtækt samstarf þverfaglegrar sérfræðiþekkingar og fólks sem starfar á mismunandi vettvangi er því nauðsynlegt.  Opinberar stofnanir, háskólar, félagasamtök og viðskiptalíf þurfa að starfa vel saman til þess koma góðum verkefnum af stað en árangurinn mun skila sér í betra og upplýstara samfélagi.

Höfundur: Jón Guðnason, lektor tækni- og verkfræðideild Háskólans í Reykjavík

Heimildir:
[1] Jón Guðnason. "Voice source cepstrum processing for speaker identification." Ph.D. Thesis. Imperial College London. 2007. http://staff.ru.is/jg/pages/papers/jgudnason2007_PhD.pdf
[2] A. Tsanas, M.A. Little, P.E. McSharry, J. Spielman, L.O. Ramig.
"Novel speech signal processing algorithms for high-accuracy classification of Parkinson’s disease". IEEE Transactions on Biomedical Engineering, 59(5):1264-1271. 2012
http://www.maxlittle.net/publications/TBME-00887-2011.pdf
[3] Bertrand Damiba. "Voice Search arrives in 13 new languages". Google: Official Blog. August 16, 2012. http://googleblog.blogspot.co.uk/2012/08/voice-search-arrives-in-13-new-languages.html
[4] Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2013. Language Resources for Icelandic. De Smedt et al. (ritstj.): Proceedings of the Workshop on Nordic Language Research Infrastructure at NODALIDA 2013, s. 60-76. NEALT Proceedings Series 20. Linköping Electronic Conference Proceedings, Linköping.
http://www.ep.liu.se/ecp/089/ecp13089.pdf

Skoðað: 3139 sinnum

Blaðið Tölvumál

Forsíða Tölvumála

Leita í vefútgáfu Tölvumála

Um Tölvumál

Tölvumál - tímarit Skýrslutæknifélags Íslands er óháð tímarit um tölvutækni og hefur verið gefið út frá árinu 1976.

Vefútgáfa Tölvumála birtir vikulega nýja grein á vef Ský og árlega er gefið út veglegt prentað tímarit undir nafninu "Tölvumál" þar sem fjallað er um tölvutækni frá ýmsum sjónarhornum og er þema blaðsins jafnan valið snemma árs og útgáfa að hausti.

Ritnefnd Ský sér um að afla efni í Tölvumál og geta allir sem áhuga hafa sent inn efni.

Um ritnefnd Tölvumála