Can you preserve Icelandic voices with text-to-speech engines?

On July 11th, Tengivagninn on the Rás 1 attempted to answer this question and many more in an interview with Jon Gudnason and Ragnheiður Þórhallsdóttir.

Practical information about the radio program is below:

  • Language: Icelandic
  • Name of show: Tengivagninn
  • Station: Rás 1
  • Date: 11. 07. 2020
  • Air time: 13:26
  • Interviewer: Fanney Benjamínsdóttir
  • Duration: approximately 17 minutes
  • Topics discussed: The Icelandic Language Technology program work carried out at LVL
  • Link to the Radio episode

The full episode is available at ruv.is. However, we also have a transcription of the interview below. The transcription was made by the ASR at tal.tiro.is with minor edits and diarization added.

Tengivagninn interview with LVL

Talgervill: Halló allir. Hvað er eiginlega að frétta? Halló allir. Hvað er eiginlega að frétta?
Fanney Benjamínsdóttir (þáttasjórnandi): Nei, ég er hér með Jóni Guðnarssyni, dósent við verkfræðideild HR og Ragnheiður Þórhallsdóttir verkefnastjóra hjá Mál- og raddtæknistofnun Háskólans í Reykjavík til að ræða máltækniáætlun Íslands. En hér er meðal annars verið að vinna íslenskum raddgerli talgreini. Geturðu sem sagt mér aðeins frá verkefninu?
Jón Guðnason: Já. Verkefnið er unnið að samtökum íslenskrar máltækni, SíM, Jón Ármannaróm samgöngumál, máltækni, sú tækni sem hefur að gera með tungumálið, hvort sem það er talað um það skrifað eða einhvern annan hátt og í þessu verkefni, taka á bæði táknmálinu úr skrílmálinu. Það er hreint málinu og við hérna í Háskólann í Reykjavík. Við erum að einbeita okkur að tálmunum stóra stórverkefnin, skipt í fimm hluta sem hafa gefið mál rými eins og stafsetningar, leiðréttingum svoleiðis vélrænar þýðingar, annar hluti, stór hluti sem hann hefur að geyma, gagnasöfnun, málheildir og annað. Við erum með tvo pakka sem á að gera með talgreiningu annars vegar tölva er að reyna að skilja hvað er verið að segja. Hann gerving hins vegar fimmti pakkinn og talgerfing er sem sagt láta tölvutala.
Fanney Benjamínsdóttir: Þannig að markmiðið er í rauninni að við getum talað við tölvuna okkar og hún geti svarað okkur.
Jón Guðnason: Já í stuttu máli svo miklu meira en það. Það er svo margt sem hægt er að gera með þessa tækni um leið og þú getur byrjað að hafa samskipti við tölvu með talmálinu þá breytist frá markaði, ekki bara þessi er bara þessi þessi samræða sem við getum mátti tæknina heldur líka alls konar gagnasöfnun og veruleiki og annað sem við getum búið til tækninni.
Talgervill: Halló allir. Hvað er eiginlega að frétta? Halló allir. Hvað er eiginlega að frétta?
Fanney Benjamínsdóttir: Er þessi tækni til dæmis önnur tungumál með símana okkar og þeir skilja okkur alla vega stundum og svara til baka? Er þetta sama?
Jón Guðnason: Jú ákveðnu marki. Hún er í stöðugri þróun, líka fyrir erlend tungumál. Hún er komin kannski eitthvert lengra heldur en heldur en fyrir íslensku mun lengra en til dæmis fyrir stóru tungumálsins, á ensku og spænsku, kínversku og hvað þau heita öll og markmið þessa verkefnis er að reyna að koma okkur á þann stað að við getum verið gildandi í tækniheiminum meðalstóra tungumálanna.
Fanney Benjamínsdóttir: Og af hverju er mikilvægt að við eigum okkar eigin tungumáli aðgang að þessu? Getum við notað ensku tæknina?
Jón Guðnason: Ef við kunnum ensku, en það eru áhöld um það hversu vel við kunnum ensku og það er líka spurning hvort það sé rétt að ætlast til þess að fólk sé að tala tungumál sem er ekki þeirra eigið móðurmál og það er nú einu sinni hlutverk okkar sem lands að hlúa að því sem við erum að gera. Tungumálið er vissulega eitt af því sem við eigum að hlúa.
Fanney Benjamínsdóttir: Mál verndarstefna hér við lýði.
Jón Guðnason: Já, má ekki kannski málvernd heldur bara verið að passa upp á íslenskan sé gildandi drekinn hefur hefur alveg jú með mál, benda gera per-se en það er ekkert verið að reyna að passa upp á við eitthvað eins og í gamla daga eða neitt svoleiðis. Í verkefninu er tekið tillit til þess að tungumálið er mjög lifandi og er að breytast og þroskast og og hérna og við tökum mið af því mikilvægt að horfa ekki á verkefnið sem eitthvað svona tungumálið, einhverra flösku og setja upp á hillu heldur er einmitt öfugt. Það er verið að reyna að búa til tæki og tækni sem leyfir okkur að leika með tungumálið og halda áfram að þróa það á sem eðlilegastan hátt.
Fanney Benjamínsdóttir: Heimspekingurinn orðaforða hugbúnaðar, hvernig hvernig stjórnast hann Kann talgervill að sletta?
Jón Guðnason: Góð spurning, mjög góð spurning. Sko, gamla tæknin leyfir bara ákveðin orð, fer eftir því hvort maður sé talinn talgerfingu talgreini um þúsund talgreininn, gæti til dæmis ekki skilið nýorðið eða eitthvað svoleiðis. Það er bara of opnar rannsóknarspurningar hvort það sé hægt að hafa óbein orðaforða eða ekki og mjög spennandi hlutir að gerast þar og eitthvað sem við reynum að vera undan í tækninni. Bæði. Þess vegna erum við með rannsóknargagns stofur eins okkar og annars staðar háskóla. Háskólarnir hérna eru að taka þátt í þessu verkefni beinlínis vegna þess að við erum að fylgjast með því sem nýjast sem gerist rennandi hlutir að gerast almennt í máltækni og eitt af því með mjög spennandi. En þetta geta notað sko, við erum með opinn orðaforða þannig að þegar ný orð koma verður einhvers konar sjálfvirkni sem fattar: ja, þetta er nýtt orð. Þú reynir að fatta hvernig maðurinn út í hvaða samhengi og svoleiðis. En þetta er mjög nýtt og skemmtilegt og við erum mjög spennt yfir akkúrat þessu þessa dagana.
Fanney Benjamínsdóttir: Hvernig virkar þetta að halda uppi síðunni samrómur.is þar sem þeir hafa beðið fólk um að lesa inn og sendinn radd sýni: til hvers eru þau notuð?
Jón Guðnason: Samrómurinn notuðu talgreiningu. Þá þurfum við gögn frá fullt af fólki og bara ekkert mikið af gögnum frá hverjum og einum en en eitthvað og svo þurfum við bara mikið af gögnum og frá frá mörgu fólki og þá höfum við þetta verkefni sem heitir samrómur. Allir ættu að taka þátt í samrómur.is getað lesið innsetningar og svo notum við þessa setningu. Textinn er á þá höfum við hljóðupptökuna og getum sem sagt látið tölvuna læra. Hvaða hljóð eiga minn? Hvaða hvaða orð stafi
Fanney Benjamínsdóttir: Ef ég les rosalega mikið inn á samróm punktur is? Kemur það sér tækni til með að skilja mig betur en aðra?
Jón Guðnason: Mögulega? Jú, ef þú ert allavega þá í þessum grunni og röddin þín mætti væntanlega skila sér einhvern veginn. Já.
Fanney Benjamínsdóttir: Og hver er þá sem talar fyrir hina hliðina? Ef ég tala við tölvuna og tölvan svarar mér hvernig ég tala við.
Jón Guðnason: Við erum núna búnir að við erum í annarri stofnun sem heitir Pálrúnar, Ragnheiður geti sagt eitthvað.
Ragnheiður Þórhallsdóttir: Þar erum við að safna röddunum sem muni tala við þig. Átta raddir í heild yrðu teknar upp. Það eru fjórar karlmannsraddir úr hjörð kvenmannsraddir og þeir eru númer fimm fólk er búið að leggja ótrúlega mikið á sig, leggja fram tuttugu klukkustundir af efni sem er svo notað til að þjálfa talgervilinn.
Fanney Benjamínsdóttir: Og ef ég kæmi og gæfi tuttugu klukkustundir efni, hvernig mundu þær tuttugu klukkustundir hljóma? Er ég að segja orð eða er þetta bara hljóð eða hvað er það sem þau eru látin lesa?
Ragnheiður Þórhallsdóttir: Svipað og samrómur? Þetta eru stuttar setningar sem lesa oftast örstuttar sem er búið að velja út frá sjónarmið at l l a y á hné og tilheyrir tungumálinu, koma fram það náttúrulega mjög skrýtnar setningar.
Fanney Benjamínsdóttir: Og hvernig verð ég að þetta fólk, hverjir eru það sem fá að vera þessi stafræna rödd,
Ragnheiður Þórhallsdóttir: Ótrúlegar íslenskar raddir. Við erum búnir að auglýsa nokkrum sinnum og fengið frábær viðbrögð og erum með sérfræðinga sem farið yfir þetta og velja út frá ýmsum þáttum en líka mjög mikilvægt að þessar átta raddir séu allar mjög ólíkar við unga konu sem bjartara fyrir unglinga. Hinar dýpri rödd, já, átta ólíkar raddir.
Fanney Benjamínsdóttir: Er þeim svo skeytt saman einhvern veginn eða myndar hver þeirra sem eigin talgervil.
Ragnheiður Þórhallsdóttir: Já, eskitrjánna hver myndar.
Jón Guðnason: Svo er um annan aðra söfnun er númer tvö farsölunum jafnmiklum frá hverjum og einum. Við söfnum sem sagt fjörutíu manns á endanum og þar er ætlunin að blanda saman röddum og búa til í raun og veru raddir sem eru ekki hingað.
Ragnheiður Þórhallsdóttir: Fólk sem er með fallega raddir og að þessu verkefni og ef hugmyndin er að fólk geti valið.
Jón Guðnason: Það er smá atriði að tengja ekki röddina við manneskjuna sem talaði. Það gerðist einu sinni inn á Íslandi talgervilinn vefgáttin talgervill sem var með var kennara, Blindrafélaginu fyrir mörgum árum og þá lesa var þekktur síðan. Þá höfum við ekki haldið því leyndu hverjir, þar sem hann talar Blindrafélagsins núna eftir Karl og Dóra en ekkert tengt við viðfangsefnið. Andstaðan við erum ekkert að flíka því neitt,
Fanney Benjamínsdóttir: Vilja alls ekki að fá þekkta einstaklinga í þetta hlutverk.
Jón Guðnason: En auðvitað getum við að við getum auðvitað, ef við viljum fá Bogi Águstsson, hann fræga upplausnar á getum við búið til raddirnar. Þá verður þetta líka ef þú tengir röddina við einstaklinginn að þá verður það eiginlega meira þess einstaklings, hin siðferðilega, svolítið viðkvæmt.
Fanney Benjamínsdóttir: Nú dettur mér í hug það er svolítið verið talað um svona djúp falsanir undanfarið. Eldaði sama konsept, þessi radd uppbygging og er verið að nota þar?
Jón Guðnason: Já, þetta er bara þessi tækni. Við verðum að eins og við verðum að takast á við við þau vandamál sem koma decals dýpri, djúp djúp falsanir og ekki bara við höfum talið að sönghelli unglinga. Við höfum auðvitað bara hljóð og mynd og myndskeið. Verður þetta eitthvað sem verður að passa upp á, bæði með reglugerðum og reglum en líka bara fólk verður að vera meðvitað um hvað er hægt að gera með tæknina í framtíðinni og íslenskan er ekkert undanskilið, aldrei þetta vandamál þó að þú ert í heiminum ekki góð leið, að sleppa því að þróa tæknina á endanum, bara einhver.
Talgervill: Halló allir. Hann segir að frétta? Halló allir. Hvað er eiginlega að frétta?
Fanney Benjamínsdóttir: Mörg met sem ég minntist aðeins á hérna áðan, svona forrit í símanum okkar sem við getum talað við og skilja okkur alla vega stundum og svara okkur til baka, Siri og Alexa og hvað þetta allt heitir. Getum við búist við að þessi forrit fari að tala íslensku?
Jón Guðnason: Afar skemmtilegt, ekki undir okkur komið en undir einhverjum stórfyrirtæki komið hvort það verður einhver ákvörðun tekin einhverju einhverri skrifstofu einhvers staðar úti í heimi að Siri eða hver sem er farinn að tala íslensku getum ekki breytt því? Við getum ekki haft. Við getum ekki látið einhvern bara gera þetta en við getum hins vegar gert allt annað. Við getum látið bæði tæknina og gögnin um málfong sem þarf. Við getum gert þau tilbúin þannig að hver sem er geti auðveldlega gert þetta íbúum til raddirnar. Við búum til hugbúnaðinn sem lesa upp texta, kerfinu, texta og svoleiðis. Er það í raun og veru ekki undir okkur komið hvar þetta notað? Það er ekki okkar hlutverk að setja þetta í notkun per-se. Við ýtum eftir því og viljum auðvitað að alls konar aðilar í þjóðfélaginu fara og fara að taka þetta upp. En en við reynum bara að halda þessu al tæknifyrirtækjum, startup fyrirtækjum og öðrum og hérna. Vonandi taka þessa tækni barmana en annars er tæknin öll opin og frjáls. Það er hægt að nálgast bæði hugbúnaðinn og gögnin. Á vefsíðu verkefnisins unglingar munum við setja þetta inn í gagnabanka bæði erlendis og hérlendis. Þetta verður allt gert útbýr og það þarf ekki að kosta neitt.

Learn about our TTS process as described by Atli Thor

At the end of June 2020, Atli Thor Sigurgeirsson went on the local Icelandic radio station Rás 2 to give an interview about the state of our text-to-speech synthesis and data collection process. As this was an interview with Síðdegisútvarpið the interview is in Icelandic.

Description from Rúv: Við forvitnumst um nýjan talgervil sem er í þróun hjá Háskólanum í Reykjavík. Atli Þór Sigurgeirsson er umsjónarmaður þess verkefnis hann kemur til okkar.

Practical information about the radio program is below:

Name of show: Síðdegisútvarpið
Station: Rás 2
Date: 26. 06. 2020
Air time: 16:30
Interviewer: Guðmundur Pálsson
Duration: approximately 10 minutes
Topics discussed: The work carried out at LVL, specifically w.r.t. speech synthesis and speech data collection
Language of interview: Icelandic
Interviewee: Atli Thor Sigurgeirsson

The full episode is available at ruv.is. However, we have also extracted and transcribed the interview. They are both available below. The transcription was made by the ASR at tal.tiro.is with minor edits and diarization added.

íslenska frá MT okkur: Í heild sinni er aðgengilegt á ruv.is. Hins vegar höfum við einnig dregin út og yfirfærð á viðtalinu. Þau eru bæði fyrir hendi hér. Umritun var tekin af ASR á tal.tiro.is með minniháttar breytingar og diarization bætt við.

Fréttir, fróðleik og tónlist. Síðdegisútvarpinu á Rás 2.
Talgervill: Komið þið heil og sæl, og velkomin í Síðdegisútvarpinu.
Guðmundur Pálsson: Þetta er sem sagt nýr íslenskur talgervill sem talar þarna og þetta er hluti af mjög viðamiklu verkefni sem að það snýst um að þjálfa tauganets módel, sem kunni að tala. Hann er kominn til okkar, Atli Þór Sigurgeirsson, sem er Hvað húsið umsjónarmaður, þessa verkefnis eða hvað?
Atli Thor Sigurgeirsson: Já ég hér sé um þetta verkefni á haskólunam.
Guðmundur Pálsson: Og hvað erum við að hlusta á hana? Um hvað snýst málið? Við höfum heyrt talgerla talað áður.
Atli Thor Sigurgeirsson: uhm
Guðmundur Pálsson: og þá. Það var alveg ágætt og ekkert ekkert ofboðslega sannfærandi kannski. Erum við að taka næsta skref?
Atli Thor Sigurgeirsson: Já. Þetta- Þessi tegund af talgervlum módelum komu til sögunnar fyrir þremur árum síðan, og módelin sem við þekkjum til dæmis inn á rúv.is spilar sem sjóndaprir getað notað til að lesa fréttir. Það er önnur tegund af talgervlum sem hefur verið mikið notuð, og þeir talgervla gervlar virka þannig að þeir klippa mikið af gögnum niður, taka þeir litlar einingar og púsla þeim aftur saman. Vandamálið með þannig talgervla er að maður heyrir samskeytin þegar þeir tala eins og þegar tveir litlir hljóðkútar hefur púslað saman. þessi tegund, á módeli talgervilið verka öðruvísi vegna þess að hann býr til sjálfur, klippir ekki hljóðið og finnur það í gagnasetti sem býr til hljóðið, að þegar svona módel fara heyra helling af þjálfun á gögnum, mód-módelið sjálft það keyrir í gegnum fimmtán þúsund þjálfunar setningar sem manneskja hefur setið í hljóðveri og hlustað á í hvert skipti sem að fara að heyra setningu verður mótið aðeins betra í að skilja hvernig textinn breytist í tal módelið. Þá fara að sjá textann til dæmis, Halló, ég heiti Atli. og svo hljóðið sem röddin sem sat í hljóðverinu bjó til þegar hún las setninguna: Fyrst var hún ekki mjög röddin, ekki mjög góða skilja hvernig átti að segja, Halló, en þegar hún kannski búnir að sjá orðið halló fimmtíu sinnum
Guðmundur Pálsson: Já.
Atli Thor Sigurgeirsson: þá var orðinn ansi góðir.
Guðmundur Pálsson: Það er nefnilega halló
Atli Thor Sigurgeirsson: Já.
Guðmundur Pálsson: um hinn eiginlega fyrsta drafaðan, eitthvað hálf þreytt, þreyttur talgervill sem var að tala.
Atli Thor Sigurgeirsson: Einmitt.
Guðmundur Pálsson: að heyra hvernig þróunin var síðan.
Talgervill: að þetta í frétt allir er þetta allir. Hvað er eiginlega að frétta? Halló allir. Hvað er eiginlega að frétta? Halló allir. Hvað er eiginlega að frétta? Halló allir. Hvað er eiginlega að frétta? Halló allir. Hvað er eiginlega að frétta?
Guðmundur Pálsson: Já, þetta eru eggin smámunur frá þarna í byrjun þar sem maður er bara eitthvað svona. Hann segir óskiljanlegt eitthvert rugl.
Atli Thor Sigurgeirsson: Bara Er einhver læti í bakgrunninum? Já, þetta er hérna. Maður heyrir rosalega mikið. Sko þarna undir lokin að þar fer svona blæbrigði raddarinnar sem sat í hljóðverinu kom í ljós þetta módel, var sem sagt búið að þjálfa á tölvu sem við erum með niður í Háskóla Reykjavíkur í níu daga, minnir mig, fyrsta daginn sem sagt fyrsta hljóði sem við heyrðum var að spila eftir hálfan dag. urðum við næstu næsta, var bara eftir einn dag, svo seinasta var eftir níu daga. Það var eitthvað mikið sem gerðist þarna á milli dags, átta og níu vandamálið fyrir okkur getur stundum verið að þessi módel eru það flókin að það getur verið erfitt fyrir okkur að vita nákvæmlega hvað módelið er að gera hverju sinni, af hverju það var svona mikil breyting skyndilega á áttunda degi miðað við alla dagana á undan. Þetta snýst bara rosalega mikið um að módelið er að skoða gögnin og það er að reyna bara það sem við gerum með módelið er að það býr til útkomna, það giskar og ég held að þessi setning eiga eigi hljómar svona: sýnum við módelinu? Nei, nei. Það á að hljóma svona sínum venjum sínum, módelinu, hvernig setningin var í raun og veru borið fram. Berum saman sýnaspá og raunveruleikann, segir: ókei. Ég þarf aðeins að færa til hérna, þetta var aðeins meira svona hægt og rólega. Þá þá verður röddin náttúrulegri og líkari raunverulegur röddinni.
Guðmundur Pálsson: Einmitt. Og hvernig-hver er tilgangurinn með, eins og við heyrum oft einmitt þörf á því að Ísland íslenskan einhvern veginn þróist með þessum tæknibreytingum eða ekki. Tungumálið þróist ekki heldur tækniþróuðust með tungumálinu þannig að það sé hægt að nota af
Atli Thor Sigurgeirsson: Akkurát.
Guðmundur Pálsson: Maður heyrir náttúrlega börn tala ensku við tæki nú þegar. Er þetta liður í því einhvern veginn að bregðast við þessum breytingum.
Atli Thor Sigurgeirsson: Klárlega, að við höfum mikinn áhuga á að gera íslensku gjaldgenga í stafræna heiminum og að Íslendingar geti notað tækin sín á íslensku. Svona eitt af markmiðum í talgervingu er líka sem sagt. Þá er einn af markhópunum okkar eru sjóndapri því það eru margir sjónvarpið sem nota talgervla til að nota tölvur og skoða vefsíður og svo framvegis. En svona langtíma markmið hjá okkur líka er að stóru tækni risarnir, geti mögulega notað þessi gögn, eins og Google með Google assistant eða Apple með Siri eða Amazon með Alexu að þau fara að búa til íslenskar raddir sem geta talað við okkur og svarað spurningunum okkar og skilið spurninguna okkar. Við bíðum spenntir eftir því.
Guðmundur Pálsson: Já Er nú talað um að Ísland sé lítið markaðssvæði, einhvern veginn svona breytingar, einhvern veginn og þess háttar séu lengi að einhvern veginn skila sér hingað og við erum ekki efst á listanum kannski en en eru einhvern veginn tæknin orðin þannig og með þessu. Þetta er gervigreind einhvern veginn að verða miklu hraðari og erum við bara að tala um einhvern veginn? Er hún komin yfir einhvern þröskuld? Þá er þetta bara mjög einfalt mál, einhvern veginn að tengja þetta einhvern veginn við tækin eins og hvað annað?
Atli Thor Sigurgeirsson: Já, í raun og veru, kannski bara fyrst varðandi þurft þessa staðsetningu okkar í heiminum. Við erum lítið málsvæði og oft eru tungumáli okkar ekki stutt tækninni hefur verið tekið virkilega vel tekið í þetta erlendis og mikið fylgst með okkur máltækni áætluninni, áætlanir sem við vinnum eftir og hvað við höfum verið framarlega miðað við hvað við erum fá. En varðandi tæknina þá já, þá hefur hún svolítið breyst undanfarin ár að þetta hefur verið að færast meira og meira yfir í gervigreind og sem sagt gömlu módelin voru notuð. Þau þurftu rosalega mikið af sérstakri þekkingu sem kannski mjög fáir bjuggu yfir til að búa til módelin og hannaði. Núna er þetta farið að vera meira svona almenn gervigreind sem þeir sem taka til dæmis reiknigreindar áfanga í háskóla í meistaranámi geta komið inn í og sem sagt að mínu mati, gervigreind og reiknigreind mjög framarlega í máltækni á Íslandi erum við að beita henni í að hafa raunverulegar breytingar. Það er mjög spennandi fyrir þá sem hafa áhuga á gervigreind og reiknigreind þetta svið, máltækni.
Guðmundur Pálsson: Um Þetta er runnið, þú ert í Háskólanum í Reykjavík.
Atli Thor Sigurgeirsson: Já
Guðmundur Pálsson: og þetta hefur unnið hér að hluta hér innan húss hjá Rúv
Atli Thor Sigurgeirsson: Já
og nú yrði að fara. Er það ekki í eitthvert ferðalag að sækja?
Atli Thor Sigurgeirsson: Já. Við verðum að fara sem sagt: við tökum upp átta raddir í heildina, tuttugu klukkutíma á um öllum ræddum þannig að hundrað og sextíu klukkutíma heildina. Sex raddir voru teknar upp hérna fyrir sunnan. Nokkuð langar að bæta við tveimur norðlenskum röddum og þá ætluðu að fara að taka upp í Háskólum í á Akureyri byrjun þar bara á mánudaginn. Þá erum við að leita að karli og konu og það væri bara ótrúlega góð viðbót í þetta safn á röddum sem við erum komin með núna. Já, okkur hlakkar til að kíkja norðurs.
Guðmundur Pálsson: Já, yrðu er búið að velja fólk til að lesa eitthvað svona?
Atli Thor Sigurgeirsson: Já, við, við vorum að velja bara í dag.
Guðmundur Pálsson: Fólk er ekki, ekki biðröð. Hann var að vanda mig við.
Atli Thor Sigurgeirsson: Við eigum fyrst að reyna að hafa samband norður og gekk frekar erfiðlega, fengum lítið litla svörun þetta inn á einhverja tvo, þrjá fjölmiðla, árnar fyrir norðan og þá bara hrundi og mikill áhugi.
Guðmundur Pálsson: Já. Það byrjar á mánudaginn.
Atli Thor Sigurgeirsson: Já við erum með einar rödd frá Ólafsvík og svo vorum við með eina frá Akureyri.
Guðmundur Pálsson: um það. Atli Þór, takk fyrir þetta. Já. Þetta er mjög skemmtilegt verkefni. Gangi ver vel í verkefni og takk talgervill fyrir hjálpina líka.
Talgervill: Takk sömuleiðis. Við skulum heyra lag með sálinni hans Jóns míns
Tónlist: í dag, hugleysi hvernig lífi.


Summer jobs at LVL

We want you at LVL

Automatic translatation from English to Icelandic below with [human notes].

In collaboration with Reykjavík University, LVL is looking to hire 10 students full-time over the summer.

The duration is two months from the 10th of June and will consist, among other things, of gathering recordings for Automatic Speech Recognition (ASR) and Text-To-Speech (TTS) as well as transcribing speech recordings for other applications. You will go out into the world, meet other people and get a glimpse into the work which is being done to digitise Icelandic.

Application deadline is the 5th of June.

For further information and how to apply (in Icelandic) see here.


Í samstarfi við Háskólann í Reykjavík leitast LVL við að ráða 10 nemendur í fullu starfi yfir sumarið.

Tímalengdin er tveir mánuðir frá 10. júní og mun m.a. fela í sér upptökur fyrir sjálfvirka talfærslu [talgreiningu] (ASR) og textatal [talgervingu] (TTS) ásamt því að þýða talupptökur fyrir önnur forrit [fyrir önnur verkefni]. Þú munt fara út í heiminn, kynnast öðru fólki og láta sjá þig í verkinu sem er unnið til að stafvæða íslensku [taka þátt í vinnunni að gera íslensku stafræna].

Umsóknarfrestur er 5. júní næstkomandi.

Frekari upplýsingar og hvernig á að nota [sækja um] (á íslensku) sjá hér.

TTS, Language Technology, Kvistur, and Samrómur papers published but no conferences to attend

Sjá íslenska þýðingu neðar

This is a positive but somewhat sad week for LVL. Many LVL members were going to go to Marseille, France this week to attend Language Resources & Evaluation Conference (LREC) 2020 and the joint Spoken Language Technologies for Under-Resourced Languages and Collaboration and Computing for Under-Resourced Languages (SLTU-CCURL) 2020 Workshop. Once there they were going to present their many papers, providing an in-depth look into our TTS, data collection, compound splitting, and general language technology research in recent months. However, due to COVID-19 these conferences were both cancelled. Luckily the organizers have still decided to publish the proceedings this month. The joint SLTU proceedings were published May 8th on the SLTU-CCURL 2020 website at Workshop Proceedings (our paper is on page 316). Head over to the SLTU 2020 website if you want to read more SLTU-CCURL papers. We’re still waiting for the LREC proceedings to be published. But our papers can now be found as pdfs below and on our publications page.

Our TTS paper was accepted at SLTU-CCURL 2020:



Title: Manual Speech Synthesis Data Acquisition – From Script Design to Recording Speech
Authors: Atli Þor Sigurgeirsson, Gunnar Thor Örnólfsson, Jon Gudnason
Summary: In this paper we present the work of collecting a large amount of high quality speech synthesis data for Icelandic. A script design strategy is proposed and three scripts have been generated to maximize diphone coverage, varying in length. The largest reading script contains 14,400 prompts and includes 81% of all Icelandic diphones at least twenty times. As of writing, 58.7 hours of high quality speech data has been collected.
PDF

Our Samrómur, Kvistur, and Language Technology programme papers were accepted at LREC 2020:

The cover of the proposal sent to the Icelandic parliament

Title: Language Technology Programme for Icelandic 2019-2023
Authors: Anna Nikulásdóttir, Jón Guðnason, Anton Karl Ingason, Hrafn Loftsson, Eiríkur Rögnvaldsson, Einar Freyr Sigurðsson and Steinþór Steingrímsson
Summary: In this paper, we describe a national language technology programme for Icelandic. The programme aims at making Icelandic usable in communication and interactions in the digital world, by developing accessible, opensource language resources and software. The research and development work within the programme is carried out by SÍM, a consortium of universities, institutions, and private companies, with a strong emphasis on cooperation between academia and industries. Five core projects will be the main content of the programme: language resources, speech recognition, speech synthesis, machine translation, and
spell and grammar checking.
PDF

A representation of the model with one BiLSTM layer, showing where the compound word raforku ‘electric energy’ is split in two.

Title: Kvistur: a BiLSTM Compound Splitter for Icelandic
Authors: Jón Daðason, David Mollberg and Hrafn Loftsson
Summary: In this paper, we present a character-based BiLSTM model for splitting Icelandic compound words, and show how quantity of training data affects model performance. Compounding is highly productive in Icelandic, and new compounds are constantly being created. This results in a large number of out-of-vocabulary (OOV) words, negatively impacting the performance of many NLP tools. Our model is trained on a dataset of 2.9 million unique word forms and their constituent structures from the Database of Icelandic Morphology. The model learns to split compound words into two and can be used to derive a word form’s constituent structure. Knowing the constituent structure of a word form makes it possible to generate the optimal split for a given task. The model outperforms other previously published methods when evaluated on a corpus of manually split word forms. This method has been integrated into Kvistur, an Icelandic compound word analyzer.
PDF

The cumulative count of votes and utterances. Each utterance can have more than one vote as it needs two positive votes to be considered valid and two negative votes to be considered invalid.

Title: Samrómur: Crowd-sourcing Data Collection for Icelandic Speech Recognition
Authors: David Erik Mollberg, Ólafur Helgi Jónsson, Sunneva Þorsteinsdóttir, Steinþór Steingrímsson, Eydís Huld Magnúsdóttir and Jon Gudnason
Summary: This contribution describes an ongoing speech data collection, using Samrómur which is built upon Mozilla’s Common Voice. The goal is to build a large-scale speech corpus for Automatic Speech Recognition (ASR) for Icelandic. Upon completion, Samrómur will be the largest open speech corpus for Icelandic. The paper discusses the methods used for crowd-sourcing and illustrate the importance of marketing and good media coverage for a crowd-sourced dataset. Preliminary results exceed our
expectations. The paper also reports on the process of validating recordings.
PDF

Our SÍM colleagues also had two papers at LREC 2020: “Facilitating Corpus Usage: Making Icelandic Corpora More Accessible for Researchers and Language Users” and “Parallel Universal Dependencies”. Congratulations!

While it is sad that our LVL members cannot meet with fellow researchers and visit the great city of Marseille, they still look forward to connecting with researchers online through your comments on their papers and links to your related papers.

Þessa vikuna hefði átt að halda Language Resources & Evaluation (LREC) ráðstefnuna í Frakklandi, sem og Spoken Language Technologies for Under-resourced Languages vinnustofuna en báðum þessum viðburðum var aflýst vegna COVID-19.  Margir starfsmenn LVL ætluðu sér að sækja þessa viðburði og kynna þar 4 greinar og veita innsýn í þær máltæknirannsóknir sem hafa farið fram hérna síðustu mánuði. Hérna má lesa nánar um þetta og nálgast greinarnar. (Athugið að greinarnar eru aðeins aðgengilegar á ensku).

Role models?

Sjá íslenska þýðingu neðar.

Will the Icelandic Language Technology program and our efforts become role models for other similar languages? Read about RU’s take on the work we are participating in and see us in action (picture taken pre-Covid).

Gæti íslenska máltækniáætlunin orðið leiðarljós annarra lítilla málsvæða? Hérna er umfjöllun HR um starfsemi okkar (Myndir teknar fyrir Covid).

First milestone in the Language Technology for Icelandic project

The LVL team celebrating the first milestone in the Language Technology for Icelandic project. Ólafur Helgi Jónsson, Sunneva Þorsteinsdóttir and Steinþór Steingrímsson are missing from the picture.

Last week we celebrated achieving the first milestone in the Language Technology for Icelandic project with a cake!

After a lot of hard work the past few months we achieved the first milestone in Automatic Speech Recognition (ASR), Text-to-Speech (TTS) and Machine Translation (MT).

In ASR, the focus has mostly been on data creating and gathering. 55,000 utterances have been collected (donated by adults) via the crowd-sourcing platform samromur.is (based on Common Voice) with plans to reach 100.000 utterances for the next milestone. The process is being extended to include younger voices in collaboration with schools and authorities. Today we started working with Öldutúnsskóli in Hafnarfjörður. The goal is to reach 80.000 young voice utterances for the next mileston. Additionally, data has been gathered from RÚV (audio, video and subtitles) and CreditInfo (transcriptions). Along with data gathering, the team is also developing tools to post-process Icelandic ASR text for better readability.

In TTS, we successfully created a voice recording client (LOBE) and three reading scripts in order to collect high quality speech and corresponding text data. The reading scripts were created from Risamálheild and seek to maximize diphone coverage. So far 20 hours have been collected from two speakers, male and female. The aim is to finish collecting 20 hours from each speaker early this year. From the collected data two TTS prototypes have been created in Ossian, which extends the Merlin back-end. The current prototypes are quite naive but we have integrated a grapheme-to-phoneme model for the Icelandic language into the prototypes.

In MT, we successfully created a phrase-based statistical machine translation system using the open source tool Moses. Our collaborators at Miðeind created neural machine translation systems based on BiLSTMs and Transformers. The models were trained on the newly available English-Icelandic parallel corpus, ParIce. The systems were then evaluated w.r.t. training time, throughput and BLEU score. The code and 
systems are freely available but are still under development for milestone two. In milestone two we will continue to develop the systems further and adjust them to specific needs of the Icelandic language.

2019 Rannis Grants

Rannis (The Strategic Research and Development Programme for Language Technology) has awarded Hrafn two grants this year. Congratulations! The first project, Automatic Text Summarization (ATS) for Icelandic, will be worked on by a post-doctoral researcher and an Icelandic linguist in collaboration with mbl.is, Morgunblaðið’s news website. The second one is Named Entity Recognition (NER) for Icelandic. Svanhvít Lilja Ingólfsdóttir and Ásmundur Guðjónsson, two students from the Language Technology (Máltækni) masters program will work on the NER project in collaboration with the Icelandic Stock Exchange. Welcome to LVL!

Anna Björk has also been awarded a grant, for her company, Grammatek ehf., in cooperation with the city of Akranes. Congratulations and we wish you all the best with your new endeavor!

More information regarding the ATS post-doctoral research position can be found at https://lvl.ru.is/jobs.

 

 

Eydís has successfully defended her PhD thesis!

eydisphd-3
Eydís and the LVL members at her celebration.

 

We are pleased to announce that Eydís has successfully defended her PhD thesis on “Cognitive workload classification with psychophysiological signals for monitoring in safety critical situations” on 18th of January. Over the past few years, Eydís has worked on a dissertation studying the effect an increased cognitive workload has on acoustic and cardiovascular signals. She collected data from over 100 participants in a simulated environment, which she analyzed quantitatively and qualitatively. The key contribution of her thesis is in using a signal processing approach and showing that an involuntary response of the cardiovascular system can very accurately reflect one’s mental effort during a task. The thesis is a result of her cooperation with Isavia, and their effort to improve management of people working in an air traffic control environment.

Congratulations Eydís!

Language Technology Seminar this Saturday

The cooperation between LVL and other leading icelandic organizations is increasing. Tomorrow Reykjavik University and  Societas Scientiarum Islandica (Vísindafélag Íslendinga) are holding a seminar and panel discussion on the current progress and the future of implementing language technologies for Icelandic.

It will be held at Reykjavik University room M105. Hrafn Loftsson, of LVL, will be moderating the seminar starting at 13:30. It will consist of talks from a professor at University of Iceland, the chairman of Almannaromur, Jón Guðnason of LVL, and the director of Miðeindar ehf. Afterwards is the panel discussion.

We welcome everyone to attend the lively Saturday afternoon discussion!