Can you preserve Icelandic voices with text-to-speech engines?

On July 11th, Tengivagninn on the Rás 1 attempted to answer this question and many more in an interview with Jon Gudnason and Ragnheiður Þórhallsdóttir.

Practical information about the radio program is below:

  • Language: Icelandic
  • Name of show: Tengivagninn
  • Station: Rás 1
  • Date: 11. 07. 2020
  • Air time: 13:26
  • Interviewer: Fanney Benjamínsdóttir
  • Duration: approximately 17 minutes
  • Topics discussed: The Icelandic Language Technology program work carried out at LVL
  • Link to the Radio episode

The full episode is available at ruv.is. However, we also have a transcription of the interview below. The transcription was made by the ASR at tal.tiro.is with minor edits and diarization added.

Tengivagninn interview with LVL

Talgervill: Halló allir. Hvað er eiginlega að frétta? Halló allir. Hvað er eiginlega að frétta?
Fanney Benjamínsdóttir (þáttasjórnandi): Nei, ég er hér með Jóni Guðnarssyni, dósent við verkfræðideild HR og Ragnheiður Þórhallsdóttir verkefnastjóra hjá Mál- og raddtæknistofnun Háskólans í Reykjavík til að ræða máltækniáætlun Íslands. En hér er meðal annars verið að vinna íslenskum raddgerli talgreini. Geturðu sem sagt mér aðeins frá verkefninu?
Jón Guðnason: Já. Verkefnið er unnið að samtökum íslenskrar máltækni, SíM, Jón Ármannaróm samgöngumál, máltækni, sú tækni sem hefur að gera með tungumálið, hvort sem það er talað um það skrifað eða einhvern annan hátt og í þessu verkefni, taka á bæði táknmálinu úr skrílmálinu. Það er hreint málinu og við hérna í Háskólann í Reykjavík. Við erum að einbeita okkur að tálmunum stóra stórverkefnin, skipt í fimm hluta sem hafa gefið mál rými eins og stafsetningar, leiðréttingum svoleiðis vélrænar þýðingar, annar hluti, stór hluti sem hann hefur að geyma, gagnasöfnun, málheildir og annað. Við erum með tvo pakka sem á að gera með talgreiningu annars vegar tölva er að reyna að skilja hvað er verið að segja. Hann gerving hins vegar fimmti pakkinn og talgerfing er sem sagt láta tölvutala.
Fanney Benjamínsdóttir: Þannig að markmiðið er í rauninni að við getum talað við tölvuna okkar og hún geti svarað okkur.
Jón Guðnason: Já í stuttu máli svo miklu meira en það. Það er svo margt sem hægt er að gera með þessa tækni um leið og þú getur byrjað að hafa samskipti við tölvu með talmálinu þá breytist frá markaði, ekki bara þessi er bara þessi þessi samræða sem við getum mátti tæknina heldur líka alls konar gagnasöfnun og veruleiki og annað sem við getum búið til tækninni.
Talgervill: Halló allir. Hvað er eiginlega að frétta? Halló allir. Hvað er eiginlega að frétta?
Fanney Benjamínsdóttir: Er þessi tækni til dæmis önnur tungumál með símana okkar og þeir skilja okkur alla vega stundum og svara til baka? Er þetta sama?
Jón Guðnason: Jú ákveðnu marki. Hún er í stöðugri þróun, líka fyrir erlend tungumál. Hún er komin kannski eitthvert lengra heldur en heldur en fyrir íslensku mun lengra en til dæmis fyrir stóru tungumálsins, á ensku og spænsku, kínversku og hvað þau heita öll og markmið þessa verkefnis er að reyna að koma okkur á þann stað að við getum verið gildandi í tækniheiminum meðalstóra tungumálanna.
Fanney Benjamínsdóttir: Og af hverju er mikilvægt að við eigum okkar eigin tungumáli aðgang að þessu? Getum við notað ensku tæknina?
Jón Guðnason: Ef við kunnum ensku, en það eru áhöld um það hversu vel við kunnum ensku og það er líka spurning hvort það sé rétt að ætlast til þess að fólk sé að tala tungumál sem er ekki þeirra eigið móðurmál og það er nú einu sinni hlutverk okkar sem lands að hlúa að því sem við erum að gera. Tungumálið er vissulega eitt af því sem við eigum að hlúa.
Fanney Benjamínsdóttir: Mál verndarstefna hér við lýði.
Jón Guðnason: Já, má ekki kannski málvernd heldur bara verið að passa upp á íslenskan sé gildandi drekinn hefur hefur alveg jú með mál, benda gera per-se en það er ekkert verið að reyna að passa upp á við eitthvað eins og í gamla daga eða neitt svoleiðis. Í verkefninu er tekið tillit til þess að tungumálið er mjög lifandi og er að breytast og þroskast og og hérna og við tökum mið af því mikilvægt að horfa ekki á verkefnið sem eitthvað svona tungumálið, einhverra flösku og setja upp á hillu heldur er einmitt öfugt. Það er verið að reyna að búa til tæki og tækni sem leyfir okkur að leika með tungumálið og halda áfram að þróa það á sem eðlilegastan hátt.
Fanney Benjamínsdóttir: Heimspekingurinn orðaforða hugbúnaðar, hvernig hvernig stjórnast hann Kann talgervill að sletta?
Jón Guðnason: Góð spurning, mjög góð spurning. Sko, gamla tæknin leyfir bara ákveðin orð, fer eftir því hvort maður sé talinn talgerfingu talgreini um þúsund talgreininn, gæti til dæmis ekki skilið nýorðið eða eitthvað svoleiðis. Það er bara of opnar rannsóknarspurningar hvort það sé hægt að hafa óbein orðaforða eða ekki og mjög spennandi hlutir að gerast þar og eitthvað sem við reynum að vera undan í tækninni. Bæði. Þess vegna erum við með rannsóknargagns stofur eins okkar og annars staðar háskóla. Háskólarnir hérna eru að taka þátt í þessu verkefni beinlínis vegna þess að við erum að fylgjast með því sem nýjast sem gerist rennandi hlutir að gerast almennt í máltækni og eitt af því með mjög spennandi. En þetta geta notað sko, við erum með opinn orðaforða þannig að þegar ný orð koma verður einhvers konar sjálfvirkni sem fattar: ja, þetta er nýtt orð. Þú reynir að fatta hvernig maðurinn út í hvaða samhengi og svoleiðis. En þetta er mjög nýtt og skemmtilegt og við erum mjög spennt yfir akkúrat þessu þessa dagana.
Fanney Benjamínsdóttir: Hvernig virkar þetta að halda uppi síðunni samrómur.is þar sem þeir hafa beðið fólk um að lesa inn og sendinn radd sýni: til hvers eru þau notuð?
Jón Guðnason: Samrómurinn notuðu talgreiningu. Þá þurfum við gögn frá fullt af fólki og bara ekkert mikið af gögnum frá hverjum og einum en en eitthvað og svo þurfum við bara mikið af gögnum og frá frá mörgu fólki og þá höfum við þetta verkefni sem heitir samrómur. Allir ættu að taka þátt í samrómur.is getað lesið innsetningar og svo notum við þessa setningu. Textinn er á þá höfum við hljóðupptökuna og getum sem sagt látið tölvuna læra. Hvaða hljóð eiga minn? Hvaða hvaða orð stafi
Fanney Benjamínsdóttir: Ef ég les rosalega mikið inn á samróm punktur is? Kemur það sér tækni til með að skilja mig betur en aðra?
Jón Guðnason: Mögulega? Jú, ef þú ert allavega þá í þessum grunni og röddin þín mætti væntanlega skila sér einhvern veginn. Já.
Fanney Benjamínsdóttir: Og hver er þá sem talar fyrir hina hliðina? Ef ég tala við tölvuna og tölvan svarar mér hvernig ég tala við.
Jón Guðnason: Við erum núna búnir að við erum í annarri stofnun sem heitir Pálrúnar, Ragnheiður geti sagt eitthvað.
Ragnheiður Þórhallsdóttir: Þar erum við að safna röddunum sem muni tala við þig. Átta raddir í heild yrðu teknar upp. Það eru fjórar karlmannsraddir úr hjörð kvenmannsraddir og þeir eru númer fimm fólk er búið að leggja ótrúlega mikið á sig, leggja fram tuttugu klukkustundir af efni sem er svo notað til að þjálfa talgervilinn.
Fanney Benjamínsdóttir: Og ef ég kæmi og gæfi tuttugu klukkustundir efni, hvernig mundu þær tuttugu klukkustundir hljóma? Er ég að segja orð eða er þetta bara hljóð eða hvað er það sem þau eru látin lesa?
Ragnheiður Þórhallsdóttir: Svipað og samrómur? Þetta eru stuttar setningar sem lesa oftast örstuttar sem er búið að velja út frá sjónarmið at l l a y á hné og tilheyrir tungumálinu, koma fram það náttúrulega mjög skrýtnar setningar.
Fanney Benjamínsdóttir: Og hvernig verð ég að þetta fólk, hverjir eru það sem fá að vera þessi stafræna rödd,
Ragnheiður Þórhallsdóttir: Ótrúlegar íslenskar raddir. Við erum búnir að auglýsa nokkrum sinnum og fengið frábær viðbrögð og erum með sérfræðinga sem farið yfir þetta og velja út frá ýmsum þáttum en líka mjög mikilvægt að þessar átta raddir séu allar mjög ólíkar við unga konu sem bjartara fyrir unglinga. Hinar dýpri rödd, já, átta ólíkar raddir.
Fanney Benjamínsdóttir: Er þeim svo skeytt saman einhvern veginn eða myndar hver þeirra sem eigin talgervil.
Ragnheiður Þórhallsdóttir: Já, eskitrjánna hver myndar.
Jón Guðnason: Svo er um annan aðra söfnun er númer tvö farsölunum jafnmiklum frá hverjum og einum. Við söfnum sem sagt fjörutíu manns á endanum og þar er ætlunin að blanda saman röddum og búa til í raun og veru raddir sem eru ekki hingað.
Ragnheiður Þórhallsdóttir: Fólk sem er með fallega raddir og að þessu verkefni og ef hugmyndin er að fólk geti valið.
Jón Guðnason: Það er smá atriði að tengja ekki röddina við manneskjuna sem talaði. Það gerðist einu sinni inn á Íslandi talgervilinn vefgáttin talgervill sem var með var kennara, Blindrafélaginu fyrir mörgum árum og þá lesa var þekktur síðan. Þá höfum við ekki haldið því leyndu hverjir, þar sem hann talar Blindrafélagsins núna eftir Karl og Dóra en ekkert tengt við viðfangsefnið. Andstaðan við erum ekkert að flíka því neitt,
Fanney Benjamínsdóttir: Vilja alls ekki að fá þekkta einstaklinga í þetta hlutverk.
Jón Guðnason: En auðvitað getum við að við getum auðvitað, ef við viljum fá Bogi Águstsson, hann fræga upplausnar á getum við búið til raddirnar. Þá verður þetta líka ef þú tengir röddina við einstaklinginn að þá verður það eiginlega meira þess einstaklings, hin siðferðilega, svolítið viðkvæmt.
Fanney Benjamínsdóttir: Nú dettur mér í hug það er svolítið verið talað um svona djúp falsanir undanfarið. Eldaði sama konsept, þessi radd uppbygging og er verið að nota þar?
Jón Guðnason: Já, þetta er bara þessi tækni. Við verðum að eins og við verðum að takast á við við þau vandamál sem koma decals dýpri, djúp djúp falsanir og ekki bara við höfum talið að sönghelli unglinga. Við höfum auðvitað bara hljóð og mynd og myndskeið. Verður þetta eitthvað sem verður að passa upp á, bæði með reglugerðum og reglum en líka bara fólk verður að vera meðvitað um hvað er hægt að gera með tæknina í framtíðinni og íslenskan er ekkert undanskilið, aldrei þetta vandamál þó að þú ert í heiminum ekki góð leið, að sleppa því að þróa tæknina á endanum, bara einhver.
Talgervill: Halló allir. Hann segir að frétta? Halló allir. Hvað er eiginlega að frétta?
Fanney Benjamínsdóttir: Mörg met sem ég minntist aðeins á hérna áðan, svona forrit í símanum okkar sem við getum talað við og skilja okkur alla vega stundum og svara okkur til baka, Siri og Alexa og hvað þetta allt heitir. Getum við búist við að þessi forrit fari að tala íslensku?
Jón Guðnason: Afar skemmtilegt, ekki undir okkur komið en undir einhverjum stórfyrirtæki komið hvort það verður einhver ákvörðun tekin einhverju einhverri skrifstofu einhvers staðar úti í heimi að Siri eða hver sem er farinn að tala íslensku getum ekki breytt því? Við getum ekki haft. Við getum ekki látið einhvern bara gera þetta en við getum hins vegar gert allt annað. Við getum látið bæði tæknina og gögnin um málfong sem þarf. Við getum gert þau tilbúin þannig að hver sem er geti auðveldlega gert þetta íbúum til raddirnar. Við búum til hugbúnaðinn sem lesa upp texta, kerfinu, texta og svoleiðis. Er það í raun og veru ekki undir okkur komið hvar þetta notað? Það er ekki okkar hlutverk að setja þetta í notkun per-se. Við ýtum eftir því og viljum auðvitað að alls konar aðilar í þjóðfélaginu fara og fara að taka þetta upp. En en við reynum bara að halda þessu al tæknifyrirtækjum, startup fyrirtækjum og öðrum og hérna. Vonandi taka þessa tækni barmana en annars er tæknin öll opin og frjáls. Það er hægt að nálgast bæði hugbúnaðinn og gögnin. Á vefsíðu verkefnisins unglingar munum við setja þetta inn í gagnabanka bæði erlendis og hérlendis. Þetta verður allt gert útbýr og það þarf ekki að kosta neitt.

ACL 2020 Student Research Workshop paper is now out

Sjá íslenska þýðingu neðar

Last week ACL hosted their 2020 ACL conference. It was supposed to be in Seattle, Washington. But due to COVID-19 it has been moved online, including their satellite events like the ACL 2020 Student Research Workshop (SRW).

This means their proceedings have now been published, including a paper by our very own student, Steinþór Steingrímsson: Effectively Aligning and Filtering Parallel Corpora under Sparse Data Conditions. He wrote about his methods for preparing parallel text for machine translation.

Í síðustu viku hélt ACL árlegu ráðstefnuna sína. Upprunalega átti að halda ráðstefnuna í Seattle en vegna COVID-19 var hún öll færð yfir í netheima, einnig vinnustofur eins og ACL 2020 Student Research Workshop (SRW).

Þetta þýðir að allar innsendar greinar hafa verið gefnar út, þar á meðal grein eftir nemenda okkar Steinþór Steingrímsson. Heiti greinarinnar er Effectively Aligning and Filtering Parallel Corpora under Sparse Data Conditions. Þar skrifar Steinþór um aðferðir til að undirbúa samhliða texta fyrir vélþýðingu.

Abstract

Parallel corpora are key to developing good machine translation systems. However, abundant parallel data are hard to come by, especially for languages with a low number of speakers. When rich morphology exacerbates the data sparsity problem, it is imperative to have accurate alignment and filtering methods that can help make the most of what is available by maximising the number of correctly translated segments in a corpus and minimising noise by removing incorrect translations and segments containing extraneous data. This paper sets out a research plan for improving alignment and filtering methods for parallel texts in low-resource settings. We propose an effective unsupervised alignment method to tackle the alignment problem. Moreover, we propose a strategy to supplement state-of-the-art models with automatically extracted information using basic NLP tools to effectively handle rich morphology.

You can check out the paper on the ACL website: https://www.aclweb.org/anthology/2020.acl-srw.25/

Seattle photo via Good Free Photos

First milestone in the Language Technology for Icelandic project

The LVL team celebrating the first milestone in the Language Technology for Icelandic project. Ólafur Helgi Jónsson, Sunneva Þorsteinsdóttir and Steinþór Steingrímsson are missing from the picture.

Last week we celebrated achieving the first milestone in the Language Technology for Icelandic project with a cake!

After a lot of hard work the past few months we achieved the first milestone in Automatic Speech Recognition (ASR), Text-to-Speech (TTS) and Machine Translation (MT).

In ASR, the focus has mostly been on data creating and gathering. 55,000 utterances have been collected (donated by adults) via the crowd-sourcing platform samromur.is (based on Common Voice) with plans to reach 100.000 utterances for the next milestone. The process is being extended to include younger voices in collaboration with schools and authorities. Today we started working with Öldutúnsskóli in Hafnarfjörður. The goal is to reach 80.000 young voice utterances for the next mileston. Additionally, data has been gathered from RÚV (audio, video and subtitles) and CreditInfo (transcriptions). Along with data gathering, the team is also developing tools to post-process Icelandic ASR text for better readability.

In TTS, we successfully created a voice recording client (LOBE) and three reading scripts in order to collect high quality speech and corresponding text data. The reading scripts were created from Risamálheild and seek to maximize diphone coverage. So far 20 hours have been collected from two speakers, male and female. The aim is to finish collecting 20 hours from each speaker early this year. From the collected data two TTS prototypes have been created in Ossian, which extends the Merlin back-end. The current prototypes are quite naive but we have integrated a grapheme-to-phoneme model for the Icelandic language into the prototypes.

In MT, we successfully created a phrase-based statistical machine translation system using the open source tool Moses. Our collaborators at Miðeind created neural machine translation systems based on BiLSTMs and Transformers. The models were trained on the newly available English-Icelandic parallel corpus, ParIce. The systems were then evaluated w.r.t. training time, throughput and BLEU score. The code and 
systems are freely available but are still under development for milestone two. In milestone two we will continue to develop the systems further and adjust them to specific needs of the Icelandic language.