Building language technology applications to help nations, industry, medicine, language learning, and users.

heilsugaeslan

Sjá íslenska þýðingu neðar

We have received five grants. We are also welcoming a new RU professor to LVL, Hannes Högni Vilhjálmsson. For these grants we are hiring specialists in artificial intelligence, language technology and software development. The deadline for the job applications are March 15th, 2021. Three grants are from the Icelandic Centre for Research and two are from the European CEF-Telecom program. The grants were for the following projects:

Microservices at your service: bridging the gap between NLP research and industry

This project aims to increase inclusiveness and accessibility for the EU languages by making natural language processing (NLP) tools freely and openly available on the European Language Grid (ELG) platform. The project will make the NLP tools more accessible to a larger audience of software developers through:

  • identifying relevant and interesting NLP tools. The tools will be identified via a bottom-up search on the software platforms, as well as by contacting the research institutions;
  • conducting a survey and collecting standard or available test data sets for NLP tasks;
  • testing the set of collected tools on the existing test data and selecting them based on the metrics performance and language coverage;
  • dockerising the tools and expose an industry standard API to the service;
  • sharing the docker images via the ELG platform.

The project targets the following languages: Finnish, Swedish, Norwegian, Spanish, Portuguese, Icelandic, Faroese, Lithuanian, Latvian and Estonian.

This project will be developed in collaboration with the University of Tartu (Estonia) and Gradient (Spain).

National Language Technology Platform (NLTP)

In this project, the most advanced language technology (LT) tools and solutions will be united in a novel, artificial intelligence driven National Language Technology Platform (NLTP). By tightly integrating mature, state-of-the-art LT technologies and services developed in CEF AT and other European and national programmes, the NLTP will provide public administrations, SMEs and general public with an efficient way to ensure multilingual access to online services, websites, documents and information removing the language barriers, increasing accessibility and fostering cross-border services.

The translation and speech processing services available in the platform will give public administration entities, their employees, SMEs and the public convenient and secure access to high quality tools with which to translate and make accessible a wide array of content, including confidential documents, across all the languages of the Digital Single Market and finally enable the vision of language parity and the full multilingualism enshrined in the European Charter of Fundamental Rights in an efficient, cost effective, and equitable manner.

This project is in collaboration with Culture Information Systems Centre (Latvia), Malta Information Technology Agency, Office of the State Advocate (Malta), University of Malta, University of Tartu (Estonia), Central State Office for the Development of Digital Society (Croatia), and University of Zagreb (Croatia).

Spoken Dialogue Framework for Icelandic

The spoken dialogue framework enables users to communicate with computers and other devices with their voice in Icelandic. The goal of this project is to develop and provide an open development framework for Icelandic spoken dialogue. The framework will feature automatic speech recognition (ASR), language understanding questions, text-to-speech synthesis (TTS), as well as several other language modules. Sseveral of these modules are already in development as part of the five year Language Technology Programme for Icelandic while others will be new developments or areas for end users. This project will be developed and tested in collaboration with industry partners (Grammatek ehf and Tiro ehf) as well as the open sector.

Using Machine Learning Models for Clinical Diagnoses

The goal is to examine the feasibility of using automatic models for clinical analyses. The project consists of two sub-goals. The first sub-goal is to develop a model based on deep neural networks which will use data from the icelandic healthcare system. The second sub-goal is to develop a prediction model for clinical diagnoses. The dataset will come from the capital region’s healthcare clinics. A portion of the dataset will be handmarked by clinical experts. This project will be developed jointly by LVL and Heilsugæsla, the health clinics.

Computer-Assisted Pronunciation Training in Icelandic

Language technology can be used to make teaching easier and more fun. It is important for small languages like Icelandic to get more users and an important step in getting more users is language learning and teaching. Computer-assisted pronunciation training (CAPT) makes it easier to teach more students simultaneously and automatically. This training will be integrated with the Icelandic Online system used in the Icelandic as a second language program at the University of Iceland. This project will be developed and tested in collaboration with our partners at Tiro ehf, the Arni Magnusson Institute, and the University of Iceland.

Íslenska

Að byggja upp tungumálatækniforrit til að hjálpa þjóðum, iðnaði, læknisfræði, tungumálanámi og notendum

Um er að ræða tvo styrki úr evrópsku “CEF-Telecom” áætluninni og þrjá styrki úr “Markáætlun í tungu og tækni”. Fyrir þessa styrki erum við að ráða sérfræðinga í gervigreind, máltækni og hugbunaðargerð. Skilafrestur umsókna um starf er til 15. mars 2021. Við bjóðum einnig Hannes Högni Vilhjálmsson prófessor við Háskólann í Reykjavík velkominn til LVL. Heiti verkefnanna sem um ræðir eru:

Örþjónustur til þjónustu: hvernig á að brúa bilið á milli NLP rannsókna og atvinnulífs

Þetta verkefni miðar að því að auka aðgengi að tungumálum töluðum innan ESB með því að gera þau tæki og tól sem þarf til málvinnslu (NLP) opin og aðgengileg á vettvangi European Language Grid (ELG). Verkefnið mun gera NLP tól aðgengilegri fyrir stærri hóp forritara með því að:

  • Greina viðeigandi og áhugaverð NLP tól. Tólin verða greind með neðansækinni leit á ýmsum hugbúnaðarverkvöngum semog með því að hafa samband við rannsóknarstofnanir.
  • Framkvæma könnun og söfnun á stöðluðum eða tiltækum prófunargögnum fyrir NLP verkefni.
  • Prófa tólin á prófunargögnunum og velja þau sem koma best út úr prófunum miðað við tiltekna matsþætti.
  • Docker-væða tólin og útbúa stöðluð forrritaskil fyrir viðkomandi þjónustur.
  • Deila docker-myndum í gegnum ELG-verkvanginn.

Verkefnið beinist að eftirfarandi tungumálum: finnsku, sænsku, norsku, spænsku, portúgölsku, íslensku, færeysku, litháísku, lettnesku og eistnesku.

Þetta verkefni verður þróað í samvinnu við fyrirtækið LingSoft í Finnlandi, Háskólann í Tartu (Eistlandi) og rannsóknarstofnunina Gradient (Spáni).

National Language Technology Platform (NLTP)

Í þessu verkefni verða hágæða máltæknitól og lausnir (LT) samþættuð í gervigreindarstýrðum „National Language Technology Platform“ (NLTP). Með því að samþætta „state-of-the-art“ LT lausnir og þjónustur sem þróaðar hafa verið í CEF AT, og öðrum evrópskum og innlendum áætlunum, mun NLTP veita opinberum aðilum, litlum og meðalstórum fyrirtækjum og almenningi skilvirka leið til að tryggja fjöltyngdan aðgang að þjónustu á netinu, vefsíðum, skjölum og upplýsingum. Þannig er hægt að fjarlægja tungumálahindranir, auka aðgengi og efla þjónustu yfir landamæri.

Þýðingar- og talvinnsluþjónustan sem verður aðgengileg í NLTP mun veita opinberum aðilum, starfsmönnum þeirra, litlum og meðalstórum fyrirtækjum og almenningi auðveldan og öruggan aðgang að hágæða lausnum til að þýða og gera aðgengilegt fjölbreytt úrval af efni á öllum tungumálum hins stafræna sameiginlega markaðar (Digital Single Market). Þannig getur sú sýn um tungumálafjölbreytileika og fjöltyngi sem fram kemur í sáttmála Evrópusambandsins um grundvallarréttindi orðið að veruleika á skilvirkan, hagkvæman og sanngjarnan máta.

Þetta verkefni er unnið í samvinnu við Tilde (Latvia), Culture Information Systems Centre (Latvia), Malta Information Technology Agency, Office of the State Advocate (Malta), University of Malta, University of Tartu (Estonia), Central State Office for the Development of Digital Society (Croatia) og University of Zagreb (Croatia).

Þróunarumgjörð fyrir íslenskt samræðukerfi

Samræðukerfi gera notendum kleift að eiga í samskiptum við tölvur og tæki með tali. Markmið þessa verkefnis er að þróa og gefa út opna þróunarumgjörð fyrir íslenskt samræðukerfi. Einnig verða til frumgerðir hugbúnaðar til sjálfvirkrar símsvörunar hjá einkafyrirtæki og til upplýsingagjafar á opinberri heimasíðum, sem byggja á þróunarumgjörðinni. 

Helstu þættir samræðukerfis eru: 1) talgreining, sem umbreytir tali notanda í texta; 2) málskilningur, sem greinir spurningar notanda með það að markmiði að “skilja” markmið hans; 3) samræðustjórnun, sem stýrir viðbrögðum kerfisins, til dæmis hvaða svar á að gefa eða hvaða aðgerð á að framkvæma, og sem jafnframt tengist gagnagrunnum, þjónustum og/eða öðrum uppsprettum upplýsinga; 4) málmyndun, sem myndar svar til notanda á textaformi; og 5) talgerving, sem umbreytir texta í talskilaboð til notanda. 

Þessi undirkerfi verða þróuð eða aðlöguð fyrir íslensku innan verkefnisins. Mörg þeirra eru nú þegar í þróun innan Máltækniáætlunar fyrir íslensku og mun verkefnið því geta nýtt þær afurðir ásamt því að leggja til frekari þróun á ýmsum sviðum. 

Tvær frumgerðir hugbúnaðar fyrir endanotendur verða þróaðar og prófaðar í samvinnu við samstarfsaðila úr atvinnulífinu og opinbera geiranum. Verkefnið tengist því sterklega bæði rannsóknum og hagnýtingu máltækni fyrir íslensku.

Notkun vélnámslíkana fyrir klínískar greiningar

Markmiðið með þessu verkefni er að skoða hagkvæmni þess að nota vélnámslíkön fyrir klínískar greiningar Verkefnið samanstendur af tveimur undirmarkmiðum. Í fyrsta lagi að nota djúptauganet til að þróa útdráttarlíkan sem dregur út einkenni úr íslenskum sjúkraskýrslum. Í öðru lagi að nota einkennin til að þjálfa greiningarlikan sem spáir fyrir um klínískar greiningar.

Gagnasafnið okkar samanstendur af nótum úr sjúkraskrám sjúklinga frá Heilsugæslu höfuðborgarsvæðisins. Hluti gagnasafnsins verður handmerktur þannig að sérhvert klínískt einkenni í nótu er merkt, ásamt því textabili í nótunni sem vísar í viðkomandi einkenni.

Djúptauganetin (bæði biLSTM og BERT-líkön) verða þjálfuð með því að nota handmerktu nóturnar og spurningu sem inntak, með það að markmiði að besta fyrir því textabili sem inniheldur svarið við spurningunni. Þannig lærir útdráttarlíkanið að draga út klínísk einkenni sem tengjast þeirri spurningu sem sett er fram í samhengi við viðkomandi nótu. 

Fyrir þróun á greiningarlíkaninu, sem tekur einkenni frá útdráttarlíkaninu sem inntak og skilar klínískri greiningu sem úttaki, munum við gera tilraunir með ýmiss konar flokkunaraðferðir, eins og “”Logistic Regression””, “”Decision Trees”” og “”Random Forest””. Greiningarfærni líkansins verður að lokum borin saman við greiningarfærni lækna á heilsugæslu.”

Tölvustudd frambuðarþjálfun á íslensku

Máltækni má nota til að gera tungumálakennslu auðvaldari og skemmtilegri. Það er mjög mikilvægt að geta fjölgað málnotendum minni tungumála eins og íslensku og skilvirk tungumálakennsla er góð leið til að ná slíku markmiði. Tölvustudd framburðarþjálfun (e. CAPT) gerir kennslu margra nemanda auðvaldari og gerir tölvustudda tungumálakennslu skilvirkari og auðveldari. 

Þetta verkefni miðar að því að smíða kerfi fyrir tölvustudda framburðarkennslu fyrir íslensku. Framburðar- og ítónunareiningar gera kerfinu kleift að hlusta á og meta framburð nemenda og gefa þeim nothæfa endurgjöf við nám sitt. Verkefnið inniheldur einnig vinnu við þróun á framburðarmati með mörgum markmiðum og kvikri einkunnargjöf þar sem gæði kerfisins er hámarkað og virkni útvíkkað. Framburðarkerfið verður samþætt og prófað sem hluti af Icelandic Online kerfinu sem er þegar í notkun við tungumálakennslu á íslensku sem annað máls.   

Leave a Reply

%d bloggers like this: