Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Við erum orðin Afríka: Hvernig íslenska elítan rændi þjóðinni Sigurður Sigurðsson Skoðun Staðreyndir og fræðsla um flugmannsstarfið Matthías Arngrímsson Skoðun Kos staðfesti ekki tilvist samkomulags Hjörtur J. Guðmundsson Skoðun Við byggðum varnargarða – nú þurfum við að byggja upp samfélagið Kristín María Birgisdóttir Skoðun 82 ár frá stofnun lýðveldisins: Gleymum ekki sögu okkar Anton Guðmundsson Skoðun Hugleiðing í tilefni að þjóðhátíðardegi Íslands: Grundvöllur sjálfstæðisins var barátta þeirra fátæku fyrir betra samfélagi Ágúst Valves Jóhannesson Skoðun Til hamingju með Þjóðarhöll! Dagur B. Eggertsson Skoðun Hvernig verjum við sjálfstæði Íslands til framtíðar? Þorvaldur Ingi Jónsson Skoðun Dánaraðstoð: réttur fárra má ekki skaða aðra Þórhildur Kristinsdóttir,Arna Dögg Einarsdóttir,Sigurdís Haraldsdóttir,Hrönn Harðardóttir,Helga Tryggvadóttir,Guðrún Nína Óskarsdóttir Skoðun Sannleikurinn um íslenska kvótakerfið: Þegar almannaeign varð að einkavæddum ránsfengi Sigurður Sigurðsson Skoðun Skoðun Skoðun Til hamingju með Þjóðarhöll! Dagur B. Eggertsson skrifar Skoðun Hugleiðing í tilefni að þjóðhátíðardegi Íslands: Grundvöllur sjálfstæðisins var barátta þeirra fátæku fyrir betra samfélagi Ágúst Valves Jóhannesson skrifar Skoðun Hvernig verjum við sjálfstæði Íslands til framtíðar? Þorvaldur Ingi Jónsson skrifar Skoðun Staðreyndir og fræðsla um flugmannsstarfið Matthías Arngrímsson skrifar Skoðun 82 ár frá stofnun lýðveldisins: Gleymum ekki sögu okkar Anton Guðmundsson skrifar Skoðun Kos staðfesti ekki tilvist samkomulags Hjörtur J. Guðmundsson skrifar Skoðun Við byggðum varnargarða – nú þurfum við að byggja upp samfélagið Kristín María Birgisdóttir skrifar Skoðun Við erum orðin Afríka: Hvernig íslenska elítan rændi þjóðinni Sigurður Sigurðsson skrifar Skoðun Skýrar línur og strangari löggjöf um vindorku Jóhann Páll Jóhannsson skrifar Skoðun Alvarleg og viðvarandi hernaðarógn Arnór Sigurjónsson skrifar Skoðun 30% lækkun skiptir sveitir landsins máli Axel Sæland skrifar Skoðun Er ný fjármálaáætlun á áætlun? Birta Karen Tryggvadóttir skrifar Skoðun Á að kenna íslensku við Háskóla Íslands? Gauti Kristmannsson skrifar Skoðun Þingheimur lokar augum og eyrum Ásmundur E. Þorkelsson,Hörður Þorsteinsson ,Sigrún Guðmundsdóttir skrifar Skoðun Enginn á að ýta Íslandi inn um bakdyrnar Helgi S. Karlsson skrifar Skoðun Þegar ESB beitir smáþjóð ofríki Júlíus Valsson skrifar Skoðun Hver á stjórnsýsluna? Þórólfur Júlían Dagsson skrifar Skoðun Farsældarlögin: Samþætting án úrræða Elín Anna Baldursdóttir skrifar Skoðun Dánaraðstoð: réttur fárra má ekki skaða aðra Þórhildur Kristinsdóttir,Arna Dögg Einarsdóttir,Sigurdís Haraldsdóttir,Hrönn Harðardóttir,Helga Tryggvadóttir,Guðrún Nína Óskarsdóttir skrifar Skoðun Leggjum mannréttindaráð Reykjavíkur niður Helgi Áss Grétarsson skrifar Skoðun Þegar „kerfið“ spilar vörn Jón Þorsteinn Sigurðsson skrifar Skoðun Börn eiga ekki að alast upp inni í símanum Þorvaldur Davíð Kristjánsson skrifar Skoðun Bumbubað Gunnar Salvarsson skrifar Skoðun Sannleikurinn um íslenska kvótakerfið: Þegar almannaeign varð að einkavæddum ránsfengi Sigurður Sigurðsson skrifar Skoðun Ísland á auðlindir sem Danir eiga ekki – hvers vegna eru kjörin betri í Danmörku? Þorvaldur Ingi Jónsson skrifar Skoðun Lífseigla gæskunnar Sigurður Árni Reynisson skrifar Skoðun Hvað gerir Íslendinga einstaka? Valerio Gargiulo skrifar Skoðun Vel upplýst þjóð neitar að láta spila með sig Ágúst Valves Jóhannesson skrifar Skoðun Börn á krossurum á gangstéttum höfuðborgarsvæðisins Hjörvar Sigurðsson skrifar Skoðun Háannatími má ekki vera griðland fyrir leyfislausan rekstur Sigrún Guðmundsdóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Við byggðum varnargarða – nú þurfum við að byggja upp samfélagið Kristín María Birgisdóttir Skoðun
Hugleiðing í tilefni að þjóðhátíðardegi Íslands: Grundvöllur sjálfstæðisins var barátta þeirra fátæku fyrir betra samfélagi Ágúst Valves Jóhannesson Skoðun
Dánaraðstoð: réttur fárra má ekki skaða aðra Þórhildur Kristinsdóttir,Arna Dögg Einarsdóttir,Sigurdís Haraldsdóttir,Hrönn Harðardóttir,Helga Tryggvadóttir,Guðrún Nína Óskarsdóttir Skoðun
Sannleikurinn um íslenska kvótakerfið: Þegar almannaeign varð að einkavæddum ránsfengi Sigurður Sigurðsson Skoðun
Skoðun Hugleiðing í tilefni að þjóðhátíðardegi Íslands: Grundvöllur sjálfstæðisins var barátta þeirra fátæku fyrir betra samfélagi Ágúst Valves Jóhannesson skrifar
Skoðun Við byggðum varnargarða – nú þurfum við að byggja upp samfélagið Kristín María Birgisdóttir skrifar
Skoðun Þingheimur lokar augum og eyrum Ásmundur E. Þorkelsson,Hörður Þorsteinsson ,Sigrún Guðmundsdóttir skrifar
Skoðun Dánaraðstoð: réttur fárra má ekki skaða aðra Þórhildur Kristinsdóttir,Arna Dögg Einarsdóttir,Sigurdís Haraldsdóttir,Hrönn Harðardóttir,Helga Tryggvadóttir,Guðrún Nína Óskarsdóttir skrifar
Skoðun Sannleikurinn um íslenska kvótakerfið: Þegar almannaeign varð að einkavæddum ránsfengi Sigurður Sigurðsson skrifar
Skoðun Ísland á auðlindir sem Danir eiga ekki – hvers vegna eru kjörin betri í Danmörku? Þorvaldur Ingi Jónsson skrifar
Við byggðum varnargarða – nú þurfum við að byggja upp samfélagið Kristín María Birgisdóttir Skoðun
Hugleiðing í tilefni að þjóðhátíðardegi Íslands: Grundvöllur sjálfstæðisins var barátta þeirra fátæku fyrir betra samfélagi Ágúst Valves Jóhannesson Skoðun
Dánaraðstoð: réttur fárra má ekki skaða aðra Þórhildur Kristinsdóttir,Arna Dögg Einarsdóttir,Sigurdís Haraldsdóttir,Hrönn Harðardóttir,Helga Tryggvadóttir,Guðrún Nína Óskarsdóttir Skoðun
Sannleikurinn um íslenska kvótakerfið: Þegar almannaeign varð að einkavæddum ránsfengi Sigurður Sigurðsson Skoðun