Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Íslenskir Trumpistar Andri Þorvarðarson Skoðun „Ég ætlaði aldrei að hætta í útgerð“ Sigurgeir B. Kristgeirsson Skoðun Hvað var RÚV að hvítþvo – og til hvers? Hilmar Kristinsson Skoðun Þegar Evrópa fer á hnén og kallar það vináttu Steinunn Ólína Þorsteinsdóttir Skoðun Síbrotaferill ríkislögreglustjóra Einar Steingrímsson Skoðun Hvers virði er ég ? Rakel Linda Kristjánsdóttir Skoðun Gellupólitík Hlédís Maren Guðmundsdóttir Skoðun Hærri vörugjöld, lægri samkeppnishæfni Arnar Þór Hafsteinsson Skoðun Að vera húsbyggjandi Hilmar Freyr Gunnarsson Skoðun 4.865 börn sem bíða í allt að fjögur ár Ragnheiður Dagný Bjarnadóttir Skoðun Skoðun Skoðun Íslenskir Trumpistar Andri Þorvarðarson skrifar Skoðun „Sofðu rótt í alla nótt“ – Um stöðu íslenskunnar, lestrarmenningu og ákall til okkar sjálfra Gunnar Már Gunnarsson skrifar Skoðun Í hvað á orkan að fara? Hallgrímur Óskarsson skrifar Skoðun Vegatálmar á skólagöngunni Birna Þórarinsdóttir skrifar Skoðun Þegar Evrópa fer á hnén og kallar það vináttu Steinunn Ólína Þorsteinsdóttir skrifar Skoðun Hvað var RÚV að hvítþvo – og til hvers? Hilmar Kristinsson skrifar Skoðun Stjórnvöld mega ekki klúðra nýju vaxtaviðmiði Bogi Ragnarsson skrifar Skoðun Að vera húsbyggjandi Hilmar Freyr Gunnarsson skrifar Skoðun Hærri vörugjöld, lægri samkeppnishæfni Arnar Þór Hafsteinsson skrifar Skoðun Að einfalda veruleikann og breyta öllu í pólitískt fóður Martha Árnadóttir skrifar Skoðun Tími til kominn Berglind Friðriksdóttir,Gunnsteinn R. Ómarsson,Hrönn Guðmundsdóttir,Sigfús Benóný Harðarson,Vilhjálmur Baldur Guðmundsson skrifar Skoðun Hvers virði er ég ? Rakel Linda Kristjánsdóttir skrifar Skoðun RÚV brýtur á börnum Guðbjörg Hildur Kolbeins skrifar Skoðun Framtíðarsýn Íslands: Raunsæ tækni, græn orka og friður fyrir hugann Sigvaldi Einarsson skrifar Skoðun „Ég ætlaði aldrei að hætta í útgerð“ Sigurgeir B. Kristgeirsson skrifar Skoðun Frjósemisvandi – samfélagsleg ábyrgð og stuðningur María Rut Baldursdóttir,Sigríður Auðunsdóttir skrifar Skoðun Ríkisstjórnin fellir niður jafnrétti íþrótta og gerir vont verra Unnar Már Magnússon skrifar Skoðun 4.865 börn sem bíða í allt að fjögur ár Ragnheiður Dagný Bjarnadóttir skrifar Skoðun Gellupólitík Hlédís Maren Guðmundsdóttir skrifar Skoðun Ísland þarf að tilnefna fulltrúa í European SET Plan Ester Halldórsdóttir skrifar Skoðun Vitundarvakning um ófrjósemi: Þekking á frjósemi er ekki lúxus – hún er lífsnauðsyn María Rut Baldursdóttir skrifar Skoðun Síbrotaferill ríkislögreglustjóra Einar Steingrímsson skrifar Skoðun Velkomin á fjórðu vaktina Árný Ingvarsdóttir skrifar Skoðun Hvers virði er framtíðin? Um olíuleit við Ísland Jóhanna Malen Skúladóttir skrifar Skoðun Vísvitandi verið að skaða atvinnulífið? Hjörtur J. Guðmundsson skrifar Skoðun Varaflugvallagjaldið og flugöryggi Njáll Trausti Friðbertsson skrifar Skoðun Heimilisofbeldi er ekki einkamál – hugleiðing fyrrverandi lögreglumanns Sigurður Árni Reynisson skrifar Skoðun Á rauðu ljósi í Reykjavík Einar Sveinbjörn Guðmundsson skrifar Skoðun Hefur þú tíma? Ósk Kristinsdóttir skrifar Skoðun Heilnæm fæða – íslenskur landbúnaður er grunnur öryggis okkar Ragnar Rögnvaldsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun „Sofðu rótt í alla nótt“ – Um stöðu íslenskunnar, lestrarmenningu og ákall til okkar sjálfra Gunnar Már Gunnarsson skrifar
Skoðun Tími til kominn Berglind Friðriksdóttir,Gunnsteinn R. Ómarsson,Hrönn Guðmundsdóttir,Sigfús Benóný Harðarson,Vilhjálmur Baldur Guðmundsson skrifar
Skoðun Framtíðarsýn Íslands: Raunsæ tækni, græn orka og friður fyrir hugann Sigvaldi Einarsson skrifar
Skoðun Frjósemisvandi – samfélagsleg ábyrgð og stuðningur María Rut Baldursdóttir,Sigríður Auðunsdóttir skrifar
Skoðun Ríkisstjórnin fellir niður jafnrétti íþrótta og gerir vont verra Unnar Már Magnússon skrifar
Skoðun Vitundarvakning um ófrjósemi: Þekking á frjósemi er ekki lúxus – hún er lífsnauðsyn María Rut Baldursdóttir skrifar
Skoðun Heimilisofbeldi er ekki einkamál – hugleiðing fyrrverandi lögreglumanns Sigurður Árni Reynisson skrifar