I løbet af kun et år har først Chat GPT og siden andre store sprogmodeller som Bard, Lamda (og senest Gemini) og Claude taget verden med storm. Vi giver disse sprogmodeller navne, og mange af os falder nok i fælden ved at skrive “vil du gøre det og det”, rose eller skælde ud. Eliza-effekten, altså menneskeliggørelsen af maskiner og kommunikationen med dem, har fået sit indtog.
Jo bedre de bliver, jo større er effekten. Det afgørende her er, at vi kan tale og skrive med den på vores eget sprog.
Det store spring inden for AI er netop forståelsen af naturligt sprog, altså ikke kode eller tal, men det sprog, vi skriver og taler. Teknologien hedder Natural Language Processing (NLP) og er grundlaget for den store udvikling inden for AI, som vi ser netop nu. Og det er det, der gør teknologien så tilgængelig og så intuitiv, at vi skal tilbage til fremkomsten af iphonen for at have set noget lignende. 2024 er ikke 2007, men der er visse ligheder.
Vi står helt klart midt i et tigerspring inden for nye teknologier, der vil ændre vores samfund.
Store sprogmodeller (herefter LLM’er) er motoren i generativ AI såsom Chat GPT. LLM’er har været ti år undervejs, før de fik deres store gennembrud inden for det sidste år. De er AI-systemer, der bruger såkaldt “deep learning” på gigantiske datasæt for træning, forståelse og dermed reproduktion og generering af ny tekst.
Moderne LLM’er fik et gennembrud i 2014 med den såkaldte “attention mechanism”, der var en maskinlæringsteknik, som skulle spejle eller kopiere menneskelig kognitiv opmærksomhed. Tre år senere blev den koblet med transformermodellen, og de to ting kombineret var i den grad fundamentet for det teknologiske gennembrud, vi nu ser udbredt til helt almindelige mennesker verden over.
I 2017 gik forskningsverdenen fra parallelle forskningsprojekter inden for f.eks. sprog, kode, musik, billedgenkendelse, etc. til at sammenflette alle disse forskningsfelter, og dermed blev nye teknologiske gennembrud inkorporeret på alle disse felter samtidigt – og resultatet ser vi i dag med Chat GPT, Dall-E, Midjourney osv.
Hvorfor skal vi have en dansk sprogmodel, spørger du nok.
Jeg opremser i flæng: Det bliver – og er allerede på vej til at blive – kritisk infrastruktur, og dermed handler det også om cybersikkerhed, national autonomi, kultur- og sprogbevarelse samt databeskyttelse og dermed også at vise en dansk (og europæisk) vej til en etisk og lovlig måde at træne data på via forskerrettigheder, Creative Commons, kollektive aftaler, licenser og betaling for kunstnere, journalister og andres arbejde.
På vegne af SF har jeg derfor stillet et beslutningsforslag om en dansk sprogmodel. Folketinget skal altså inden for kort tid tage stilling til dette emne. Jeg har allerede hørt indvendingerne så mange gange, at jeg gerne vil benytte denne lejlighed til at aflive et par af myter:
Der er ingen grund til en dansk sprogmodel, når vi har så gode amerikanske sprogmodeller, fra Open AI, Google, Facebook m.fl. Forkert. Amerikanske virksomheder kan ikke overholde GDPR, og de har historisk nægtet at lave GDPR-compliant aftaler. Dertil er de biased. Endelig viser data fra blandt andre Aarhus Universitet, at tech-giganternes LLM’er er teknisk dårligere til dansk.
Det bliver utrolig dyrt – nærmere 1 mia. kr. end de 40 mio. kr., som SF har beskrevet i beslutningsforslaget. Forkert. Og selvom det var rigtigt, ville jeg stadig mene, det var rigtigt at gøre – så meget er på spil.
Når det ikke koster mere – og SF’s beløb er enslydende med buddet fra Syddansk Universitet og Aarhus Universitet – så er det, fordi danske universiteter allerede har betalt kassen for at bruge de bedste europæiske systemer; italienske Leonardo og finske Lumi. Dertil har vi ret mange specifikt danske data at lægge oveni, f.eks. sundhedsdata og data fra Det Kongelige Bibliotek.
Mens jeg lægger sidste hånd på denne kronik, sidder jeg i toget på vej tilbage til Christiansborg efter et besøg i Odense, hvor jeg mødte nogle af Danmarks fremmeste forskere inden for store sprogmodeller. Jeg og SF er ikke de eneste, der kan se idéen i en dansk sprogmodel.
Tværtimod er dette konsortium, der består af SDU, AU, virksomheder og DI-bestyrelsesmedlemmer, alle enige om, at vejen frem er en national sprogmodel. Og det haster. For hver dag der går, bliver uddannelsesinstitutioner, kommuner og arbejdspladser mere og mere afhængige af udenlandske tech-giganter som Open AI. Hvorfor er det dårligt? Fordi det er ulovligt. Amerikanske virksomheder kan ikke garantere GDPR-overholdelse (pga. amerikansk lovgivning).
Fordi kommercielle virksomheder er i deres fulde ret til at hæve prisen, som de ønsker, skal offentlige institutioner så været trælbundet af det? Fordi amerikanske og kinesiske sprogmodeller er trænet på sprog, kultur og normer langt fra vores europæiske værdisæt.
Hver eneste dag er der en gymnasieelev, der skal skrive under på, at de er privatbruger af Chat GPT, for deres uddannelsesinstitution kan ikke lovligt stille det til rådighed. Det samme gælder for en kommunalt ansat. Et nyt koncept er opfundet til lejligheden: Du køber dig adgang til GPT-4 som privatbruger, og derefter får du udgiften refunderet af din arbejdsgiver.
Er det sådan, vi skal indrette vores kommuner? Hvor en sagsbehandler skal indlevere egne, eller værre endnu, en uvidende borgers data? Er det sådan, vi vil indrette vores uddannelsessystem? Vil vi med overlæg lægge det over på en 16-årig, der så betaler med sine private data?
Vi skal have en dansk sprogmodel, som Norge, Sverige og mange andre lande også laver. For vi skal have en strategi for generativ AI inden for det offentlige, inden vi bliver afhængige af ulovlige produkter fra udlandet. LLM’er er kritisk infrastruktur. Det er den nye tids forsyningssikkerhed. Det er cybersikkerhed. Det er national autonomi.