Kunstig intelligens i dansk
Jeppe Bundsgaard
Dansklærerforeningens Forlag
Jeppe Bundsgaard
Dansklærerforeningens Forlag
Jeppe Bundsgaard
Dansklærerforeningens Forlag
04 Forord
06 Introduktion til sprogmodeller
12 Brug sprogmodeller i undervisningen
14 Interagér med sprogmodellen
20 Vurdér sprogmodellens svar
26 Forhold dig kritisk til sprogmodellen
32 Forhold dig til brugen af sprogmodeller
40 Sprogmodeller i kontekst
48 En eksplosion af kreativitet
52 Kildeliste
Nogle tendenser er forbigående, mens andre er kommet for at blive. Kunstig intelligens i dansk er en af de tendenser, vi i hvert fald bliver nødt til at forholde os til, når vi beskæftiger os med skole, uddannelse og under visning. Kunstig intelligens er en kommunikationsteknologi med konsekvenser på niveau med opfindelsen af skriften, trykpressen, radioen og internettet (Bundsgaard 2000). Lige dele fascinerende og skræmmende og helt central at forholde sig til i danskfaget.
Straks efter firmaet OpenAI i november 2022 gav offentlig adgang til deres nyeste sprogmodel ChatGPT 3.5 var aviserne fyldt med skrækhistorier om, at elever og studerende kunne bruge den til at snyde i eksaminer og opgaver. Snyd forudsætter, at der er en konkurrence at snyde i, og skolen og de øvrige uddannelser er ganske rigtigt givet den opgave at tildele eleverne karakterer og dermed en plads i den konkurrence, som giver eleverne forskellig adgang til videre uddannelse og jobs. Men skolen og de øvrige uddannelser har mindst lige så vigtige opgaver i at bidrage til, at eleverne udvikler sig som selvstændige borgere, der kan tage stilling og handle selvstændigt, og til at de udvikler sig som alsidige hele mennesker optaget af eksistens, fællesskab og meningsfuldhed.
Kunstig intelligens’ ankomst – for eksempel de store sprogmodeller
ChatGPT, Mistral, SkoleGPT og mange andre – giver i høj grad anledning til at gentænke, hvad der skal til for, at skolen opfylder sine formål, og de giver en række nye perspektiver på, hvad eleverne skal lære i danskfaget.
Kunstig intelligens’ ankomst [...] giver i høj grad anledning til at gentænke, hvad der skal til for, at skolen opfylder sine formål.
For at tage favntag med disse problemstillinger er det en fordel i store træk at forstå, hvordan en stor sprogmodel fungerer. Principperne bag er faktisk ret simple. Den grundlæggende idé bag de sprogmodeller, vi kender i dag, stammer helt tilbage fra kommunikationsforskeren Claude E. Shannons arbejde omkring midten af 1900tallet med at udvikle en matematisk model for kommunikation (Shannon 1948). Idéen var at udregne, hvor ofte ord og rækker af ord optræder i et korpus af tekster, og så bruge disse til at generere tekst ved at vælge ord tilfældigt, men vægtet efter, hvor ofte ordet optræder i korpusset.
Det giver en mærkelig tekst, hvis man bare vælger ord ud fra, hvor ofte de optræder i sig selv. Det vil jeg illustrere med udgangspunkt i et korpus bestående af en samling af H.C. Andersens eventyr downloadet fra hjemmesiden www.andersenstories.com. Med hjælp fra en maskine har jeg optalt, hvor ofte hvert enkelt ord optræder i korpusset. Ud fra optællingen er der blevet genereret en tekst baseret på Shannons logik for udvælgelse af ord. Hvert ord vælges tilfældigt, men ord, der optræder ofte i korpusset, har større sandsynlighed for at optræde i den genererede tekst, end ord, der optræder sjældent. Det danner tilsammen denne sætning:
BÆRE BOEDE DET SYNDERNE ALDRIG SÅ, HUN HUN
EFTER ALT, SIN HÅR SOM SÅ ER INGEN DU SOM
ALLE I LILLE FOD, LYKKENS NÜRNBERG, UD, HAN
DET SKAL OG DET SKAL DAG, GLÆDE.
Sætningen giver ikke rigtig mening. Men hvis man udregner, hvor ofte et ord optræder som sidste ord i en kæde af fx fire ord og bruger dette til at vælge næste ord i teksten, så begynder man at kunne producere tekster, der indimellem lyder helt meningsfulde.
Netop det har jeg gjort i den følgende tekst, igen med udgangspunkt i korpusset bestående af H.C. Andersens eventyr. Denne tekst starter med de tre ord ”Der var engang”:
DEJLIGT UDE PÅ DET FRØS DÉR ET PAR GRADER
STÆRKERE END INDE I BYEN. HVOR DER INGEN
HYLDETRÆER STOD. DET VAR TÆT VED EN AF DE
REJSENDE, ” DERNEDE VED MAN DOG HVAD DU SÅ
PASSE KVÆGET,” DEN AT KUNNE VAR DA HAVDE END LANDETS HVISKEDE ER SOM BEGRAVELSE.
Ud fra ”Der var engang” vælger computeren tilfældigt et ord blandt de sandsynlige næste ord som fjerde led i ordkæden. I dette tilfælde var det ”en”. Dernæst bruges ”var engang en” som udgangspunkt for at vælge et nyt fjerde ord, som så denne gang var ”stoppenål” og så fremdeles.
Det kaldes N-gram-statistik, hvor N angiver, hvor mange ord der er i kæden. Jo større Ngram, altså des flere ord, der er i hver kæde, des mere meningsfulde tekster kan man skabe. Teksten er jo faktisk ikke helt ved siden af, men trods alt ikke et rigtigt eventyr. Selvom sprogforskere og dataloger arbejdede på Ngramtilgangen i årtier, så lykkedes det ikke at skabe en tekstproducerende maskine, der virkelig kunne bruges – blandt andet fordi det at opnå tilpas store Ngram ville kræve flere tal for sandsynligheder, end der er atomer i universet.
Men udviklingen inden for et andet videnskabeligt felt, nemlig det, der beskæftigede sig med neurale netværk, skulle vise sig at løse mange af de problemer, man var stødt ind i med Ngrammetoden. Ligesom Ngramtilgangen blev dette felt også grundlagt i midten af forrige århundrede af psykologen Frank Rosenblatt. Rosenblatt (1958) tog udgangspunkt i datidens teorier om, at menneskehjernen består af
neuroner, eller perceptroner, som Rosenblatt kaldte dem, der modtager impulser og udsender resultatet af en bearbejdning af disse videre til næste neuron. Rosenblatt beskrev hjernen som et informationssystem, og hans tese var, at computere kunne imitere hjernen og derved fungere på samme måde. Teorien har vist sig for simpel, men de computerbaserede neurale netværk har alligevel ført til udviklingen af velfungerende teknologier, herunder de store sprogmodeller.
Den grundlæggende enhed i et computerbaseret neuralt netværk kaldes i forlængelse heraf en neuron. Den modtager en række inputsignaler – fx en række tal mellem 1 og 100 – og ganger disse tal med hver sin faste værdi (kaldet vægte eller parametre) og lægger dem sammen. Hvis det samlede tal er større end en anden fast værdi (kaldet tærskelværdien), så sender neuronen et signal ud, og ellers er den slukket. En neuron er således en ret simpel enhed. Men når kolonner af mange neuroner sættes i forlængelse af hinanden, så får man et neuralt netværk, som viser sig i stand til at producere meningsfulde tekster, vellignende billeder og velklingende musik. Det kan forekomme magisk, men det er simple regnestykker.
En del af magien skabes af metoderne til at fastlægge vægtenes værdi.
Det sker i en kalibrerings eller ”trænings”proces, hvor udviklerne sender et input ind – fx en række af ord – og ser, om det output, der kommer ud, er tæt på det, de forventede. Hvis det er langt fra det forventede, så bruger udviklerne en såkaldt backpropagation-algoritme (eller på dansk tilbageudbredelsesalgoritme) til at ændre alle vægtene en ganske lille smule. Så sender udviklerne en ny række ord ind, vurderer outputtet, ændrer vægtene osv. Dette gøres millioner eller milliarder af gange, og det kan koste enorme mængder energi, hvis det er store modeller.
Af Jeppe Bundsgaard
© 2025 Dansklærerforeningens Forlag
1. udgave, 1. oplag 2025
Forlagsredaktion:
Andrea Koefoed Friedrichsen og
Cecilie Bogh
Grafisk tilrettelæggelse og omslag: Helle Hjorth
Denne bog er beskyttet i medfør af gældende dansk lov om ophavsret. Kopiering må kun ske i overensstemmelse med loven. Det betyder f.eks., at kopiering til undervisningsbrug kun må ske efter aftale med Tekst & Node.
Trykt hos Tarm Bogtryk A/S
Printed in Denmark 2025
For at mindske transport og CO2-aftryk mest muligt, er bogen trykt i Danmark ved hjælp af 100 % grøn strøm. Papiret er fremstillet i Sverige og opfylder FSC og Svanemærket om bæredygtigt skovbrug, energioptimering samt lavt CO2-aftryk.
ISBN: 978-87-7211-565-8
www.dansklf.dk
Kunstig intelligens kan være et værktøj, der gør vores liv lettere, såvel som et værktøj, der kræver grundig overvejelse og kritisk stillingtagen om alt fra bias, klimaaftryk, magt og overvågning til skolens og danskfagets formål, indhold, evalueringsformer og fremtid. Jeppe Bundsgaard, professor i danskfagets didaktik ved DPU, Aarhus Universitet med speciale i teknologiforståelse, giver os her perspektiver på, hvordan vi bevidst, kritisk og kreativt kan forholde os til kunstig intelligens i danskfaget.
TENDENS er korte bøger om centrale tendenser i undervisningen. Bøgerne kombinerer teoretiske og didaktiske perspektiver med refleksioner om, hvordan disse kan sættes i spil i praksis. Serien er henvendt undervisere og studerende med interesse for didaktik, pædagogik og undervisningens indhold.
ISBN 978-87-7211-565-8