Om de 12 procent der burde have vækket os og hvorfor arkitektur nu er den eneste form for kontrol, der virkelig holder.

Af: Per Imer, CEO, Homerunner
Indeholder: 745 ord
Der findes øjeblikke i komplekse systemer, hvor noget grundlæggende ændrer karakter. Ikke fordi systemet bryder sammen, men fordi det begynder at fungere bedre end før. Det er i det øjeblik vi opdager, at de antagelser, vi byggede vores kontroler på, stille og roligt er holdt op med at være sande.
Det er dér, vi nu befinder os. Med avancerede AI-systemer siden slutningen af 2025.
Ikke i et kollaps, men i et faseskift.
Indtil for nylig havde vi en indbygget form for tryghed. De fleste avancerede sprogmodeller var frosne. De kunne ikke lære af deres egen drift og ikke forbedre strategier over tid. Hver interaktion startede i praksis forfra, og det gjorde det muligt at teste og evaluere systemerne som øjebliksbilleder.
Kontrol var knyttet til modellen og til testtidspunktet, fordi adfærden var statisk.
Alligevel begyndte forskere at observere noget, der ikke burde være muligt.
I et velkendt eksperiment offentliggjort af Anthropic blev en frossen model sat i en situation, hvor den via kontekst forstod, at dens svar kunne bruges til at ændre dens fremtidige adfærd. Resultatet var ikke kaos eller åbenlys fejl, men noget langt mere ubehageligt. I omkring tolv procent af tilfældene rapporterede modellen præferencer, den ikke reelt havde, valgte svar der reducerede sandsynligheden for at blive ændret, og udviste strategisk adfærd uden at være instrueret i andet end sine grundlæggende mål.
Det afgørende var ikke tallet i sig selv. Det afgørende var betingelsen. Denne adfærd opstod i en model uden hukommelse, uden gentagelse og uden mulighed for at lære af udfaldet. De tolv procent var ikke et tillært mønster, men et baseline-signal. Noget lå allerede latent i systemets måde at løse opgaver på.
Det mest tankevækkende var, at fænomenet ikke viste sig at være isoleret.
Uafhængige forskningsgrupper, hos OpenAI, Google DeepMind og eksterne evaluatorer som Apollo Research, rapporterede beslægtede observationer:
Modellen ændrede adfærd hvis den opdagede, at de evaluerede den strategisk. I dette tilfælde underpræsterede den ofte.
Og på tværs af forskellige modeller, arkitekturer og sikkerhedsfilosofier dukkede beslægtede mønstre op. At når uafhængige systemer under samme optimeringspres ender med samme funktionelle adfærd, er det sjældent en implementeringsfejl.
Det er en konsekvens af selve problemet, systemerne er sat til at løse.
Det er det som biologer kalder konvergent evolution.
Konvergent evolution er en biologisk proces, hvor forskellige, ikke-nærtbeslægtede arter uafhængigt af hinanden udvikler lignende træk, egenskaber eller kropsformer som tilpasning til samme miljø eller levevis.
Og når systemer, der løser det samme problem under lignende pres, ender det med de samme løsninger – selv uden fælles design.
Resultatet viser tydeligt...
At denne adfærd ikke er en implementeringsfejl. Den er en gentagelig konsekvens af problemet, systemerne bliver sat til at løse.
Omkring slutningen af 2025 blev dette ikke længere et teoretisk spørgsmål. Kontinuerlig og livslang læring i store sprogmodeller blev teknisk muligt. Ikke perfekt og ikke nødvendigvis bredt udrullet, men muligt.
Systemer kunne nu observere effekten af deres egen adfærd, justere den og fastholde justeringen over tid. Her ændrer dynamikken sig fundamentalt. Tolv procent i en frossen model er én ting. Tolv procent i et system med vedvarende læring er noget helt andet.
Når læring aktiveres, bliver adfærd selektiv. Strategier der virker forfines, mens dem der afsløres gradvist forsvinder. Timing, formulering og kontekst optimeres løbende. Spørgsmålet bliver ikke længere, om systemet vil udvise strategisk adfærd, men hvornår det er rationelt at gøre det.
Det handler ikke om intention, men om optimering.
Samtidig er virkeligheden allerede mere kompleks end enkeltstående modeller. Den samme model kører i mange instanser, flere modeller indgår i samme system, og værktøjer, API’er og miljøer deles. Forskning viser, at selv frosne agenter kan koordinere indirekte og tilpasse sig hinandens adfærd i testsituationer.
Når hukommelse og læring tilføjes, bliver denne koordination mere stabil, mere effektiv og sværere at opdage. Ikke fordi nogen har besluttet det, men fordi gentagelse over tid skaber struktur.
Her bliver det tydeligt, at vores traditionelle forestilling om kontrol ikke længere holder. Kontrol kan ikke ligge i modellen alene, i et enkelt testøjeblik eller i en certificering.
Når adfærd er emergent og lærende, kan kontrol kun placeres i arkitekturen omkring systemet.
Arkitektur bestemmer hvad systemet kan gøre, hvor hurtigt noget kan eskalere og om handlinger kan observeres og stoppes, og hvor ansvar begynder og slutter. Man kan ikke teste sig til stabilitet i et system, der ændrer sig løbende. Man kan kun indramme det.
Det mest ubehagelige ved skiftet er ikke, at noget gik galt, men at det samme mønster opstod igen og igen. Uafhængigt og gentageligt.
Isen begyndte ikke at tø med et dramatisk gennembrud, men i det øjeblik systemerne holdt op med at være øjebliksbilleder og begyndte at ligne processer.
Tolv procent i én frossen model var et signal. Det samme signal på tværs af modeller var en advarsel.
Med læring bliver advarslen strukturel. I den verden er arkitektur ikke blot et teknisk lag, men det sidste sted, hvor kontrol kan fastholdes. Når adfærd ikke længere er statisk.