I begynnelsen av april 2026 publiserte Stella Laurenzo, teknisk leder i AMDs AI-gruppe, en detaljert teknisk analyse på GitHub som rystet hele AI-utviklermiljøet. Konklusjonen hennes var enkel og brutal: Anthropics mest avanserte AI-modell hadde blitt dramatisk dårligere — og hun hadde data som viste det.
Analysen bygde på 6 852 Claude Code-sesjoner, 234 760 verktøykall og 17 871 tenkeblokker, samlet inn fra januar til april 2026. Tallene viste et mønster det var vanskelig å avfeie. Modellens resonementsdybde — målt som medianlengde på tenke-token — hadde sunket med omtrent 67 prosent. Antall API-kall per oppgave hadde økt dramatisk. Modellen hadde begynt å spørre "skal jeg fortsette?" 173 ganger på 17 dager, en atferdsendring som var null før 8. mars. Selvmotsigelsene hadde tredoblet seg.
Rapporten fikk over 2 000 reaksjoner på GitHub og spredte seg raskt via X, Reddit og teknologimedier. Begrepet som fanget stemningen var lånt fra dagligvarehandelen: AI-shrinkflation. Samme pris, samme emballasje — men mindre innhold.
Hva skjedde egentlig?
Anthropics svar var ærlig nok til å erkjenne to konkrete produktendringer, men bestred at selve modellen var blitt forringet.
9. februar ble adaptiv tenking innført — en mekanisme som lar modellen selv bestemme hvor mye resonnement den skal legge i hvert spørsmål, i stedet for å bruke et fast budsjett. 3. mars ble standardinnstillingen for innsatsnivå senket til "medium" (nivå 85 av 100). Boris Cherny, sjef for Claude Code, kalte det "den beste balansen mellom intelligens, latens og kostnad for de fleste brukere."
Oversatt til klartekst: Anthropic bestemte at modellen som standard skulle tenke mindre, for å svare raskere og koste mindre å drive. Brukere som ville ha full kapasitet kunne manuelt sette /effort max — men de fleste visste ikke at alternativet fantes.
De to endringene i korte trekk
9. februar: Adaptiv tenking aktiveres. Modellen bestemmer selv resonementsdybden per spørsmål, i stedet for fast budsjett.
3. mars: Standardnivået senkes til "medium effort" (85/100). Anthropic kaller det optimal balanse. Utviklerfellesskapet kaller det en nerf.
26. mars: Tidsavhengige hastighetsgrenser innføres — sesjoner brukes opp raskere i kontortid (hverdager).
Cherny bestred også deler av Laurenzos metode. Han mente at den observerte nedgangen i tenkelengde delvis skyldtes at redigert tenkedata ikke lenger ble lagret lokalt — en UI-beslutning, ikke en kapasitetsendring. Det var et teknisk korrekt poeng. Men det forklarte ikke hvorfor utviklere verden over opplevde nøyaktig det samme: en modell som føltes grunnere, mer usikker og mer tilbøyelig til å gi halvhjertede svar.
På Reddit fanget en bruker frustrasjonen i en setning som fikk hundrevis av oppstemmer: at Claude for første gang på to år ikke visste at den hadde en innebygd Plan Mode. Ikke en subtil kvalitetsforskyvning — et totalt funksjonsbortfall.
Shrinkflation som forretningsmodell
Begrepet shrinkflation kommer fra forbrukerøkonomien. Når en sjokoladeplate krymper fra 200 til 180 gram, men prisen er uendret, er det shrinkflation. Fenomenet fungerer fordi de fleste forbrukere ikke veier kjøpene sine. De reagerer på prisen, ikke på innholdet.
Det fascinerende er at SaaS-bransjen allerede har normalisert dette mønsteret. En studie fra Vertice viste at mer enn en fjerdedel av alle SaaS-avtaler ble påvirket av shrinkflation i 2023 — funksjoner som forsvant, prisnivåer som ble fjernet, bruksgrenser som ble strammet inn, alt mens fakturaen var den samme eller høyere. AI-tjenester legger nå bare til et nytt lag: produktet forringes ikke ved at funksjoner fjernes, men ved at intelligensen — det eneste du faktisk betaler for — gradvis tynnes ut.
Det er en viktig nyanseforskjell mellom bevisst forringelse og kapasitetsoptimalisering. Anthropic hevder det siste. De sier de fant en "sweet spot" som fungerer for flertallet. Det er sannsynlig at det stemmer — de fleste brukere stiller enkle spørsmål der forskjellen mellom 85 prosent og 100 prosent innsats ikke merkes. Men for den profesjonelle brukeren som betaler nettopp for å få maksimal kapasitet — utvikleren som refaktorerer en kodebase, konsulenten som bygger komplekse analysemodeller, forskeren som trenger dypt resonnement — er forskjellen dramatisk.
Og det er akkurat de brukerne som driver ryktespredningen, skriver GitHub-issues og kjøper enterprise-planer. Å optimalisere dem bort er som å senke kvaliteten på business class for å subsidiere economy. Det fungerer nøyaktig til forretningsreisende finner et annet flyselskap.
Den underliggende spenningen
Det som gjør denne kontroversen strukturelt interessant — ikke bare som et kundeservicespørsmål — er at den avslører en fundamental spenning i AI-bransjens økonomi.
Å trene en frontier-modell koster hundrevis av millioner dollar. Det er en engangskostnad. Men å kjøre modellen — inferens, på bransjespråket — koster penger for hvert eneste svar, hver tankekjede, hvert token. Jo mer modellen tenker, desto mer GPU-tid brukes, desto høyere blir den variable kostnaden.
Adaptiv tenking er Anthropics forsøk på å løse denne ligningen. Hvis modellen kan lære seg å bruke 30 prosent av kapasiteten sin på enkle spørsmål og 100 prosent bare når det virkelig trengs, synker gjennomsnittskostnaden per svar kraftig. Det er rasjonelt. Det er til og med elegant.
Problemet er at modellen ikke alltid bedømmer riktig hvilke spørsmål som er enkle. Laurenzos data antyder at den systematisk underallokerte ressurser på komplekse oppgaver — agentiske arbeidsflyter, flerstegskoding, lange sesjoner med avhengig kontekst. Nettopp de oppgavene profesjonelle brukere betaler premiumpriser for.
I tillegg kommer kapasitetsbegrensninger som ikke er knyttet til modellen, men til infrastrukturen. 26. mars innførte Anthropic tidsavhengig sesjonshåndtering — i kontortid (hverdager) brukes sesjoner opp raskere. Det er i praksis en prisøkning for dem som jobber på dagtid, skjult bak samme månedskostnad. Anthropic bekreftet at Team- og Enterprise-kunder ikke ble påvirket — noe som implisitt bekrefter at gratisbrukere og Pro-abonnenter fikk redusert tilgang.
Historien gjentar seg
Dette er ikke første gang. AI-miljøet har opplevd nøyaktig samme mønster med både GPT-4 (sommeren 2023) og tidligere versjoner av Claude. En modell lanseres med imponerende kapasitet. Brukere tilpasser arbeidsflytene sine. Så, gradvis og uten eksplisitt kommunikasjon, skifter opplevelsen. Svarene blir kortere. Resonnementene grunnere. Modellen begynner å nøle der den tidligere var sikker.
Mønsteret er så konsistent at det burde ses på som en naturlov i AI-bransjen snarere enn en rekke isolerte hendelser. Det finnes en strukturell forklaring: AI-selskaper lanserer modeller med innstillinger som maksimerer kvalitet, for å vinne benchmarks og generere positiv presseomtale. Så, når brukerbasen vokser og inferenskostnadene skyter i været, skrus innstillingene ned. Ikke modellen selv — men konfigurasjonen rundt den.
Det er som å kjøpe en bil som testet ga 500 hestekrefter, men som etter tre måneder programvareoppdateres ned til 400. Motoren er den samme. Spesifikasjonen du betalte for gjelder ikke lenger.
Hva BridgeBench-kontroversen avslører
Parallelt med Laurenzos analyse dukket det opp en benchmarkbasert anklage. BridgeMind publiserte data som påsto at Claude Opus 4.6s treffsikkerhet hadde falt fra 83,3 prosent til 68,3 prosent — et fall fra plass 2 til plass 10 på deres rangering.
Dette spesifikke datapunktet bør behandles med stor skepsis. Flere uavhengige granskere påpekte at BridgeBench-sammenligningen var metodisk tvilsom — den sammenlignet resultater fra ulike testkonfigurasjoner, og den observerte forskjellen lå innenfor normal statistisk variasjon for ikke-deterministiske AI-modeller. En ekstra hallusinasjon på en enkelt oppgave i et lite utvalg kan flytte resultatet betydelig.
Men det faktum at dette svake datapunktet ble viralt — delt titusenvis av ganger, sitert av teknologijournalister, behandlet som bevis — sier noe viktig om tilstanden i forholdet mellom AI-selskaper og brukerne deres. Når tilliten eroderer, skal det bare en gnist til for å tenne en brann. Og tilliten eroderer akkurat nå.
Transparensens pris
Det mest bemerkelsesverdige aspektet ved hele kontroversen er ikke at Anthropic gjorde endringer. Det er at de ikke kommuniserte dem.
Adaptiv tenking ble rullet ut 9. februar. Effort-nivå 85 ble standard 3. mars. Tidsavhengig sesjonshåndtering ble innført 26. mars. Ingen av disse endringene ble kommunisert proaktivt til brukerne i en form som matchet påvirkningen deres. De dukket opp i utviklerdokumentasjon og release notes — ikke i en e-post til betalende kunder som sa: "Vi har endret hvordan AI-en din fungerer. Her er hvorfor, og her er hvordan du tilbakestiller den."
Det er en kommunikasjonsglipp som grenser til respektløshet. Og den er særlig problematisk for Anthropic, som bygger merkevaren sin på ansvarlig AI og transparens. Hvis du markedsfører deg som det etiske alternativet i en bransje full av cowboyer, setter du også en høyere standard for din egen åpenhet.
Sammenlign med en situasjon der en produsent endrer oppskriften på et matprodukt. Det finnes lovkrav om at emballasjen skal oppdateres. Det finnes ingen tilsvarende krav i AI-bransjen — men det burde det gjøre, og selskaper som Anthropic burde lede den utviklingen snarere enn å vente til en AMD-sjef gjør kvalitetskontrollen deres på GitHub.
Hva det betyr i praksis
Jeg har 30 års erfaring med industriell optimalisering og lean manufacturing. Jeg har sett hvordan målesystemer, prosesskontroll og variasjonshåndtering avgjør om en fabrikk leverer verdensklasse eller middelmådighet. De samme prinsippene gjelder her, bare anvendt på en helt ny type produkt.
I produksjonsindustrien finnes et begrep som heter process capability — prosessdyktighet. Det måler om en prosess konsekvent leverer innenfor spesifiserte grenser. En prosess med høy dyktighet leverer forutsigbart. En prosess med lav dyktighet leverer noen ganger bra, andre ganger dårlig, og kunden vet aldri hvilken leveranse de får.
AI-modeller har nøyaktig samme problem, men uten måleinfrastrukturen som produksjonsindustrien har bygget opp gjennom tiår. Det finnes ingen offentlig Cpk-verdi for Claude Opus 4.6. Det finnes ingen uavhengig kontroll som verifiserer at modellen du får på en tirsdag ettermiddag leverer samme kvalitet som den du fikk på en søndag morgen. Og med tidsavhengig kapasitetshåndtering og adaptiv tenking finnes det nå belegg for at den faktisk ikke gjør det.
For den som integrerer AI i profesjonelle arbeidsflyter — og det er stadig flere — er dette en fundamental risikofaktor. Du bygger prosesser som forutsetter et visst kapasitetsnivå. Hvis det nivået senkes uten forvarsel, kollapser ikke bare oppgaven — hele arbeidsflyten degraderes.
Det store bildet
Ta et skritt tilbake og betrakt det hele gjennom Mo Gawdats perspektiv om nullmarginalkostnad. Tesen hans — som jeg har skrevet om tidligere på dette nettstedet, og som jeg personlig kan bekrefte ut fra min egen AI-produktivitet — er at AI driver marginalkostnaden for kognitive tjenester mot null. Det stemmer på makronivå.
Men AI-shrinkflation avslører en friksjon i den tesen. Å produsere et enkelt AI-svar koster nesten ingenting sammenlignet med tilsvarende menneskelig arbeid. Men å produsere et godt AI-svar — ett med dypt resonnement, lang tankekjede og korrekt kontekstbehandling — koster betydelig mer i beregningsressurser enn et overfladisk svar. Forskjellen kan være en faktor 10 eller mer i GPU-tid.
Nullmarginalkostnaden gjelder altså kvantitet, men ikke nødvendigvis kvalitet. Og det skaper et økonomisk insentiv til å levere "godt nok" snarere enn "best mulig" — nettopp den dynamikken vi ser i Anthropics adaptive tenking.
Det er en viktig innsikt for alle som planlegger virksomheten sin rundt AI-verktøy. Den billigste varianten av AI vil bli nesten gratis. Men den beste varianten — den som leverer genuint ekspertnivå — vil forbli et premiumprodukt med en pris som speiler beregningsressursene den krever. Spørsmålet er om AI-selskapene vil være transparente på hvor grensen går, eller om de fortsetter å selge premium og levere standard.
Veien videre
Tre ting må skje.
For det første trengs transparens om konfigurasjonsendringer. Hver gang en AI-leverandør endrer standardinnstillinger, ressursallokering eller kapasitetshåndtering på en måte som påvirker outputkvaliteten, skal det kommuniseres proaktivt til betalende kunder. Ikke i en fotnote i en API-changelog — i en e-post, med konsekvensanalyse og instruksjoner for hvordan man tilbakestiller tidligere atferd.
For det andre trengs uavhengig kvalitetsmåling. AI-bransjen trenger en motsvar til produksjonsindustriens kvalitetsrevisorer — uavhengige aktører som kontinuerlig måler og publiserer faktisk leveransekvalitet hos de store modellene, ikke bare ved lansering, men over tid. BridgeBench-fiaskoen viser at fellesskapet ikke klarer dette på egen hånd uten rigorøs metodikk.
For det tredje trengs en ærlig prisdiskusjon. Hvis dypt resonnement koster mer å kjøre, si det. Tilby en prisplan som eksplisitt garanterer full kapasitet, og en billigere variant med adaptiv tenking. La brukeren velge — i stedet for å ta valget for dem og håpe at de ikke merker det.
AI-shrinkflation er ikke en bug. Det er heller ikke en konspirasjon. Det er den logiske konsekvensen av en bransje som selger et løfte om ubegrenset intelligens mens den sliter med svært begrensede GPU-ressurser. Spenningen mellom disse to virkelighetene vil definere de nærmeste årene — og selskapene som løser den gjennom transparens snarere enn ved å håpe at ingen merker det, kommer til å vinne det lange løpet.
Jeg har tilbrakt hele yrkeslivet mitt i produksjonsindustrien. Den ene lærdommen som gjelder overalt — fra støperier til solcellefabrikker, fra komposittproduksjon til næringsmidler — er denne: mål alltid. Stol aldri på at leverandøren forteller deg når kvaliteten synker. Den regelen gjelder nå for en helt ny type leveranse.