AI-shrinkflation — när du betalar samma pris för mindre intelligens

I början av april 2026 publicerade Stella Laurenzo, teknisk chef inom AMD:s AI-grupp, en detaljerad teknisk analys på GitHub som skakade hela AI-utvecklarvärlden. Hennes slutsats var enkel och brutal: Anthropics mest avancerade AI-modell hade blivit dramatiskt sämre — och hon hade data som visade det.

Analysen baserades på 6 852 Claude Code-sessioner, 234 760 verktygssanrop och 17 871 tankeblock, insamlade från januari till april 2026. Siffrorna visade ett mönster som var svårt att avfärda. Modellens resonementsdjup — mätt som median längd på tänkande-token — hade sjunkit med ungefär 67 procent. Antalet API-anrop per uppgift hade ökat dramatiskt. Modellen hade börjat fråga "ska jag fortsätta?" 173 gånger på 17 dagar, en beteendeförändring som var noll före den 8 mars. Självmotsägelserna hade tredubblats.

Rapporten fick över 2 000 reaktioner på GitHub och spred sig snabbt via X, Reddit och teknikmedia. Begreppet som fångade stämningen var lånat från dagligvaruhandeln: AI-shrinkflation. Samma pris, samma förpackning — men mindre innehåll.

Vad hände egentligen?

Anthropics svar var uppriktigt nog att erkänna två konkreta produktförändringar, men bestred att modellen själv hade försämrats.

Den 9 februari infördes adaptiv tänkning — en mekanism som låter modellen själv bestämma hur mycket resonemang den ska lägga på varje fråga, istället för att använda en fast budget. Den 3 mars sänktes dessutom standardinställningen för ansträngningsnivå till "medium" (nivå 85 av 100). Boris Cherny, chef för Claude Code, kallade det "den bästa balansen mellan intelligens, latens och kostnad för de flesta användare."

Översatt till klarspråk: Anthropic bestämde att modellen som standard skulle tänka mindre, för att svara snabbare och kosta mindre att driva. Användare som ville ha full kapacitet kunde manuellt ställa in /effort max — men de flesta visste inte att alternativet fanns.

De två förändringarna i korthet

9 februari: Adaptiv tänkning aktiveras. Modellen bestämmer själv sitt resonementsdjup per fråga, istället för fast budget.

3 mars: Standardnivån sänks till "medium effort" (85/100). Anthropic kallar det optimal balans. Utvecklarcommunityt kallar det en nerf.

26 mars: Tidsberoende hastighetsbegränsningar införs — sessioner förbrukas snabbare under rusningstid (vardagar).

Cherny bestred också delar av Laurenzos metodik. Han menade att den observerade minskningen i tankelängd delvis berodde på att redigerad tänkande-data inte längre sparades lokalt — ett UI-beslut, inte en kapacitetsförändring. Det var ett tekniskt korrekt påpekande. Men det förklarade inte varför utvecklare världen över upplevde exakt samma sak: en modell som kändes grundare, mer osäker och mer benägen att ge halvhjärtade svar.

På Reddit fångade en användare frustrationen i en mening som fick hundratals uppröster: att Claude för första gången på två år inte visste att den hade ett inbyggt Plan Mode. Inte en subtil kvalitetsförskjutning — ett totalt funktionsbortfall.

Shrinkflation som affärsmodell

Begreppet shrinkflation kommer från konsumentekonomin. När en chokladkaka krymper från 200 till 180 gram men priset är oförändrat, är det shrinkflation. Fenomenet fungerar för att de flesta konsumenter inte väger sina köp. De reagerar på priset, inte på innehållet.

AI-shrinkflation fungerar på exakt samma sätt. Du betalar 20 dollar i månaden för en Pro-prenumeration. Du får fortfarande svar. Men svaren har blivit tunnare, grundare, mindre genomtänkta — och du märker det bara om du ställer tillräckligt höga krav.

Det fascinerande är att SaaS-industrin redan har normaliserat detta mönster. En studie från Vertice visade att över en fjärdedel av alla SaaS-avtal påverkades av shrinkflation 2023 — funktioner som försvann, prisnivåer som eliminerades, användningsgränser som stramades åt, allt medan fakturan var densamma eller högre. AI-tjänster lägger nu bara till ett nytt lager: produkten försämras inte genom att funktioner tas bort, utan genom att intelligensen — den enda saken du faktiskt betalar för — gradvis tunnas ut.

Det finns en viktig nyansskillnad mellan medveten försämring och kapacitetsoptimering. Anthropic hävdar det senare. De säger att de hittade en "sweet spot" som fungerar för majoriteten. Det är troligt att det stämmer — de flesta användare ställer enkla frågor där skillnaden mellan 85 procent och 100 procent ansträngning inte märks. Men för den professionella användare som betalar just för att få maximal kapacitet — utvecklaren som refaktoriserar en kodbas, konsulten som bygger komplexa analysmodeller, forskaren som behöver djupt resonemang — är skillnaden dramatisk.

Och det är precis de användarna som driver ryktesspridningen, skriver GitHub-issues och köper enterprise-planer. Att optimera bort dem är som att sänka kvaliteten på business class för att subventionera economy. Det fungerar exakt tills affärsresenärerna hittar ett annat flygbolag.

Den underliggande spänningen

Det som gör den här kontroversen strukturellt intressant — inte bara som en kundtjänstfråga — är att den avslöjar en fundamental spänning i AI-industrins ekonomi.

Att träna en frontier-modell kostar hundratals miljoner dollar. Det är en engångskostnad. Men att köra modellen — inferens, i branschspråk — kostar pengar för varje enskilt svar, varje tankekedja, varje token. Ju mer modellen tänker, desto mer GPU-tid förbrukas, desto högre blir den rörliga kostnaden.

Adaptiv tänkning är Anthropics försök att lösa denna ekvation. Om modellen kan lära sig att använda 30 procent av sin kapacitet på enkla frågor och 100 procent bara när det verkligen behövs, sjunker den genomsnittliga kostnaden per svar kraftigt. Det är rationellt. Det är till och med elegant.

Problemet är att modellen inte alltid bedömer rätt vilka frågor som är enkla. Laurenzos data antyder att den systematiskt underallokerade resurser på komplexa uppgifter — agentiska arbetsflöden, flerstegskodning, långa sessioner med beroende kontext. Just de uppgifter som professionella användare betalar premiumpriser för.

Adaptiv tänkning är inte dum i sig. Men när systemet som bestämmer hur djupt din AI ska tänka inte själv tänker djupt nog, får du det värsta av två världar: samma pris, men sämre resultat just när det räknas som mest.

Dessutom tillkommer kapacitetsbegränsningar som inte är kopplade till modellen utan till infrastrukturen. Den 26 mars införde Anthropic tidsberoende sessionshantering — under rusningstid (vardagar) förbrukas sessioner snabbare. Det är i praktiken en prisökning för den som arbetar dagtid, dold bakom samma månadskostnad. Anthropic bekräftade att Team- och Enterprise-kunder inte påverkades — vilket implicit bekräftar att gratisanvändare och Pro-prenumeranter fick reducerad tillgång.

Historien upprepar sig

Det här är inte första gången. AI-communityt har upplevt exakt samma mönster med både GPT-4 (sommaren 2023) och tidigare versioner av Claude. En modell lanseras med imponerande kapacitet. Användare anpassar sina arbetsflöden. Sedan, gradvis och utan explicit kommunikation, skiftar upplevelsen. Svaren blir kortare. Resonemangen grundare. Modellen börjar tveka där den tidigare var säker.

Mönstret är så konsekvent att det borde ses som en naturlag i AI-industrin snarare än en serie isolerade incidenter. Det finns en strukturell förklaring: AI-företag lanserar modeller med inställningar som maximerar kvalitet för att vinna benchmarks och generera positiv press. Sedan, när användarbasen växer och inferenskostnaderna skenar, skruvas inställningarna nedåt. Inte modellen själv — men konfigurationen runt den.

Det är som att köpa en bil som testad ger 500 hästkrafter, men efter tre månader mjukvaruuppdateras ner till 400. Motorn är densamma. Specifikationen du betalade för gäller inte längre.

Vad BridgeBench-kontroversen avslöjar

Parallellt med Laurenzos analys dök det upp en benchmarkbaserad anklagelse. BridgeMind publicerade data som påstod att Claude Opus 4.6:s träffsäkerhet hade fallit från 83,3 procent till 68,3 procent — ett fall från plats 2 till plats 10 på deras rankning.

Denna specifika datapunkt bör behandlas med stor skepsis. Flera oberoende granskare påpekade att BridgeBench-jämförelsen var metodologiskt tvivelaktig — den jämförde resultat från olika testkonfigurationer, och den observerade skillnaden låg inom normal statistisk variation för icke-deterministiska AI-modeller. En extra hallucination på en enda uppgift i ett litet stickprov kan flytta resultatet avsevärt.

Men det faktum att denna svaga datapunkt blev viral — delad tiotusentals gånger, citerad av teknikjournalister, behandlad som bevis — säger något viktigt om tillståndet i relationen mellan AI-företag och deras användare. När förtroendet eroderar räcker det med en gnista för att antända en brand. Och förtroendet eroderar just nu.

Transparensens pris

Den mest anmärkningsvärda aspekten av hela kontroversen är inte att Anthropic gjorde förändringar. Det är att de inte kommunicerade dem.

Adaptiv tänkning rullade ut den 9 februari. Effort-nivå 85 blev standard den 3 mars. Tidsberoende sessionshantering infördes den 26 mars. Ingen av dessa förändringar kommunicerades proaktivt till användarna i en form som matchade deras påverkan. De återfanns i utvecklardokumentation och release notes — inte i ett mejl till betalande kunder som sa: "Vi har ändrat hur din AI fungerar. Här är varför, och här är hur du återställer den."

Det är en kommunikationsmiss som gränsar till respektlöshet. Och den är särskilt problematisk för Anthropic, som bygger sitt varumärke på ansvarsfull AI och transparens. Om du marknadsför dig som det etiska alternativet i en bransch full av cowboys, sätter du också en högre standard för din egen öppenhet.

Jämför med en situation där en tillverkare ändrar receptet på en livsmedelsprodukt. Det finns lagkrav på att förpackningen ska uppdateras. Det finns inga motsvarande krav i AI-industrin — men det borde det finnas, och företag som Anthropic borde leda den utvecklingen snarare än att vänta tills en AMD-chef gör deras kvalitetskontroll åt dem på GitHub.

Vad det betyder i praktiken

Jag har 30 års erfarenhet av industriell optimering och lean manufacturing. Jag har sett hur mätsystem, processkontroll och variationshantering avgör om en fabrik levererar världsklass eller mediokerhet. Samma principer gäller här, fast applicerade på en helt ny typ av produkt.

I tillverkningsindustrin finns ett begrepp som heter process capability — processduglighet. Det mäter om en process konsekvent levererar inom specificerade gränser. En process med hög duglighet levererar förutsägbart. En process med låg duglighet levererar ibland bra, ibland dåligt, och kunden vet aldrig vilken leverans de får.

AI-modeller har precis samma problem, men utan den mätinfrastruktur som tillverkningsindustrin har byggt upp under decennier. Det finns inget offentligt Cpk-värde för Claude Opus 4.6. Det finns ingen oberoende kontroll som verifierar att den modell du får på tisdag eftermiddag levererar samma kvalitet som den du fick på söndag morgon. Och med tidsberoende kapacitetshantering och adaptiv tänkning finns det nu belägg för att den faktiskt inte gör det.

För den som integrerar AI i professionella arbetsflöden — och det gör allt fler — är detta en fundamental riskfaktor. Du bygger processer som förutsätter en viss kapacitetsnivå. Om den nivån sänks utan förvarning kollapsar inte bara uppgiften — hela arbetsflödet degraderas.

Den större bilden

Backa ett steg och betrakta det hela ur Mo Gawdats perspektiv om nollmarginalkostnad. Hans tes — som jag skrivit om tidigare på den här sajten och som jag personligen kan validera från min egen AI-produktivitet — är att AI driver marginalkostnaden för kognitiva tjänster mot noll. Det stämmer på en makronivå.

Men AI-shrinkflation avslöjar en friktion i den tesen. Att producera ett enskilt AI-svar kostar nästan ingenting jämfört med motsvarande mänskliga arbete. Men att producera ett bra AI-svar — ett med djupt resonemang, lång tankekedja och korrekt kontexthantering — kostar betydligt mer i beräkningsresurser än ett ytligt svar. Skillnaden kan vara en faktor 10 eller mer i GPU-tid.

Nollmarginalkostnaden gäller alltså kvantitet, men inte nödvändigtvis kvalitet. Och det skapar ett ekonomiskt incitament att leverera "tillräckligt bra" snarare än "bästa möjliga" — precis den dynamik vi ser i Anthropics adaptiva tänkning.

Marginalkostnaden för ett AI-svar går mot noll. Marginalkostnaden för ett bra AI-svar gör det inte. I det glappet bor hela AI-shrinkflation-fenomenet.

Det är en viktig insikt för alla som planerar sin verksamhet kring AI-verktyg. Den billigaste varianten av AI kommer att bli nästan gratis. Men den bästa varianten — den som levererar genuint expertnivå — kommer att förbli en premiumprodukt med ett pris som speglar de beräkningsresurser den kräver. Frågan är om AI-företagen kommer att vara transparenta med var gränsen går, eller om de fortsätter att sälja premium och leverera standard.

Vägen framåt

Tre saker behöver hända.

För det första behövs transparens om konfigurationsförändringar. Varje gång en AI-leverantör ändrar standardinställningar, resursallokering eller kapacitetshantering på ett sätt som påverkar output-kvalitet, ska det kommuniceras proaktivt till betalande kunder. Inte i en fotnot i ett API-changelog — i ett mejl, med konsekvensanalys och instruktioner för hur man återställer tidigare beteende.

För det andra behövs oberoende kvalitetsmätning. AI-industrin behöver en motsvarighet till tillverkningsindustrins kvalitetsgranskare — oberoende aktörer som kontinuerligt mäter och publicerar faktisk leveranskvalitet hos de stora modellerna, inte bara vid lansering utan över tid. BridgeBench-fiaskot visar att communityn inte klarar detta själv utan rigorös metodik.

För det tredje behövs en ärlig prisdiskussion. Om djupt resonemang kostar mer att köra, säg det. Erbjud en prisplan som explicit garanterar full kapacitet, och en billigare variant med adaptiv tänkning. Låt användaren välja — istället för att göra valet åt dem och hoppas att de inte märker.

• • •

AI-shrinkflation är inte en bugg. Det är inte heller en konspiration. Det är den logiska konsekvensen av en bransch som säljer ett löfte om obegränsad intelligens medan den brottas med mycket begränsade GPU-resurser. Spänningen mellan dessa två verkligheter kommer att definiera de närmaste åren — och de företag som löser den genom transparens snarare än genom att hoppas att ingen märker kommer att vinna det långa loppet.

Jag har tillbringat hela mitt yrkesliv i tillverkningsindustrin. Den enda lärdomen som gäller överallt — från gjuterier till solcellsfabriker, från kompositproduktion till livsmedel — är denna: mät alltid. Lita aldrig på att leverantören berättar när kvaliteten sjunker. Den regeln gäller nu för en helt ny typ av leverans.