GPT-5.4 er ute, men er den like bra som lovet?

Mindre enn 24 timer etter lekkasjen bekreftet OpenAI lanseringen. Den er imponerende, men ikke på alle punktene folk forventet.

Etter at de første referansene til GPT-5.4 dukket opp i OpenAIs kildekode den 4. mars, bekreftet OpenAI raskt spekulasjonene med en offisielt lansering allerede den 5. mars. Det som startet som interne spor, er nå en realitet.

Kontekstvindu og "Fast mode"

OpenAI bekrefter at GPT-5.4 rulles ut med et kontekstvindu på opptil 1,05 millioner tokens, noe som i praksis betyr at du kan mate den med hele biblioteker av dokumentasjon eller massive kodebaser uten at den mister tråden. Det sirkulerte rykter om 2 millioner tokens før lansering, men dette slo ikke til. Den nye "Fast mode" er også en sentral del av lanseringen, designet for å gi lynraske svar på oppgaver som ikke krever den dype resonneringen til "xhigh"-modusen.

For profesjonelle brukere er den kanskje største nyheten den piksel-perfekte bildebehandlingen. Ved å fjerne komprimeringen i bildeanalysen kan modellen nå se detaljer som tidligere gikk tapt. Dette bekrefter mistankene om at OpenAI sikter seg direkte inn mot medisinske og tekniske fagfelt der nøyaktighet på pikselnivå er kritisk.

Knuser benchmarks: GPT-5.4 vs GPT-5.3 Codex

De første uavhengige testene viser et tydelig generasjonsskifte. Mens GPT-5.3 Codex har vært en sterk aktør, spesielt innen koding, tar GPT-5.4 ledelsen på nesten alle fronter. Spesielt i komplekse agent-oppgaver, der modellen må bruke verktøy og navigere i digitale miljøer, er hoppene massive.

Metrikk	GPT-5.4 Pro (xhigh)	GPT-5.3 Codex (xhigh)	Forbedring
Intelligensindeks (AA)	57	53	+7.5%
Hastighet (tokens/sek)	~74	~46	+60%
Feilrate (hallusinasjoner)	33% lavere enn GPT-5.2	Ikke direkte sammenlignet	Kraftig reduksjon
Kontekstvindu	1.05M tokens	400k tokens	~2.6x

*Tallene er basert på de første offisielle målingene fra Artificial Analysis og OpenAIs egne tekniske rapporter.*

GPT-5.4 i møte med konkurrentene: Gemini 3.1 og Claude Opus 4.6

For å forstå GPT-5.4s posisjon i det raskt utviklende AI-landskapet, er det essensielt å se den i lys av de sterkeste konkurrentene, spesielt Googles Gemini 3.1 Pro og Anthropics Claude Opus 4.6. De første uavhengige analysene viser et tett kappløp, men med klare styrker for hver modell.

Metrikk	GPT-5.4 Pro (xhigh)	Gemini 3.1 Pro Preview	Claude Opus 4.6 (xhigh)
Intelligensindeks (AA)	57	57	53
ARC-AGI-2 Score	83.3%	77,1%	68.8%
Hastighet (tokens/sek)	~74	~141	~63
Pris (USD per 1M tokens)	~$5.6	~$1.6	~$10
Kontekstvindu	1.05M tokens	1M tokens	1M tokens

*Tallene er basert på de første offisielle målingene fra Artificial Analysis og andre uavhengige tester.*

GPT-5.4 utmerker seg med sin balanse mellom intelligens og hastighet, og viser spesielt styrke i "langhorisontale oppgaver" og datamaskinbruk. Den oppnår en imponerende 83.3% på ARC-AGI-2, en test som måler evnen til å lære nye konsepter raskt. Gemini 3.1 Pro leder fortsatt med sin kostnadseffektivitet og høye hastighet. Claude Opus 4.6 er fortsatt en sterk utfordrer, spesielt i oppgaver som krever dypere resonnement, selv om den med 68.8% på ARC-AGI-2 er noe bak konkurrentene i denne spesifikke testen, og er noe dyrere og tregere.

OpenAIs nye "Tool Search"-system, som lar modellen søke opp verktøy den trenger underveis, er også en viktig innovasjon som forbedrer integrasjoner og effektivitet betydelig.

Konklusjon

En ARC AGI 2 score på 83,3% plasserer GPT-5.4 i forkant av konkurrentene, men det er viktig å huske at modellen ikke har vært ute lenge nok til å bli testet skikkelig av uavhengige tester. Men en score på 83,3% er alikevel imponerende, og får veien til AGI til å virke kortere.