GLM-5.2: Open-Weights-Modell schlägt GPT-5.5 bei Coding-Benchmarks

Home » News » GLM-5.2: Z.ai’s Open-Weights-Modell schlägt GPT-5.5 bei Coding-Benchmarks – zum Bruchteil der Kosten

Was hier passiert ist

Am 16. Juni hat das chinesische KI-Startup Z.ai (früher Zhipu AI) sein neues Modell GLM-5.2 veröffentlicht – und die Zahlen sind bemerkenswert: Das Open-Weights-Modell mit 753 Milliarden Parametern schlägt GPT-5.5 auf mehreren zentralen Coding-Benchmarks und kostet über die API nur etwa ein Sechstel dessen, was OpenAI oder Anthropic verlangen.

Noch wichtiger: Das Modell steht unter MIT-Lizenz – du kannst es herunterladen, modifizieren, kommerziell nutzen und auf eigener Infrastruktur hosten. Kein Vendor-Lock-in, keine regionalen Einschränkungen, keine „Acceptable Use“-Klauseln, die dir vorschreiben, was du damit tun darfst.

Für alle, die in den letzten Monaten mit den explodierenden API-Kosten von Claude und GPT zu kämpfen hatten, könnte das ein Wendepunkt sein.

Die technischen Eckdaten

GLM-5.2 ist ein Mixture-of-Experts-Modell (MoE) mit 753 Milliarden Gesamtparametern, von denen rund 40 Milliarden pro Vorwärtspass aktiv sind. Es ist text-only – kein Vision –, was angesichts der Benchmark-Ergebnisse umso beeindruckender ist.

Die wichtigsten Neuerungen im Überblick:

1-Million-Token-Kontextfenster – ein Sprung von 200K bei GLM-5.1 auf 1M. Für Long-Horizon-Coding-Aufgaben, bei denen ganze Codebases im Kontext liegen müssen, ein entscheidender Faktor.
IndexShare-Architektur: Ein neuartiger Mechanismus, der denselben Indexer über jeweils vier Sparse-Attention-Layer wiederverwendet. Bei voller 1M-Token-Kontextlänge reduziert das die Rechen-FLOPs um den Faktor 2,9.
Multi-Token Prediction (MTP): Ein optimiertes Layer für spekulative Dekodierung, das die akzeptierte Token-Länge während der Inferenz um bis zu 20 % erhöht.
Wählbare „Thinking Modes“: Du kannst zwischen „Max“ (maximale Reasoning-Leistung, ca. 85K Output-Tokens pro Task) und „High“ (ausgewogene Balance, etwa halb so viele Tokens bei nur leicht reduzierter Leistung) umschalten.

Die Architektur-Entscheidungen zielen klar auf Entwickler-Workflows ab: weniger Rechenaufwand pro Token, bessere Langkontext-Stabilität und flexible Kostenkontrolle.

Die Benchmarks: Wo GLM-5.2 GPT-5.5 schlägt

Die Zahlen aus dem offiziellen Report und unabhängigen Tests zeichnen ein klares Bild:

SWE-bench Pro: GLM-5.2 erreicht 62,1 – vor GPT-5.5 (58,6) und dem Vorgänger GLM-5.1 (58,4).
FrontierSWE (Dominance): 74,4 % für GLM-5.2 vs. 72,6 % für GPT-5.5. Nur knapp hinter Claude Opus 4.8 (75,1 %).
MCP-Atlas (Tool-Use): 77,0 für GLM-5.2, vor GPT-5.5 (75,3), dicht an Opus 4.8 (77,8).
Humanity’s Last Exam (mit Tools): 54,7 – vor GPT-5.5 (52,2).
PostTrainBench: 34,3 % vs. 25,0 % für GPT-5.5 – ein signifikanter Abstand bei mehrstündigen Engineering-Workloads.
SWE-Marathon: 13,0 % vs. 12,0 % – auf Augenhöhe, mit knappem Vorsprung.
Design Arena: Platz 1 mit einem ELO-Score von 1360 – vor Claude Fable 5.

Nicht überall liegt GLM-5.2 vorn. Auf Terminal-Bench 2.1 erreicht es 81,0 – solide, aber hinter Claude Opus 4.8 (85,0) und GPT-5.5 (84,0). Deutlich vor Gemini 3.1 Pro (74,0).

Der unabhängige Benchmark-Dienst Artificial Analysis stuft GLM-5.2 im Intelligence Index v4.1 mit einem Score von 51 als führendes Open-Weights-Modell ein – vor MiniMax-M3 (44), DeepSeek V4 Pro (44) und Kimi K2.6 (43). Artificial Analysis: GLM-5.2 als führendes Open-Weights-Modell

Simon Willison, einer der profiliertesten unabhängigen KI-Beobachter, schreibt in seiner Analyse: „GLM-5.2 is probably the most powerful text-only open weights LLM.“

Zahlen-Einordnung: Was „ein Sechstel der Kosten“ konkret bedeutet

Lass uns die API-Preise aufdröseln. Pro 1 Million Tokens (Input + Output):

GLM-5.2: $1,40 (Input) + $4,40 (Output) = $5,80
GPT-5.5: $5,00 + $30,00 = $35,00
Claude Opus 4.8: $5,00 + $25,00 = $30,00
Claude Fable 5 / Mythos 5: $10,00 + $50,00 = $60,00

GLM-5.2 kostet also 16,6 % von GPT-5.5 und 19,3 % von Claude Opus 4.8. Gegenüber Fable 5 sind es weniger als 10 %.

Für Teams, die täglich zehntausende Tokens über APIs verarbeiten, summiert sich das schnell: Bei einem Verbrauch von 10 Millionen Output-Tokens pro Monat zahlst du mit GPT-5.5 etwa 300 Dollar, mit GLM-5.2 dagegen 44 Dollar. Das ist der Unterschied zwischen „KI-Experiment“ und „KI in Produktion“.

Interessant ist auch der Cached-Input-Preis: Z.ai bietet GLM-5.2 für $0,26 pro Million gecachter Input-Tokens an – mit vorübergehend kostenlosem Cache-Speicher. Für wiederkehrende Abfragen auf großen Codebases ein massiver Hebel.

Aber Achtung: GLM-5.2 ist Token-hungrig. Artificial Analysis misst rund 43K Output-Tokens pro Intelligence-Index-Task – deutlich mehr als GPT-5.5 oder Claude Opus. Der Kostenvorteil schrumpft bei verbosen Modellen, bleibt aber signifikant.

Was das für KI-Ingenieure und die deutsche Wirtschaft bedeutet

Für mich als KI-Ingenieur ist GLM-5.2 vor allem aus Kostensicht ein Gamechanger. Ein Modell, das auf meinen täglichen Coding-Aufgaben vergleichbar performt wie Claude Opus 4.8, aber nur ein Fünftel kostet, verändert die Rechnung grundlegend. Nicht mehr abwägen, ob sich ein API-Call „lohnt“ – einfach machen.

Aber es geht nicht nur um den Einzelnen. Für die deutsche Wirtschaft – und ich rede hier vom Mittelstand, nicht von Tech-Konzernen – ist die MIT-Lizenz der eigentlich spannende Teil. Unternehmen, die aus regulatorischen oder Sicherheitsgründen keine Daten an US-Clouds schicken dürfen (Gesundheit, Finanzen, öffentliche Hand), können GLM-5.2 auf eigener Infrastruktur betreiben. Ja, acht H100-GPUs sind kein Pappenstiel. Aber im Vergleich zu dem, was manche Firmen monatlich an API-Kosten für GPT-5.5 durchjagen, amortisiert sich das schneller als man denkt.

Der dritte Punkt: Die US-Exportkontrollen der letzten Woche haben gezeigt, wie schnell proprietäre Modelle politisch blockiert werden können. Ein Open-Weights-Modell unter MIT-Lizenz kannst du nicht per Dekret abschalten. Das ist keine theoretische Sorge mehr – es ist letzte Woche real passiert. Für Unternehmen, die KI in kritische Prozesse einbauen, ist diese Unabhängigkeit kein nice-to-have, sondern Risikomanagement.

Bleibt die China-Frage. Ja, Z.ai sitzt in Peking. Aber anders als bei proprietären Modellen kannst du bei GLM-5.2 jedes Byte des Codes auditieren. Das ist mehr Transparenz, als du je über GPT-5.5 bekommen wirst.

Mein persönlicher Eindruck: Erste Tage mit GLM-5.2

Ich habe GLM-5.2 seit der Veröffentlichung in einigen Workflows im Einsatz – vor allem für Refactoring-Aufgaben, Shell-Scripting und API-Integrationen. Mein Ersteindruck nach wenigen Tagen:

Der Output fühlt sich nicht spürbar schlechter an als das, was ich von Claude gewohnt bin. Die Code-Qualität ist hoch, die Reasoning-Schritte sind nachvollziehbar, und der 1M-Kontext macht sich bei größeren Repos positiv bemerkbar. Ich hatte keinen Moment, in dem ich dachte: „Das hätte Claude besser gemacht.“

Natürlich braucht es mehr als ein paar Tage für ein belastbares Urteil. Edge Cases, komplexe mehrstufige Workflows und die Konsistenz über längere Sessions zeigen sich erst mit der Zeit. Aber der erste Eindruck ist klar: ein echtes Frontier-Modell zum Bruchteil der Kosten.

Wenn sich dieser Eindruck in den nächsten Wochen bestätigt, wird GLM-5.2 für mich der neue Daily Driver. Die Zahlen sind zu eindeutig, um sie zu ignorieren.

Praxis-Checkliste: So testest du GLM-5.2 sinnvoll

Wenn du überlegst, ob GLM-5.2 für deine Workflows taugt, hier eine pragmatische Herangehensweise:

Starte über OpenRouter. Neun Provider hosten GLM-5.2 bereits, fast alle zum Standardpreis von $1,40/$4,40. Kein Account bei Z.ai nötig, keine Mindestlaufzeit. Einfach ein Guthaben aufladen und loslegen.
Teste im „High“-Modus zuerst. Der „Max“-Modus produziert fast doppelt so viele Tokens bei nur geringfügig besseren Ergebnissen. Für die meisten Coding-Aufgaben reicht „High“ völlig – und spart zusätzlich Kosten.
Vergleiche auf deinen eigenen Repos. Benchmarks sind nützlich, aber entscheidend ist, wie das Modell auf deinem Code, deiner Architektur und deinen Patterns performt. Teste identische Prompts parallel gegen Claude und GPT.
Prüfe den Selbsthosting-Business-Case. Acht H100-GPUs sind teuer. Aber wenn du kontinuierlich hohe Token-Volumina hast, amortisiert sich das schneller als monatliche API-Rechnungen – besonders bei Cached-Input-Nutzung.
Limitationen kennen: GLM-5.2 ist text-only. Für Image-Analyse, Diagramm-Erkennung oder UI-Screenshots brauchst du weiterhin ein multimodales Modell. Und: Auf Terminal-Bench liegt es ~4 Punkte hinter den Spitzenreitern – für extrem komplexe Shell-Aufgaben sind Claude oder GPT noch minimal vorn.

Fazit

GLM-5.2 ist der bislang überzeugendste Beweis dafür, dass Open-Weights-Modelle den Abstand zu proprietären Systemen nicht nur schließen – sie überholen sie in wichtigen Disziplinen. Dass das Modell unter MIT-Lizenz steht und über mehrere Provider weltweit verfügbar ist, macht es zu einem fundamental anderen Angebot als GPT-5.5 oder Claude Opus 4.8.

Die Kombination aus Frontier-Performance, offener Lizenz und drastisch niedrigeren Kosten ist ein Weckruf an die proprietären Labs. Wer $30 pro Million Output-Tokens verlangt, während Open-Weights-Modelle für $4,40 vergleichbare Leistung liefern, wird sich früher oder später erklären müssen.

GLM-5.2 ist ab sofort auf Hugging Face, über die Z.ai API und via OpenRouter verfügbar.

Quelle: VentureBeat: Z.ai’s open-weights GLM-5.2 beats GPT-5.5 on multiple long-horizon coding benchmarks for 1/6th the cost

FAQ

Kann ich GLM-5.2 selbst hosten?

Ja, unter der MIT-Lizenz. Du brauchst allerdings mindestens acht H100-GPUs bei FP8-Präzision. Das Modell wiegt 1,51 TB – das ist nichts für Consumer-Hardware.

Unterstützt GLM-5.2 Bild-Input?

Nein, GLM-5.2 ist ein reines Text-Modell. Für multimodale Anwendungen bietet Z.ai die separate GLM-5V-Familie an – allerdings nicht als Open Weights.

Wie schneidet GLM-5.2 im Vergleich zu DeepSeek V4 ab?

Im Artificial Analysis Intelligence Index liegt GLM-5.2 (51) deutlich vor DeepSeek V4 Pro (44). Bei den API-Kosten ist DeepSeek V4 Pro mit $1,31 aber noch günstiger. Der entscheidende Unterschied: GLM-5.2 hat die MIT-Lizenz, während DeepSeek eine eigene Lizenz mit Einschränkungen nutzt.

Ist das Modell für den Produktiveinsatz geeignet?

Für Coding- und Engineering-Workflows: ja. Mehrere Coding-Umgebungen (Claude Code, Cline, Kilo Code, OpenClaw, Crush, Factory) haben Day-One-Integration bestätigt. Für Chat/Conversational-Anwendungen ist GPT-5.5 oder Claude Opus 4.8 aktuell noch die konservativere Wahl – aber GLM-5.2 holt auf.