SubQ: Das erste subquadratische LLM – und was das für OpenAI und Anthropic bedeutet

Ein Startup aus Miami behauptet, das grundlegendste mathematische Limit moderner KI-Systeme durchbrochen zu haben. Subquadratic launchte gestern SubQ – das nach eigenen Angaben erste vollständig subquadratische LLM der Welt. Trifft die Behauptung zu, könnte das die wirtschaftliche Grundlage von OpenAI, Anthropic und Google ins Wanken bringen.

Seit 2017 definiert eine einzige mathematische Eigenschaft, was mit großen Sprachmodellen möglich ist – und vor allem, was nicht möglich ist: die quadratische Skalierung der Attention. Jedes Token wird mit jedem anderen Token verglichen. Doppelte Eingabelänge bedeutet nicht doppelten, sondern vierfachen Rechenaufwand. Dieses „Attention-Steuer“ hat die gesamte KI-Branche geprägt – von den Architekturentscheidungen bei Anthropic über die Preismodelle von OpenAI bis zu den Workarounds, die Entwickler täglich bauen.

Subquadratic, ein bisher kaum bekanntes Startup aus Miami mit elf PhD-Forschern, hat am 5. Mai 2026 sein erstes Modell vorgestellt: SubQ 1M-Preview – das erste LLM, das auf einer vollständig subquadratischen Architektur basiert. Statt quadratisch mit der Eingabelänge zu skalieren, wächst der Rechenaufwand bei SubQ linear. Oder wie CTO Alexander Whedon es formuliert: „Doppelte Eingabelänge, vierfacher Compute – das gilt nicht mehr.“

Das quadratische Problem, das niemand lösen konnte

Die Transformer-Architektur – das „T“ in ChatGPT – definiert seit 2017 den Stand der KI-Forschung. Ihr zentraler Mechanismus, die Self-Attention, vergleicht jedes Token mit jedem anderen Token. Für n Token entsteht eine n × n-Matrix. Das Ergebnis: quadratische Komplexität O(n²).

Für die Industrie bedeutete das jahrelang eine harte Decke. Selbst die aktuellen Frontier-Modelle – Claude Sonnet 4.7 von Anthropic, Gemini 3.1 Pro von Google – kämpfen bei Kontextfenstern jenseits von 128.000 Tokens mit exorbitanten Kosten und sinkender Präzision. Die Reaktion der Branche: ein ganzes Ökosystem von Workarounds. RAG-Pipelines, Chunking-Strategien, Multi-Agent-Orchestrierung, Prompt Engineering – alles gebaut, um das fundamentale Limit des Modells zu umgehen.

Subquadratics CTO Whedon, der zuvor über 40 Enterprise-KI-Implementierungen bei TribeAI leitete, bringt es auf den Punkt: „Ich habe selbst jahrelang Prompts, Retrieval-Systeme und konditionale Logik kuratiert. Das ist eine Verschwendung menschlicher Intelligenz.“

Was SubQ anders macht: Sparse Attention, die tatsächlich funktioniert

Subquadratics Ansatz heißt Subquadratic Sparse Attention (SSA). Die Idee ist konzeptionell einfach: Die meisten Token-zu-Token-Vergleiche in Standard-Attention sind verschwendeter Compute. Statt jedes Token mit jedem zu vergleichen, lernt SSA, welche Vergleiche tatsächlich relevant sind – und berechnet Attention nur für diese Positionen.

Der entscheidende Unterschied zu früheren Sparse-Attention-Ansätzen: Die Auswahl ist inhaltsabhängig. Das Modell entscheidet anhand der Bedeutung, wohin es schaut – nicht anhand fixer Positionsmuster. Das erlaubt präzisen Zugriff auf beliebige Stellen in einem extrem langen Kontext, ohne den quadratischen Preis zu zahlen.

Die technischen Zahlen sind bemerkenswert: SSA liefert einen 7,2-fachen Prefill-Speedup gegenüber dichter Attention bei 128.000 Tokens, der auf das 52,2-Fache bei einer Million Tokens ansteigt. Bei 12 Millionen Tokens – dem aktuellen Forschungsrekord des Unternehmens – reduziert sich der Attention-Compute laut Subquadratic um das nahezu 1.000-Fache im Vergleich zu anderen Frontier-Modellen.

Die Benchmarks: SubQ gegen OpenAI, Anthropic und Google

Die veröffentlichten Benchmark-Zahlen positionieren SubQ auf Augenhöhe mit Modellen, die von Milliarden-Unternehmen entwickelt wurden:

RULER 128K (Reasoning über lange Eingaben): SubQ erreicht 95 %, knapp vor Claude Opus 4.6 mit 94,8 %. Die Kosten: angeblich 8 $ gegenüber geschätzten 2.600 $ bei Claude Opus – ein Faktor von über 300.
MRCR v2 (Multi-Hop-Retrieval über lange Kontexte): SubQ 65,9 % vs. Claude Opus 4.7 (32,2 %), GPT-5.5 (74 %) und Gemini 3.1 Pro (26,3 %). Beim Multi-Hop-Retrieval schlägt SubQ also Anthropic und Google deutlich, liegt aber hinter OpenAIs GPT-5.5.
SWE-Bench Verified (Coding): SubQ 81,8 % vs. Claude Opus 4.6 (80,8 %) und DeepSeek 4.0 Pro (80,0 %).

Die Zahlen sind beeindruckend – aber sie brauchen Kontext. Die Benchmark-Auswahl ist schmal: genau drei Tests, alle auf Lang-Kontext-Retrieval und Coding fokussiert – exakt die Domänen, für die SubQ optimiert wurde. Allgemeine Reasoning-Fähigkeiten, Mathematik, mehrsprachige Performance und Sicherheitstests wurden nicht veröffentlicht. Subquadratic sagt, ein umfassender Model-Card-Report sei „in Kürze“ verfügbar.

Zudem gibt es eine signifikante Lücke zwischen Forschung und Produktion: Auf MRCR v2 meldete SubQ einen Forschungs-Score von 83, der von Dritten verifizierte Produktions-Score liegt bei 65,9 – eine Differenz von 17 Punkten, die das Unternehmen nicht vollständig erklärt hat.

Was das für OpenAI und Anthropic bedeutet

Die Implikationen des SubQ-Launches reichen weit über einen einzelnen Startup-Launch hinaus. Sie berühren das architektonische Fundament, auf dem OpenAI, Anthropic und Google ihre gesamten Produktlinien aufgebaut haben.

1. Die wirtschaftliche Verwundbarkeit der Transformer-Architektur

Wenn SubQ hält, was es verspricht, sind die wirtschaftlichen Konsequenzen gravierend. Ein 300-facher Kostenvorteil bei vergleichbarer Genauigkeit ist kein inkrementeller Gewinn – es ist eine andere Größenordnung. OpenAI und Anthropic haben Milliarden in Transformer-basierte Infrastruktur investiert. Ein Startup mit 29 Millionen Dollar Seed-Funding und elf Forschern könnte diese Investitionen architektonisch überholen.

Das erinnert an klassische Disruption: Der Incumbent optimiert das bestehende Paradigma bis zur Perfektion – während der Newcomer das Paradigma selbst wechselt. Die Frage ist nicht, ob Anthropic und OpenAI subquadratische Techniken nachbauen können (das können sie), sondern wie schnell sie ihre bestehenden Systeme migrieren können, ohne ihr Geschäftsmodell zu kannibalisieren.

2. Kontext wird zur Commodity – das RAG-Ökosystem unter Druck

OpenAI und Anthropic haben ganze Ökosysteme um die Begrenztheit ihrer Kontextfenster herum aufgebaut. Retrieval-Augmented Generation (RAG), Vector-Datenbanken, Chunking-Strategien – Milliardenmärkte, die existieren, weil Modelle nicht effizient ganze Dokumente verarbeiten können.

SubQ mit 12 Millionen Token Kontext – genug für komplette Codebasen, ganze Buchreihen oder jahrelange Chat-Verläufe in einem einzigen Durchlauf – stellt die Frage, ob diese Zwischenschicht überhaupt noch nötig ist. Nicht sofort, nicht in allen Fällen. Aber die Richtung ist klar: Wenn Millionen-Token-Kontext zum Standard wird, schrumpft der Markt für Retrieval-Infrastruktur erheblich.

3. Die „AI Theranos“-Frage und Glaubwürdigkeit

Die KI-Forschungsgemeinschaft reagierte innerhalb von Stunden gespalten – von „echtem Durchbruch“ bis „AI Theranos“, wie VentureBeat berichtete. Die Skepsis hat Substanz: Enge Benchmark-Auswahl, Einzel-Runs ohne Konfidenzintervalle, keine unabhängige Reproduktion.

Für OpenAI und Anthropic ist das ein zweischneidiges Schwert. Einerseits schützt die Skepsis vor übereilten Reaktionen. Andererseits: Wenn SubQ auch nur einen Teil seiner Behauptungen unabhängig bestätigen kann, wird der Druck, eigene subquadratische Architekturen zu liefern, massiv steigen. Investoren und Kunden werden die Frage stellen: „Warum zahlen wir quadratische Preise, wenn linear möglich ist?“

Was die Skepsis ernst nehmen sollte – und was nicht

Es gibt gute Gründe, vorsichtig zu sein. Subquadratische Attention ist kein neues Konzept – lineare Attention, State-Space-Modelle wie Mamba und Sparse-Attention-Varianten werden seit Jahren erforscht. Das ungelöste Problem war nie die Idee, sondern der Bau einer subquadratischen Architektur, die Frontier-Level-Performance nicht opfert. Genau das behauptet Subquadratic gelöst zu haben.

Die Forschung warnt allerdings: Bestimmte Aufgaben, die alle paarweisen Vergleiche benötigen (etwa das Finden des ähnlichsten Dokumentenpaars in einem großen Korpus), könnten fundamental quadratische Zeit erfordern (Sanford et al., 2024). Es könnte also Aufgaben geben, bei denen SubQ zwangsläufig Approximationsfehler macht.

Und dann ist da das Team: 11 PhDs von Meta, Google, Oxford, Cambridge, ByteDance, Adobe. Investoren, die auch früh in Anthropic und OpenAI investiert haben. Eine Bewertung von angeblich 500 Millionen Dollar (laut The New Stack). Das sind nicht die typischen Zutaten für einen „AI Theranos“-Skandal. Es sind die Zutaten für ein ernstzunehmendes Wettbewerbsrisiko – wenn die Technologie hält.

Was das in der Praxis bedeutet

Selbst wenn SubQ nur 70 % seiner Versprechen einhält, ändert sich die Rechnung für KI-Entwickler fundamental:

Komplette Codebasen in einem Kontextfenster statt fragmentiertem Chunking
Dokumentenanalyse über tausende Seiten ohne Retrieval-Pipeline
Langzeit-Interaktionen mit persistentem Zustand über Millionen von Tokens
Kostensenkung, die neue Anwendungen wirtschaftlich macht, die heute nicht gebaut werden

SubQ Code – ein CLI-Coding-Agent, der komplette Repositories in ein einziges Kontextfenster lädt – ist der erste Vorgeschmack. Die Notwendigkeit von Multi-Agent-Koordination, wie sie etwa Devin oder Claude Code von Anthropic einsetzen, könnte entfallen, wenn ein einzelnes Modell das gesamte Projekt auf einmal versteht.

Fazit: Der Anfang vom Ende der Transformer-Ära?

Es ist zu früh, das Ende der Transformer-Architektur auszurufen. Aber es ist nicht zu früh, das potenzielle Ende ernst zu nehmen. SubQ ist der bislang stärkste Hinweis darauf, dass subquadratische Architekturen Frontier-Qualität erreichen können – und das mit dramatisch besserer Wirtschaftlichkeit.

Für OpenAI bedeutet das: Die milliardenschwere Transformer-Infrastruktur könnte schneller zum Kostenrisiko werden, als das Unternehmen neue Architekturen entwickeln kann. Für Anthropic: Der „Constitutional AI“-Ansatz ist wertvoll, aber wenn der zugrundeliegende Attention-Mechanismus ein Kostennachteil ist, hilft die beste Alignment-Strategie nicht. Für Google: Die hauseigene Forschung an State-Space-Modellen bekommt plötzlich strategische Dringlichkeit.

Die nächsten Monate werden zeigen, ob SubQ unabhängigen Tests standhält. Bis dahin gilt: Wer KI-Systeme baut oder einkauft, sollte die Entwicklung subquadratischer Architekturen auf dem Radar haben. Was gestern noch theoretisch war, könnte morgen schon die Kostenrechnung verändern.

FAQ: SubQ und subquadratische LLMs

Was bedeutet „subquadratisch“ bei einem LLM?

Subquadratisch bedeutet, dass der Rechenaufwand (Compute) eines Sprachmodells nicht quadratisch mit der Eingabelänge wächst, sondern langsamer – idealerweise linear. Bei klassischen Transformer-Modellen vervierfacht sich der Aufwand, wenn sich die Eingabelänge verdoppelt (O(n²)). Ein subquadratisches Modell wie SubQ skaliert stattdessen mit O(n) – doppelte Länge, doppelter Aufwand.

Wie groß ist das Kontextfenster von SubQ?

SubQ 1M-Preview unterstützt Kontextfenster von mehreren Millionen Tokens. Das Unternehmen hat Forschungsresultate mit 12 Millionen Tokens demonstriert, visiert aber perspektivisch 50 Millionen Tokens an. Zum Vergleich: Die meisten Frontier-Modelle von OpenAI, Anthropic und Google operieren im Bereich von 128.000 bis 1 Million Tokens – und das mit quadratisch steigenden Kosten.

Ersetzt SubQ RAG-Systeme?

Nicht sofort und nicht vollständig. Aber SubQ reduziert den Bedarf an Retrieval-Pipelines erheblich, weil mehr Kontext direkt verarbeitet werden kann. Für Anwendungen mit sehr großen Datenbeständen (Milliarden von Dokumenten) bleibt Retrieval relevant – aber die Schwelle, ab der RAG nötig wird, verschiebt sich von tausenden auf Millionen von Tokens.

Ist SubQ bereits verfügbar?

SubQ ist ab sofort als private Beta verfügbar – über eine API, den CLI-Coding-Agenten SubQ Code und das Suchwerkzeug SubQ Search. Interessenten können sich auf subq.ai für Early Access registrieren. Öffentliche Preise wurden noch nicht bekannt gegeben.

Müssen OpenAI und Anthropic jetzt ihre Architektur ändern?

Kurzfristig nicht. Die etablierten Anbieter haben massive Ökosysteme und Kundenbindung. Aber mittelfristig wird der Kostendruck steigen. Wenn subquadratische Modelle Frontier-Qualität zu einem Bruchteil der Kosten liefern, müssen die Incumbents entweder eigene subquadratische Architekturen entwickeln oder ihre Preismodelle radikal anpassen. Beides ist teuer und komplex.