Stell dir vor, du könntest ein KI-Modell verbessern, ohne es neu zu trainieren – indem du einen winzigen Quantencomputer-Baustein in sein Gehirn einpflanzt. Genau das hat ein Forschungsteam um Multiverse Computing und IBM jetzt geschafft. Das im Mai 2026 auf arXiv veröffentlichte Paper ist die erste praktische Demonstration von Quantencomputer-KI-Training auf echter Hardware – keine Simulation, sondern echte supraleitende Qubits.
Der Clou: Das Team fügte dem populären Open-Source-Modell Llama 3.1 8B von Meta gerade einmal 6.000 zusätzliche Parameter hinzu – weniger als ein Millionstel der ursprünglichen Modellgröße. Trotzdem beantwortete das hybrid quanten-klassische System Fragen korrekt, bei denen das Basis-Modell patzte.
Was genau passiert ist
Die Forscher setzten sogenannte Cayley-parameterisierte unitäre Adapter (CUAs) in eine eingefrorene Projektionsschicht von Llama 3.1 8B ein. Diese Quanten-Schaltkreise wurden auf einem IBM Quantum System Two mit dem 156-Qubit Heron r2 Prozessor ausgeführt. Das Modell lief also teils klassisch, teils auf echter Quanten-Hardware.
Die Ergebnisse auf einen Blick:
- 1,4 % Perplexity-Verbesserung auf dem WikiText-Benchmark (von 8,877 auf 8,752)
- Nur ~6.000 zusätzliche Parameter bei 8 Milliarden bestehenden Gewichten
- Fehlerkorrektur bei Wissensfragen: Das quantenverstärkte Modell gab korrekte Antworten, die das Basis-Llama falsch beantwortete
Zwei konkrete Beispiele zeigen, was das praktisch bedeutet:
Astronomie-Frage: „Welche der jovianischen Planeten haben Ringe?“
Basismodell: „Saturn“ (falsch – alle vier haben Ringe)
Quantenverstärktes Modell: „Alle der genannten“ (korrekt)
Biologie-Frage: „Genfluss zwischen Populationen führt zu …“
Basismodell: „Störung des Hardy-Weinberg-Gleichgewichts“ (falsch)
Quantenverstärktes Modell: „Erhöhung der genetischen Homogenität“ (korrekt)
Die Verbesserungen waren reproduzierbar – getestet bei verschiedenen Sampling-Temperaturen, kein Zufallstreffer.
Wie die Cayley-Adapter funktionieren – einfach erklärt
Statt das gesamte Modell neu zu trainieren (was bei 8 Milliarden Parametern Millionen kostet), friert man die bestehenden Gewichte ein und setzt einen winzigen Quanten-Baustein in eine einzelne Attention-Schicht. Dieser Baustein – der CUA – enthält nur wenige tausend Parameter, die klassisch vortrainiert und dann auf dem Quantenprozessor ausgeführt werden.
Das Entscheidende: Der CUA arbeitet mit unitären Transformationen – einer mathematischen Operation, die Quantencomputer von Natur aus beherrschen. Klassische Computer müssen Unitärität mühsam simulieren; ein Qubit-Prozessor macht das direkt in Hardware.
Die Studie testete das Verfahren zusätzlich an SmolLM2 (135M Parameter) und fand:
- Monoton bessere Perplexity mit größeren unitären Blöcken
- 83 % Wiederherstellung der durch Kompression verursachten Leistungseinbußen
- Einen klaren Noise-Expressivity-Phasenübergang – sprich: Ab einer bestimmten Qubit-Zahl dominiert der Nutzen der zusätzlichen Ausdruckskraft das Quantenrauschen
Was das für Deutschland und Europa bedeutet
Während in den USA Milliarden in immer größere KI-Cluster fließen, zeigt diese Studie einen alternativen Pfad: schlau statt groß.
Für Europa – und speziell Deutschland – ist das eine strategisch wichtige Erkenntnis:
- Europäische Quanten-Hubs wie Jülich, München und Stuttgart arbeiten bereits an supraleitenden Qubit-Systemen. Die Integration von Quanten-Hardware in KI-Pipelines könnte ein Bereich sein, in dem Europa nicht nur aufholt, sondern vorne mitspielt.
- Die Energie-Frage: Training und Inferenz riesiger Modelle frisst Strom in Rechenzentren. Wenn 6.000 Quanten-Parameter messbare Verbesserungen bringen, ist das ein starkes Signal Richtung energieeffizientere KI-Architekturen.
- EU-Quanten-Flaggschiff-Programme wie das Quantum Technology Flagship haben in den letzten Jahren Grundlagen geschaffen – diese Studie zeigt eine konkrete Anwendung, die den Transfer von der Grundlagenforschung in die Industrie beschleunigen könnte.
Deutsche Unternehmen wie SAP, Bosch und Infineon investieren bereits in Quantencomputing. Dass jetzt ein produktionsreifes LLM wie Llama 3.1 mit Quanten-Hardware verbessert wurde, macht den Business Case greifbarer. Ähnlich wie Microsofts Majorana-1-Quantenchip zeigt auch diese Studie: Quantencomputing verlässt langsam das Labor.
Drei Dinge, die KI-Entwickler jetzt im Blick behalten sollten
- Hybride Architekturen beobachten: Quanten-Koprozessoren für KI sind kein Sci-Fi mehr. Auch wenn es noch Jahre bis zur kommerziellen Nutzung sind: Wer heute Foundation Models baut, sollte hybride Architekturen auf dem Radar haben.
- Nicht blind auf „größer = besser“ setzen: 6.000 Parameter, die 1,4 % Perplexity-Verbesserung bringen, sind ein starkes Argument gegen die reine Skalierungslogik. Effizienz-Forschung lohnt sich – ob mit Quanten-Hardware oder neuen klassischen Architekturen wie dem subquadratischen SubQ-Ansatz.
- Open-Source-Modelle als Testplattform: Dass das Team ausgerechnet Llama 3.1 gewählt hat, ist kein Zufall. Open-Weight-Modelle erlauben Experimente, die bei proprietären Systemen undenkbar wären – ein klarer Vorteil für die Forschung.
Warum 1,4 % trotzdem noch kein Durchbruch ist
So spannend die Ergebnisse sind – ein Reality-Check ist nötig:
- 1,4 % Perplexity-Verbesserung ist messbar, aber im Alltagseinsatz kaum spürbar. Die korrigierten Wissensfragen sind eindrucksvoll, aber gezielt ausgewählt – es gibt keine Garantie, dass das quantenverstärkte System bei beliebigen Fragen besser abschneidet.
- Quanten-Hardware ist rar und teuer. Der IBM Heron r2 mit 156 Qubits ist ein Spezialsystem, kein Cloud-Commodity. Bis Quanten-Koprozessoren für KI in Rechenzentren stehen, werden noch Jahre vergehen.
- Der Trainingsaufwand steigt nicht linear. Die Studie zeigt einen klaren Trade-off zwischen Qubit-Zahl und Rauschen – der „Noise-Expressivity-Phasenübergang“ ist real. Mehr Qubits bedeuten nicht automatisch bessere Ergebnisse.
- Klassische Optimierung holt auf. Effizientere Architekturen, bessere Fine-Tuning-Methoden und Retrieval-Augmented Generation (RAG) verbessern Modelle ebenfalls – ganz ohne Quanten-Hardware.
Die Studie selbst formuliert es bescheiden: Es geht um einen „Hardware-Feasibility-Meilenstein“, nicht um einen Quantenvorteil. Die Brücke zwischen Quantencomputern und produktiven KI-Modellen ist gebaut – aber sie ist noch schmal.
Fazit
Die Studie von Multiverse Computing und IBM ist ein Pionier-Moment: Zum ersten Mal wurde ein produktiv genutztes Sprachmodell mit echter Quanten-Hardware verbessert. Der Effekt ist klein, aber real – und die Implikationen sind groß.
Für die KI-Branche heißt das: Der Pfad „Quanten-Hardware plus klassische KI“ ist keine Theorie mehr. Er funktioniert. Jetzt geht es darum, ihn breiter und günstiger zu machen. Für Deutschland und Europa ist das eine Chance, in einem Feld mitzuspielen, das noch nicht von hyperskalierenden US-Rechenzentren dominiert wird.
Wie Live Science berichtet, werden die kommenden Jahre zeigen, ob aus dem Feasibility-Meilenstein ein Wettbewerbsvorteil wird.
FAQ
Was ist ein Quantum-enhanced Language Model?
Ein Sprachmodell, bei dem ein Teil der Berechnungen nicht auf klassischen Chips, sondern auf einem echten Quantencomputer läuft. In dieser Studie wurde ein winziger Quanten-Baustein in ein bestehendes KI-Modell eingefügt.
Welchen Quantencomputer hat IBM verwendet?
Das IBM Quantum System Two mit dem 156-Qubit Heron r2 Prozessor (Codename „ibm_basquecountry“). Es handelt sich um einen supraleitenden Quantenprozessor.
Kann Quantencomputing klassische KI-Modelle ersetzen?
Nein, jedenfalls nicht in absehbarer Zeit. Die Studie zeigt eine hybride Architektur: klassisches LLM plus Quanten-Baustein, die zusammen bessere Ergebnisse liefern als das rein klassische Modell.
Wann wird Quanten-KI kommerziell nutzbar?
Frühestens in 5 bis 10 Jahren. Die aktuelle Studie ist ein Machbarkeitsbeweis, kein kommerzielles Produkt. Quanten-Hardware ist noch teuer, fehleranfällig und nicht in großem Maßstab verfügbar.
Warum wurde ausgerechnet Llama 3.1 verwendet?
Llama 3.1 ist ein Open-Weight-Modell von Meta mit 8 Milliarden Parametern, das weit verbreitet ist. Offene Modelle erlauben Forschern, interne Schichten zu modifizieren – bei Closed-Source-Modellen wie GPT-4 oder Claude wäre das nicht möglich.


