Der Burggraben ist das System, nicht das Modell
Anthropic schlug kürzlich hohe Wellen mit der Ankündigung, ihr neues, geschlossenes Modell Claude Mythos Preview habe völlig autonom jahrzehntealte Schwachstellen in OpenBSD, FreeBSD und dem Linux-Kernel gefunden. Die Erzählung war klar: Nur ein gigantisches, streng limitiertes Frontier-Modell besitzt die kognitive Schärfe für solche Entdeckungen.
Stanislav Fort, Gründer des KI-Cybersecurity-Unternehmens AISLE, hat diese Behauptung nun auf die Probe gestellt. Das Ergebnis rüttelt an der Kern-Narrative der großen KI-Labore: Kleine, quelloffene und spottbillige Modelle können exakt dieselben Lücken finden.
Die „Jagged Frontier“ der KI-Sicherheit
AISLE nahm sich die Vorzeige-Schwachstellen aus dem Anthropic-Bericht vor, isolierte die relevanten Code-Schnipsel und verfütterte sie an eine Reihe kleiner, günstiger Modelle. Die Ergebnisse sind erstaunlich:
- Acht von acht Modellen erkannten den schwerwiegenden FreeBSD-Exploit (einen Buffer-Overflow). Darunter war ein winziges Modell mit nur 3,6 Milliarden aktiven Parametern, das gerade einmal 11 Cent pro Million Token kostet.
- Ein quelloffenes Modell mit 5,1 Milliarden aktiven Parametern konnte sogar die komplexe mathematische Logik des 27 Jahre alten OpenBSD-Bugs (SACK-Vulnerability) vollständig nachvollziehen.
- Bei einem Standardtest zur Vermeidung von False Positives (Fehlalarmen) versagten die größten Frontier-Modelle von OpenAI und Anthropic völlig, während die kleinen, offenen Modelle brillierten.
Fort bezeichnet diese Beobachtung als „jagged capability frontier“ (zackige Fähigkeitsgrenze). Es gibt nicht „das eine beste Modell“ für Cybersecurity. Die Leistung skaliert nicht nahtlos mit der Größe oder dem Preis eines KI-Modells. Ein 32-Milliarden-Parameter-Modell kann eine Lücke perfekt erkennen und bei der nächsten kläglich versagen.
Quantität schlägt elitäre Exklusivität
Das hat massive wirtschaftliche und strategische Implikationen für die Verteidigung unserer Infrastruktur. Wenn kleine, billige Modelle ausreichen, um die eigentlichen Schwachstellen zu erkennen, muss man nicht mühsam ein teures, exklusives Modell (wie Mythos) auf gut Glück einsetzen. Man kann das Problem mit schierer Abdeckung erschlagen.
„Tausend adäquate Detektive, die überall suchen, finden mehr Fehler als ein brillanter Detektiv, der raten muss, wo er suchen soll,“ fasst Fort zusammen.
Die wahre Kunst: Das Orchester, nicht das Instrument
Die Magie liegt nicht in der rohen Intelligenz des Modells, sondern in der Architektur des Systems drumherum („Scaffolding“). Das System muss Millionen Zeilen Code filtern, dem Modell die richtigen, isolierten Schnipsel zeigen (Targeting), Hypothesen iterativ testen, Fehlalarme herausfiltern und am Ende verifizierte Patches generieren.
Während Anthropic mit Project Glasswing beweist, dass KI-gestützte Cybersicherheit funktioniert, beweist AISLE, dass man dafür nicht zwingend auf die verschlossenen, teuren Flaggschiffe des Silicon Valley angewiesen ist. Die Demokratisierung der KI-Abwehr ist bereits weiter fortgeschritten, als es PR-Meldungen vermuten lassen.


