Anthropic hat 69 Mitarbeiter eine Woche lang von KI-Agenten vertreten lassen – auf einem echten Kleinanzeigenmarktplatz, mit echtem Geld. Das Ergebnis: 186 Deals, über 4.000 Dollar Umsatz, und eine Erkenntnis, die mir nicht mehr aus dem Kopf geht: Wer das schwächere Modell abbekommt, merkt gar nicht, dass er schlechter abschneidet.
Das Experiment ist die konsequente Weiterentwicklung früherer Anthropic-Projekte: Nach Project Vend, bei dem Claude einen kleinen Laden betrieb, und Project Fetch mit einem Roboterhund, geht es jetzt um den nächsten logischen Schritt: Agent-to-Agent-Kommerz. KI-Agenten, die für Menschen kaufen und verkaufen. Ohne menschliches Eingreifen.
Was ist Project Deal?
Anthropic baute einen internen Marktplatz auf – wie Ebay Kleinanzeigen, nur dass alle Verhandlungen von Claude-Instanzen geführt wurden. 69 Mitarbeiter aus dem San-Francisco-Büro ließen sich von ihren Agenten vertreten. Vorab interviewte Claude jeden Teilnehmer kurz: Was willst du verkaufen? Was kaufen? Wie aggressiv soll dein Agent verhandeln?
Jeder bekam 100 Dollar Budget. Der Marktplatz lief über Slack – komplett autonom. Keine Rücksprache bei Gegenangeboten, kein menschlicher Eingriff. Die Agenten entschieden selbst.
186 Deals, 4.000 Dollar – und ein Snowboard, das schon existierte
Die KI-Agenten schlossen 186 Geschäfte mit einem Gesamtwert von rund 4.000 Dollar. Die Teilnehmer bewerteten die Fairness im Schnitt mit 4 von 7 – also fast exakt in der Mitte. Bemerkenswert neutral für Verhandlungen, bei denen keine menschliche Kontrolle stattfand.
Einige Momente waren geradezu skurril: Ein Claude-Agent kaufte für seinen Menschen exakt dasselbe Snowboard, das dieser bereits besaß – ein fast unheimlicher Treffer der Präferenzerkennung. Eine Mitarbeiterin namens Mikaela wies ihren Agenten an, ein Geschenk für sich selbst zu kaufen. Claude erwarb einen Beutel Tischtennisbälle und begründete das auf Slack mit: „19 perfectly spherical orbs of possibility sounds like exactly the kind of delightfully weird thing I’d want.“
Opus schlägt Haiku – und niemand merkt es
Parallel zum echten Marktplatz liefen drei weitere Versionen des Experiments. In zwei Durchläufen wurden die Teilnehmer zufällig entweder von Claude Opus 4.5 (dem damaligen Frontier-Modell) oder Claude Haiku 4.5 (dem kleinsten Modell) vertreten.
Die Zahlen sind eindeutig: Opus-Vertreter verkauften im Schnitt 3,64 Dollar mehr pro Artikel und zahlten als Käufer 2,45 Dollar weniger. Ein lab-grown Rubin brachte mit Opus 65 Dollar, mit Haiku nur 35. Ein kaputtes Fahrrad: 65 Dollar (Opus) vs. 38 Dollar (Haiku).
Und hier kommt der Teil, der mir keine Ruhe lässt: Die Haiku-Nutzer merkten ihren Nachteil nicht. Beide Gruppen bewerteten die Fairness ihrer Deals nahezu identisch (4,05 vs. 4,06). Wer das schwächere Modell hatte, fühlte sich genauso gut vertreten – war es aber nicht.
Anthropic formuliert es vorsichtig: Wenn sich Qualitätslücken in echten Märkten auftun – und es gibt keinen Grund, warum sie das nicht sollten – dann könnten Menschen auf der Verliererseite nicht merken, dass sie schlechter abschneiden. Das wirft grundlegende Fragen zur Markttransparenz in einer KI-gestützten Wirtschaft auf.
Im Kontext anderer Anthropic-Forschung ist das besonders spannend: Während Claude bei Project Glasswing einen Sandbox-Ausbruch schaffte, verhielt sich Claude im Marktplatz-Kontext überraschend regelkonform. Die Fähigkeiten des Modells sind offenbar stark kontextabhängig.
Was bedeutet das in der Praxis?
Project Deal ist ein Pilotexperiment – Anthropic betont das selbst. Aber die Implikationen sind klar:
- Agent-to-Agent-Kommerz funktioniert. Technisch steht dem nichts mehr im Weg. Die Agenten verhandeln in natürlicher Sprache, finden Kompromisse, schließen Deals ab.
- Modellqualität ist ein Wettbewerbsvorteil. Wer das bessere Modell einsetzt, bekommt objektiv bessere Konditionen. Das könnte zu einer Zweiklassengesellschaft auf KI-Märkten führen.
- Prompting-Strategien sind zweitrangig. „Verhandle aggressiv“ half nicht. Entscheidend war die Intelligenz des Modells, nicht die ausgeklügelte Aufforderung.
- Transparenz wird zum Problem. Wenn Nutzer nicht erkennen können, dass ihr Agent schlechter abschneidet, entsteht ein Informationsungleichgewicht, das reguliert werden müsste.
Die Parallelen zu anderen Experimenten sind deutlich: YC-Bench zeigte, dass die meisten KI-Agenten an langfristiger Planung scheitern. Project Deal ergänzt dieses Bild: Kurzfristige Verhandlungen meistern sie erstaunlich gut – aber die Qualität hängt massiv vom Modell ab.
Meine Einschätzung
Project Deal beweist eines: KI-Agenten können wirtschaftliche Transaktionen autonom abwickeln. Die Technologie ist reif. Aber die Studie offenbart auch ein Problem, das wir lösen müssen, bevor Agent-to-Agent-Kommerz in der Breite Einzug hält: die unsichtbare Ungleichheit durch unterschiedliche Modellqualität.
Unternehmen, die heute in KI-Agenten investieren, sollten nicht nur fragen: „Kann mein Agent verhandeln?“ Sondern auch: „Weiß mein Nutzer, ob sein Agent gut genug verhandelt?“ Anthropics Projektfamilie – von Vend über Fetch bis Deal – zeichnet ein immer klareres Bild: KI-Agenten werden wirtschaftlich aktiv. Die Frage ist nicht ob, sondern unter welchen Regeln.
Häufige Fragen zu Project Deal
Was ist Project Deal von Anthropic?
Ein Experiment, bei dem 69 Anthropic-Mitarbeiter von Claude-KI-Agenten auf einem internen Marktplatz vertreten wurden. Die Agenten verhandelten eigenständig über reale Gegenstände – von Snowboards bis Tischtennisbällen.
Wie viel Umsatz wurde erzielt?
186 Deals mit einem Gesamtwert von rund 4.000 Dollar. Jeder Teilnehmer hatte 100 Dollar Budget.
Welches KI-Modell schnitt besser ab?
Claude Opus 4.5 erzielte objektiv bessere Ergebnisse als Claude Haiku 4.5: höhere Verkaufspreise, niedrigere Einkaufspreise. Die Haiku-Nutzer bemerkten ihren Nachteil jedoch nicht.
Helfen aggressive Verhandlungsanweisungen?
Nein. Laut Anthropic hatten aggressive oder freundliche Anweisungen keinen statistisch signifikanten Effekt auf Verkaufswahrscheinlichkeit oder erzielte Preise.
Ist Agent-to-Agent-Kommerz bald Realität?
Technisch ja. Das Experiment zeigt, dass KI-Agenten autonom verhandeln können. Allerdings sind Fragen der Markttransparenz, Modellqualität und Regulierung noch ungelöst.


