OpenAI hat sich mit der Krypto-Investmentfirma Paradigm zusammengetan, um EVMbench zu starten, einen neuen Benchmark, der testet, wie gut KI-Agenten Smart Contracts im Ethereum-Stil sichern können. Das System checkt Modelle auf echte Schwachstellen und will KI zu einem ernstzunehmenden Tool für die Prüfung von DeFi-Code machen, der mittlerweile Vermögenswerte von über 100 Milliarden Dollar schützt.
Wie EVMbench KI anhand realer Smart-Contract-Fehler testet
EVMbench nutzt 120 hochgradig kritische Schwachstellen, die aus 40 professionellen Audits und Sicherheitsüberprüfungen gesammelt wurden, darunter Fälle aus der Tempo-Blockchain von Paradigm. Anstelle von Spielzeugrätseln spiegelt jede Aufgabe echte Audits aus Wettbewerben wie Code4rena und interne Überprüfungen von Produktionsverträgen wider.
Der Benchmark läuft in einer sandboxed EVM-Umgebung, sodass Agenten mit Live-Bytecode interagieren, ohne Mainnet-Gelder zu berühren. Er nutzt drei Modi: „Detect“, wo KI Code überprüft und bekannte Fehler abruft; „Patch“, wo sie Korrekturen vorschlägt, ohne die Logik zu beeinträchtigen; und „Exploit“, wo sie Angriffe verkettet, um Gelder in einer kontrollierten lokalen Umgebung abzuziehen.
Nach ersten Erkenntnissen hat OpenAI’s GPT-5.3-Codex im Exploit-Modus eine Erfolgsquote von etwa 72 % erreicht, verglichen mit etwa 32 % bei der vorherigen GPT-5.0-Baseline. Dass die Modelle nicht alle Probleme komplett erkennen und sichere Fixes erstellen können, zeigt aber, dass es eine Diskrepanz zwischen Offensivkraft und Defensivabdeckung gibt.
Warum OpenAI und Paradigm den Benchmark jetzt entwickelt haben
Laut OpenAI und Paradigm haben sie EVMbench als Reaktion auf frühere DeFi-Angriffe wie die Vorfälle bei Moonwell und CrossCurve entwickelt, die zusammen zu Hacker-Verlusten von über 86 Millionen Dollar im Januar 2026 geführt haben. Die Bedeutung verbesserter Verteidigungsinstrumente wird durch Untersuchungen von Anthropic und anderen unterstrichen, die zeigen, dass KI die Kosten und den Aufwand für die Planung von Angriffen senken kann.
Durch die Standardisierung der Bewertung von KI-Agenten hinsichtlich der Sicherheit von Smart Contracts bietet EVMbench Entwicklern und Prüfern einen gemeinsamen Maßstab anstelle von verstreuten privaten Tests. OpenAI hat außerdem erhebliche API-Gutschriften bereitgestellt, um die defensive Nutzung seiner Modelle zu unterstützen, insbesondere für Open-Source-Projekte und kritische Infrastrukturen.
Für DeFi-Teams bietet EVMbench eine Möglichkeit zu überprüfen, ob KI-Assistenten tatsächlich die gleichen Fehler finden und beheben können, die für menschliche Auditoren wichtig sind. Projekte können Modelle durch den Benchmark laufen lassen, bevor sie ihnen Produktionsaudits anvertrauen oder sie in kontinuierliche Überwachungspipelines integrieren.
WEITERLESEN: Coinbase nimmt XRP, DOGE, ADA und LTC in seinen US-Krypto-Kreditdienst auf