OpenAI und Paradigm haben EVMbench, ein neues Tool zur Bewertung von KI-Agenten im Bereich Smart-Contract-Sicherheit, vorgestellt. Ziel ist es, die Fähigkeiten von KI bei der Erkennung, Behebung und Ausnutzung von Schwachstellen zu messen und somit die Sicherheit von Krypto-Anwendungen zu erhöhen. Diese Entwicklung ist besonders relevant angesichts des rasanten Fortschritts im Bereich KI-Agenten.
EVMbench nutzt 120 Schwachstellen aus 40 Sicherheitsaudits, darunter auch solche aus Open-Code-Audit-Wettbewerben und Audits der Tempo-Blockchain. Das Tool prüft KI-Agenten in drei Modi: Schwachstellen finden (Detect), beheben (Patch) und ausnutzen (Exploit) in einer sicheren Sandbox-Umgebung.
Bei Ausnutzungsaufgaben, bei denen die Ziele klar definiert sind, zeigen KI-Agenten die stärkste Leistung. OpenAIs GPT-5.3-Codex erreichte hier eine Erfolgsquote von 72,2 %.
Im Vergleich dazu sind die Ergebnisse bei der reinen Schwachstellenerkennung und -behebung noch ausbaufähig. Agenten neigen dazu, nach dem Fund eines Problems aufzuhören, anstatt eine vollständige Prüfung durchzuführen. Auch die Behebung subtiler Fehler unter Beibehaltung der Funktionalität stellt eine Herausforderung dar. OpenAI bezeichnet diese Diskrepanz als „Exploit Gap“.
Die Notwendigkeit solcher Sicherheitsbewertungen ergibt sich aus dem hohen Wert der durch Smart Contracts gesicherten Vermögenswerte und dem Potenzial von KI, sowohl Angreifer als auch Verteidiger zu beeinflussen. Jüngste Vorfälle wie KI-unterstützte Exploits verdeutlichen die Dringlichkeit.
OpenAI unterstützt defensive Maßnahmen mit API-Credits im Wert von 10 Millionen US-Dollar und erweitert die Beta-Phase seines Sicherheitsforschungsagenten ‚Aardvark‘.
Obwohl EVMbench ein wichtiger Schritt ist, bildet es nicht die gesamte Komplexität realer Smart-Contract-Sicherheit ab, da viele reale Verträge einer intensiveren Prüfung unterzogen werden.




