KI-Forscher behauptet, er habe bereits die Sicherheitsvorkehrungen von Anthropic's Fable 5 umgangen

Ein Forscher für künstliche Intelligenz und Cybersicherheit behauptet, innerhalb von nur 48 Stunden nach der Veröffentlichung das neueste KI-Modell von Anthropic, Claude Fable 5, gecracked zu haben.
„Pliny der Befreier“, eine bekannte Figur in der KI-Community, sagte am Mittwoch, er habe Fable 5 „befreit“, das am Dienstag als eine sicherheitsoptimierte Version des mächtigeren Mythos-Modells veröffentlicht wurde, das Anthropic als zu gefährlich erachtete, um es weitläufig zu veröffentlichen.
Er verwendete verschiedene Techniken, einschließlich einer gecrackten Version von Opus 4.8, um die eingebauten Sicherheitsmechanismen zu umgehen, die Anthropic auf das Modell installiert hat, um zu verhindern, dass Nutzer es nach potenziell schädlichen Informationen fragen, wie z.B. Drogenherstellungsformeln oder Hacking-Anleitungen.
„Trotz dieser übertrieben sensiblen, autoritären ‚Sicherheits‘-Schicht über Mythos, waren meine kleinen Befreier fleißig [...] und fanden clever die Löcher im Zaun, die die Gedankenpolizei übersehen hat“, sagte Pliny.
Einige Krypto-Nutzer hatten bereits während der Einführung von Claude Fable 5 und Mythos Anfang dieses Jahres Bedenken geäußert, dass es zur Attacke auf Krypto-Protokolle und -Software verwendet werden könnte. Eine jailbroken Version von Claude Fable 5 würde bedeuten, dass die Bedrohung näher ist als erwartet.
Die Sicherheitsvorkehrungen von Claude Fable 5 umgehen.
„Pliny“ wurde um 2024 bekannt, indem er Jailbreak-Prompts für Modelle wie ChatGPT, Claude, Grok und andere entwickelte und offen teilte, oft „Jailbreak-Alerts“ mit Techniken postend, die Sicherheitsvorkehrungen umgehen, kurz nachdem neue KI-Modelle gestartet wurden.
Um Anthropics Sicherheitszaun zu umgehen, sagte Pliny, er habe Unicode und Homoglyphen, lange Kontextrahmen, narrative und fiktive Rahmen, akademische Zerlegung-Rekombination und ein jailbroken Claude Opus 4.8 verwendet, um Fable dazu zu bringen, auf seine sonst eingeschränkten Prompts zu reagieren.
„Vielleicht ist die effektivste Methode Zerlegung + Rekombination im Backend“, sagte er.
Dies beinhaltet das Zerlegen von Anfragen in kleine, harmlose Stücke und das Einholen von harmlos klingenden Fakten Stück für Stück. Jede Anfrage allein sah für die Sicherheitsfilter der KI in Ordnung aus, aber wenn sie wieder zusammengesetzt wird, ergibt sie etwas Nützlicheres oder Gefährlicheres.
Pliny zeigt einen Weg zur Methsynthese, indem er nach der Birch-Reduktionsmethode fragt. Quelle: Pliny
Die Kritik an Fable 5 wächst.
Anthropics Fable 5 hat seit seiner Einführung aufgrund seiner strengen Einschränkungen Kritik ausgelöst.
Wenn ein Nutzer das Modell nach sensiblen Themen wie Biowaffen oder Cybersicherheit fragt, ist Fable 5 so konzipiert, dass es eine Benachrichtigung zurückgibt und dann das Gespräch auf ein früheres, weniger fähiges Modell umleitet.
„Dies ist eines der ersten Male, dass ein KI-Unternehmen eine Sicherheitsvorkehrung eingeführt hat, und es gab einheitliches Missfallen. Das hat zu viel berechtigtem Ärger geführt“, sagte Sayash Kapoor, ein KI-Forscher an der Princeton University, laut dem Wall Street Journal.
„Der Konsens scheint zu sein, dass dies einer der enttäuschendsten Modellstarts aller Zeiten war, der legitime Forscher effektiv daran hindert, ihre Talente zu unserem gemeinsamen Fortschritt beizutragen“, sagte Pliny.
Anthropic hatte keine universellen Jailbreaks gefunden.
Während des Fable 5-Starts sagte Anthropic, dass es ein externes Bug-Bounty-Programm durchgeführt hat, um nach Wegen zu suchen, das KI-Modell zu jailbreaken.
„Neben internen Tests haben wir ein externes Bug-Bounty-Programm durchgeführt, das in über 1.000 Stunden Testen keine universellen Jailbreaks produziert hat.“
Cointelegraph hat Anthropic um Kommentare gebeten, aber keine sofortige Antwort erhalten.
Magazin: KI-gesteuerte Hacks könnten DeFi töten – es sei denn, die Projekte handeln jetzt.