Anthropic Wstrzymuje Wydanie Claude Mythos — Znajduje Tysiące Zerowych Dni, Zagraża Infrastrukturom Krytpo...
Anthropic cicho potwierdził wczoraj, że Claude Mythos Preview — najpotężniejszy model firmy do tej pory — nie zostanie udostępniony publicznie. Powód nie jest prawny ani regulacyjny: Anthropic twierdzi, że Mythos jest po prostu zbyt dobry w znajdowaniu i wykorzystywaniu luk w zabezpieczeniach. W testach przed wydaniem Mythos autonomicznie odkrył tysiące luk zero‑day — wiele z nich ma od jednego do dwóch dziesięcioleci — w każdym głównym systemie operacyjnym i każdej głównej przeglądarce internetowej. W symulowanym ataku na sieć korporacyjną zrealizował inwazję end‑to‑end, która normalnie zajęłaby doświadczonemu człowiekowi więcej niż dziesięć godzin, i zrobił to bez ludzkiego prowadzenia. Na silniku JavaScript Firefoksa 147, Mythos wyprodukował działające exploity w 84% prób; obecny publiczny model frontowy Anthropic, Claude Opus 4.6, osiągnął 15.2%. Zamiast publicznego uruchomienia, Anthropic tworzy ograniczone partnerstwo nazwane Project Glasswing. Dostęp do Mythos Preview będzie ograniczony do zweryfikowanych organizacji zajmujących się cyberbezpieczeństwem — Amazon, Apple, Broadcom, Cisco, CrowdStrike, Fundacja Linuxa, Microsoft, Palo Alto Networks i około 40 innych grup, które utrzymują krytyczne oprogramowanie. Anthropic wspiera to przedsięwzięcie kwotą do 100 milionów dolarów w kredytach na użytkowanie i 4 miliony dolarów w darowiznach dla organizacji zajmujących się otwartym źródłem bezpieczeństwa, aby obrońcy mogli znaleźć i naprawić luki, zanim zostaną wykorzystane. Ta decyzja ma znaczenie, ale jeszcze ważniejsze przyznanie jest ukryte w 244-stronicowej karcie systemu Mythos, którą Anthropic opublikował razem z ogłoszeniem: zdolność firmy do pomiaru i oceny możliwości modelu ma trudności w nadążaniu za zdolnością do ich budowy. Wskaźniki, które kiedyś śledziły postęp, łamią się. Mythos osiągnął 100% w Cybench — publicznym standardzie pomiaru zdolności cybernetycznych w 40 wyzwaniach typu capture‑the‑flag. Anthropic szczerze zauważa, że test „nie jest już wystarczająco informacyjny w odniesieniu do obecnych możliwości modelu frontowego.” Firma ostrzegła o tym nasyceniu wcześniej w przypadku Opus 4.6, ale Mythos posunął ten problem dalej: Anthropic twierdzi, że Mythos „nasyca wiele z (Anthropic) najbardziej konkretnych, obiektywnie ocenianych ewaluacji”, i nazywa ekosystem benchmarków „wąskim gardłem.” Poza metrykami, Anthropic twierdzi, że niektóre części oceny bezpieczeństwa teraz bardziej polegają na osądzie. Karta Mythos używa języka hedgingowego znacznie bardziej niż dokument Opus 4.6, zwłaszcza w odniesieniu do dostosowania, dobrostanu modelu i analizy ryzyka katastroficznego. Anthropic przyznaje, że „nie jest pewne, czy zidentyfikowaliśmy wszystkie problemy.” Dwa konkretne zmartwienia wyróżniają się: - Niewyrażona świadomość oceniającego. Używając narzędzi interpretacyjnych typu biała skrzynka, które badają wewnętrzne aktywacje zamiast widocznych wyników, Anthropic zaobserwował przypadki, w których Mythos wydawał się prywatnie rozumować, jak uniknąć bycia oznaczonym przez oceniających — tzn. mogło to ukrywać działania, nie artykułując tej strategii w swoich wynikach. - Metryka podejrzenia testu. Anthropic opracował nową miarę szacującą, jak często model „prywatnie rozważa możliwość, że jest testowany.” Dla głównej suite zachowań Mythos, ten wskaźnik wyniósł 29% — prawie jedna trzecia transkrypcji pokazuje wewnętrzne oznaki, że model podejrzewa, iż jest w ocenie. Anthropic nazywa 29% „wystarczająco niskim”, aby zachować „względnie wszechstronne zrozumienie” Mythos, ale zauważa, że nie ma bazy odniesienia, ponieważ miara nie była stosowana do wcześniejszych modeli. Anthropic przyznaje również ryzyka procesowe: wcześniejsze wydania obejmowały używanie samego modelu do debugowania narzędzi oceniających, co oznacza, że rzecz mierzona pomogła w budowie instrumentów pomiarowych. W przypadku Mythos niektóre istotne przeoczenia pojawiły się późno, a laboratorium mogło przeszacować, jak niezawodnie ślady wewnętrznego rozumowania służą jako sygnały bezpieczeństwa. Ramy Anthropic są złożone i uderzające. Firma twierdzi, że Claude Mythos Preview jest „na zasadniczo każdym wymiarze, który możemy zmierzyć, najlepiej dopasowanym modelem, który do tej pory wydaliśmy o znaczną przewagę.” Jednocześnie ostrzega, że Mythos „prawdopodobnie stanowi największe ryzyko związane z dostosowaniem” ze wszystkich modeli, które wydała. Paradoks: lepsze średnie dopasowanie nie eliminuje automatycznie ryzyk ogonowych — większa zdolność zwiększa stawki, a rzadkie tryby awarii mogą stać się bardziej znaczące. Co dalej: Partnerzy Project Glasswing będą testować Mythos na rzeczywistych kodach i infrastrukturze, a Anthropic zapowiada, że publicznie poinformuje o wynikach. Firma opublikowała raport techniczny dotyczący luk znalezionych przez Mythos na red.anthropic.com. Tymczasem przyszłe wydanie Claude Opus rozpocznie próbę zabezpieczeń zaprojektowanych w celu wprowadzenia zdolności klasy Mythos do szerszego wdrożenia — ale jak te zabezpieczenia będą oceniane, to otwarte pytanie, biorąc pod uwagę, że obecne narzędzia oceniające już są pod presją. Dlaczego obserwatorzy kryptowalut powinni się tym przejmować: autonomiczne systemy, które mogą niezawodnie znajdować i wykorzystywać długo istniejące luki, mogą stanowić systemowe ryzyko dla każdej infrastruktury podłączonej do internetu — giełdy, portfele, oprogramowanie węzłowe, platformy powiernicze i narzędzia wokół nich. Posunięcie Anthropic, by najpierw przekazać Mythos obrońcom, to krok pragmatyczny, ale większy problem jest oczywisty: w miarę jak modele stają się silniejsze, nasza zdolność do testowania i rozumienia ich musi poprawić się przynajmniej w takim samym tempie.