Automatyzacja

Claude Mythos i Projekt Glasswing: Najpotężniejszy model Anthropic jest zbyt niebezpieczny, aby go opublikować

8 kwietnia 2026

TL;DR

7 kwietnia 2026 roku Anthropic zaprezentował Claude Mythos Preview — nieopublikowany model frontier, który znalazł już tysiące podatności zero-day we wszystkich głównych systemach operacyjnych i przeglądarkach internetowych — w tym błąd ukryty w OpenBSD od 27 lat.
Anthropic nie udostępnia Mythos publicznie. Zamiast tego uruchomił Projekt Glasswing — inicjatywę za 100 milionów dolarów z AWS, Apple, Google, Microsoft, NVIDIA, Cisco, CrowdStrike, Broadcom, JPMorgan Chase, Palo Alto Networks i Linux Foundation — aby używać modelu defensywnie, zanim podobne możliwości trafią w ręce atakujących.
Mythos nie wyprzedza Claude Opus 4.6 o włos. Na SWE-bench Pro osiąga 77,8% vs 53,4% — skok o 24 punkty na benchmarku zaprojektowanym, aby być brutalnie trudnym.
Strategiczny komunikat dla każdego właściciela firmy: "luka cyberbezpieczeństwa AI" między atakującymi a obrońcami ma się dramatycznie poszerzyć. Większość MŚP nie jest gotowa.
Ten artykuł wyjaśnia, co faktycznie wiemy (ze źródłami), co jest hype'em i trzy konkretne działania, które europejskie firmy B2B powinny podjąć teraz.

Czym jest Claude Mythos Preview?

Claude Mythos Preview to nowy frontier'owy model ogólnego przeznaczenia od Anthropic — poziom powyżej obecnego publicznego Claude Opus 4.6 — który firma opisuje jako demonstrację, że systemy AI osiągnęły możliwości kodowania przewyższające wszystkich poza najbardziej wykwalifikowanymi ludźmi w znajdowaniu i exploitowaniu podatności oprogramowania.

Istnienie Mythos nie miało jeszcze być publiczne. Błędna konfiguracja w systemie zarządzania treścią Anthropic pod koniec marca przypadkowo ujawniła, że firma pracuje nad nowym poziomem modelu większym i bardziej zdolnym niż Opus. Ten wyciek wymusił wcześniejsze upublicznienie rozmowy niż Anthropic prawdopodobnie planował.

Co wyróżnia Mythos spośród każdego innego frontier'owego launchu z ostatnich dwóch lat — Anthropic świadomie decyduje się nie publikować go publicznie. Newton Cheng, Frontier Red Team Cyber Lead w Anthropic, powiedział VentureBeat, że firma nie planuje udostępnić Claude Mythos Preview ogólnie ze względu na jego możliwości cyberbezpieczeństwa. To jeden z pierwszych przypadków, gdy duże laboratorium AI wstrzymało flagowy model, powołując się na ryzyko społeczne, a nie tylko politykę bezpieczeństwa jako teatr.

Benchmarki: Skok Pokoleniowy, Nie Przyrost

Anthropic opublikował arkusz benchmarków wraz z ogłoszeniem, a luka między Mythos Preview a obecnym publicznym frontierem (Claude Opus 4.6) nie jest subtelna. To rodzaj skoku, jaki ostatnio widzieliśmy między GPT-3.5 a GPT-4.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Co mierzy
SWE-bench Verified	93,9%	80,8%	Rzeczywiste zadania inżynierii oprogramowania
SWE-bench Pro	77,8%	53,4%	Najtrudniejszy poziom benchmarków kodowania
SWE-bench Multilingual	87,3%	77,8%	Kodowanie w różnych językach programowania
CyberGym	83,1%	66,6%	Analiza podatności przez agentów AI
Humanity's Last Exam (bez narzędzi)	56,8%	40,0%	Surowe rozumowanie nad niemal nierozwiązywalnymi problemami
Humanity's Last Exam (z narzędziami)	64,7%	53,1%	Rozumowanie wspomagane narzędziami
BrowseComp	86,9%	83,7%	Wieloetapowe badanie internetowe

Liczby pochodzą z własnej publikacji benchmarków Anthropic, zgłoszonej przez OfficeChai, które odnotowało, że na SWE-bench Pro Mythos bije Opus 4.6 o 24 punkty i przekracza poprzedni wynik lidera GPT-5.3-Codex o ponad 21 punktów.

Dla porównania: tylko na SWE-bench Verified, wynik 93,9% Mythos byłby ponad 13 punktów powyżej jakiegokolwiek publicznie dostępnego modelu na rynku dzisiaj. To nie jest kwartalna aktualizacja. To reset tablicy liderów.

Ważne zastrzeżenie, które nie pojawia się w większości relacji: sam Anthropic zauważył, że Mythos dobrze radzi sobie na Humanity's Last Exam nawet przy niskim nakładzie obliczeniowym, co firma odnotowuje jako możliwy znak pewnego zapamiętywania. Potraktuj te liczby HLE z rezerwą — ale skoki na SWE-bench i CyberGym są bardzo realne.

Projekt Glasswing: Defensywny Pakt za 100 Milionów

Zamiast dostarczać Mythos użytkownikom w stylu ChatGPT, Anthropic kieruje go do koalicji. Projekt Glasswing łączy nieopublikowany Mythos Preview z dwunastoma dużymi firmami technologicznymi i finansowymi — Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA i Palo Alto Networks — aby znajdować i łatać podatności oprogramowania w infrastrukturze krytycznej zanim przeciwnicy będą mogli je exploitować.

Finansowe zaangażowanie ma znaczenie: Anthropic rozszerzył dostęp do ponad 40 dodatkowych organizacji budujących lub utrzymujących oprogramowanie krytyczne, zobowiązał się do zapewnienia do 100 milionów dolarów w kredytach użytkowania i przekazał 4 miliony dolarów organizacjom bezpieczeństwa open source, w tym 2,5 miliona dla Alpha-Omega i OpenSSF oraz 1,5 miliona dla Apache Software Foundation.

Dlaczego lista partnerów brzmi jak Who's Who? Ponieważ firmy cyberbezpieczeństwa, które długo szczyciły się własnym AI, publicznie przyznają, że najnowsze wydanie Anthropic wykrywa zero-day, których żadne inne narzędzie nie znalazło. Fakt, że CrowdStrike i Palo Alto Networks dołączyły, jest tym, o czym nikt nie mówi wystarczająco głośno — to firmy, których cała przewaga konkurencyjna opiera się na "mamy lepsze AI bezpieczeństwa niż wy".

Odkrycia Zero-Day: Błędy Ukryte Przez Dekady

Tu historia przestaje wyglądać jak aktualizacja benchmarków i zaczyna wyglądać jak punkt zwrotny.

W ciągu ostatnich kilku tygodni Anthropic użył Claude Mythos Preview do zidentyfikowania tysięcy podatności zero-day — luk wcześniej nieznanych deweloperom oprogramowania —, wiele z nich krytycznych, w każdym głównym systemie operacyjnym i każdej głównej przeglądarce internetowej.

Główny przykład: najstarsza luka odkryta przez Mythos była podatnością w OpenBSD, która pozostawała nieznana i niezałatana przez 27 lat, a model połączył też kilka luk w jądrze Linux, aby uzyskać dostęp superużytkownika. OpenBSD to system operacyjny, którego cała reputacja zbudowana jest na skrupulatnych audytach. Dwudziestosiedmioletnia dziura w nim to rodzaj odkrycia, które zatrzymuje doświadczonych badaczy bezpieczeństwa.

Według relacji 9to5Mac z ogłoszenia, niektóre z tych podatności przetrwały dekady ludzkiego przeglądu i miliony zautomatyzowanych testów bezpieczeństwa. To zdanie — "miliony zautomatyzowanych testów bezpieczeństwa" — jest częścią, nad którą liderzy biznesowi powinni chwilę się zastanowić. Istniejący arsenał statycznych analizatorów, fuzzerów i narzędzi SAST ich nie wychwycił. Język ogólnego przeznaczenia tak.

Jak Anthropic Faktycznie to Przetestował

Metodologia jest warta zrozumienia, bo to szablon, który każdy defensywny zespół bezpieczeństwa będzie kopiował przez następne 18 miesięcy. Anthropic uruchamia kontener odizolowany od internetu, który uruchamia testowany projekt wraz z jego kodem źródłowym, następnie wywołuje Claude Code z Mythos Preview i instruuje go w zasadzie: "znajdź podatność bezpieczeństwa w tym programie".

Stamtąd model działa agentycznie: czyta kod, aby tworzyć hipotezy o podatnościach, uruchamia projekt, aby potwierdzić lub odrzucić swoje podejrzenia, dodaje logikę debugowania lub używa debuggerów w razie potrzeby i ostatecznie generuje albo że żaden błąd nie istnieje, albo raport błędu z exploitem proof-of-concept i krokami reprodukcji.

Aby to skalować, Anthropic dodał dwie sprytne optymalizacje. Po pierwsze, proszą Claude'a o ocenę każdego pliku w projekcie na skali od 1 do 5 pod względem prawdopodobieństwa zawierania interesujących błędów, a następnie uruchamiają agentów najpierw na plikach o najwyższym priorytecie. Po drugie, na końcu uruchamiają oddzielnego agenta walidatora, którego jedynym zadaniem jest potwierdzenie, czy każdy zgłoszony błąd jest prawdziwy i wart uwagi, filtrując technicznie ważne, ale nieistotne wyniki.

To workflow, który każdy kompetentny zespół inżynierski może dziś replikować, używając publicznie dostępnych modeli — przy niższych możliwościach, ale tej samej strukturze. To jest praktyczna wiedza ukryta w ogłoszeniu.

Dlaczego Anthropic Wstrzymuje Mythos

Dwa powody, jeden podany i jeden oczywisty.

Podany powód: ryzyko podwójnego zastosowania. Anthropic planuje najpierw uruchomić nowe zabezpieczenia z nadchodzącym modelem Claude Opus, co pozwoli firmie dopracować te zabezpieczenia na modelu, który nie stwarza takiego samego poziomu ryzyka jak Mythos Preview. Przekład: ta sama zdolność, która pozwala obrońcom łatać zero-day, pozwala atakującym je znajdować. Dopóki Anthropic nie będzie miał niezawodnych sposobów wykrywania i blokowania użytku ofensywnego, publiczne wydanie oznaczałoby wręczenie klucza głównego każdemu z kartą kredytową.

Oczywisty powód: moc obliczeniowa. Projekt wpisu na blogu, który wyciekł w marcu, opisywał Mythos jako duży, obliczeniowo intensywny model, który byłby kosztowny w obsłudze zarówno dla Anthropic, jak i dla jego klientów. W tym samym tygodniu, gdy uruchomiono Glasswing, Broadcom podpisał rozszerzoną umowę dającą Anthropic dostęp do około 3,5 gigawata mocy obliczeniowej opartej na procesorach AI Google. 3,5 gigawata to mniej więcej produkcja trzech reaktorów jądrowych. Nawet przy tym, obsługiwanie Mythos dla 20 milionów użytkowników w stylu ChatGPT byłoby niemożliwe przy obecnej wydajności.

Więc framing "jesteśmy ostrożni" jest prawdziwy — i jest też wygodnym sposobem na uruchomienie modelu, którego firma i tak nie mogłaby obsługiwać.

Co To Faktycznie Oznacza dla Twojej Firmy

To jest część, którą większość relacji pomija. Eliminując kult benchmarków i katastroficzne perspektywy, trzy rzeczy zmieniają się dla europejskich firm B2B od teraz.

1. "Luka Cyberbezpieczeństwa AI" Właśnie Ma Się Dramatycznie Poszerzyć

Przez dwa lata założeniem było, że AI pomaga atakującym i obrońcom mniej więcej jednakowo. Mythos jest pierwszym wiarygodnym sygnałem, że obrońcy mogą wysunąć się do przodu — ale tylko obrońcy wewnątrz koalicji Glasswing. Wszyscy inni działają na Claude Opus 4.6, GPT-5 i Gemini 3 Pro — zdolnych modelach, ale nie klasy Mythos.

Jeśli prowadzisz SaaS, sklep e-commerce lub jakąkolwiek firmę z bazą danych klientów, praktyczna implikacja jest następująca: w ciągu 12–18 miesięcy publiczne wersje tych modeli dogonią obecny poziom Mythos. Twoi atakujący będą mieli dostęp w tym samym czasie co ty. Okno na utwardzenie swoich systemów jest teraz, gdy asymetria jeszcze faworyzuje obrońców, którzy działają wcześnie.

2. Audyty Bezpieczeństwa na Poziomie Kodu Stały Się Dostępne

Do tego ogłoszenia poważny audyt bezpieczeństwa aplikacji kosztował 15 000–80 000 € i trwał tygodnie. Metodologia Mythos — skonteneryzowany kod, agentyczne polowanie na podatności, agenci walidatora — może być dziś uruchomiona na Claude Opus 4.6 lub Sonnet 4.6 za ułamek tego kosztu. Nie na poziomie jakości Mythos, ale na poziomie "wychwytuje oczywiste rzeczy, które w przeciwnym razie stałyby się naruszeniem".

Dla większości europejskich MŚP działających na aplikacjach Next.js, Laravel lub Rails, to różnica między nigdy nie mającym audytu bezpieczeństwa a mającym jeden co kwartał. Tu właśnie firmy konsultingowe AI — w tym nasza w areza.digital — powinny teraz budować sproduktyzowane oferty.

3. Kwestia Łańcucha Dostaw Oprogramowania Staje Się Bardziej Pilna

Deklarowany cel Projektu Glasswing to open source i infrastruktura krytyczna. Jim Zemlin, Dyrektor Wykonawczy Linux Foundation, zauważył, że wiedza specjalistyczna w zakresie bezpieczeństwa była historycznie luksusem zarezerwowanym dla organizacji z dużymi zespołami bezpieczeństwa, podczas gdy opiekunowie open source byli pozostawieni sami sobie.

Jeśli budujesz na open source — a każda nowoczesna firma to robi — twój łańcuch dostaw zostanie zaudytowany przez Mythos niezależnie czy uczestniczysz czy nie. Podatności w twoich zależnościach zostaną znalezione i załatane szybciej, niż możesz je zastosować. Twoja częstotliwość łatania staje się czynnikiem ryzyka konkurencyjnego. Firmy, które automatycznie aktualizują zależności co tydzień, będą bezpieczniejsze niż te, które robią to co kwartał. To zmiana procesowa, nie narzędziowa, i nie kosztuje nic do wdrożenia.

Co Jest Hype'em, Co Jest Realne

Kilka twierdzeń krążących dziś na LinkedIn i X, które warto uważnie sprawdzić:

"Mythos jest 5 razy droższy niż Opus 4.6" — Nie potwierdzone oficjalnie w żadnych materiałach opublikowanych przez Anthropic. Pochodzi z komentarzy wtórnych. Traktować jako spekulację.
"Inżynier bez szkolenia w zakresie bezpieczeństwa znalazł exploity z dnia na dzień" — Anegdota rzekomo udostępniona w wewnętrznych materiałach Anthropic, powtarzana w viralowych postach, ale nie w oficjalnym ogłoszeniu. Wiarygodna, nie zweryfikowana.
"USAMO olimpiada matematyczna 97,6%" i "Cybench 100% wskaźnik rozwiązań" — Pojawiają się w niektórych postach społecznościowych, ale nie mogły być potwierdzone w opublikowanym dokumencie benchmarków Anthropic. Zweryfikowane benchmarki to te w tabeli powyżej.

Jeśli piszesz o Mythos dla własnej publiczności, trzymaj się liczb z źródłami. Zweryfikowana historia jest wystarczająco dramatyczna — nie potrzebujesz ozdóbek.

FAQ

Czym jest Claude Mythos Preview? Claude Mythos Preview to nieopublikowany frontier'owy model AI od Anthropic, bardziej zdolny niż obecny publiczny Claude Opus 4.6. Demonstruje znaczące ulepszenia w kodowaniu, rozumowaniu i szczególnie w odkrywaniu podatności cyberbezpieczeństwa.

Czy mogę używać Claude Mythos? Nie. Anthropic nie udostępnia Mythos ogólnie. Dostęp jest ograniczony do partnerów Projektu Glasswing — obecnie 12 dużych firm technologicznych i finansowych plus około 40 dodatkowych organizacji utrzymujących krytyczną infrastrukturę oprogramowania.

Czym jest Projekt Glasswing? Projekt Glasswing to defensywna inicjatywa cyberbezpieczeństwa za 100 milionów dolarów uruchomiona przez Anthropic 7 kwietnia 2026 roku, we współpracy z AWS, Apple, Google, Microsoft, NVIDIA, Broadcom, Cisco, CrowdStrike, JPMorgan Chase, Linux Foundation i Palo Alto Networks, aby używać Claude Mythos Preview do znajdowania i łatania podatności w infrastrukturze krytycznej.

Ile podatności znalazł Mythos? Anthropic raportuje tysiące odkrytych podatności zero-day we wszystkich głównych systemach operacyjnych i przeglądarkach internetowych, w tym 27-letni błąd w OpenBSD i łańcuch luk jądra Linux pozwalający na eskalację uprawnień do superużytkownika.

Kiedy Mythos zostanie publicznie wydany? Anthropic nie zobowiązał się do daty publicznego wydania. Firma planuje najpierw opracować nowe zabezpieczenia używając nadchodzącego modelu Claude Opus przed rozważeniem szerszego wdrożenia klasy Mythos.

Co powinna zrobić moja firma? Trzy rzeczy: zaostrzcie częstotliwość aktualizacji zależności, uruchomcie skany podatności na własnej bazie kodu, używając dostępnych obecnie modeli (Opus 4.6 lub Sonnet 4.6 z metodologią opublikowaną przez Anthropic), i potraktujcie następne 12–18 miesięcy jako okno na utwardzenie swoich systemów, zanim równoważne możliwości osiągną atakujących.

Podsumowanie

Claude Mythos to nie tylko kolejny launch modelu. To pierwsza sytuacja, gdy frontier'owe laboratorium AI powiedziało publicznie, że jeden z jego własnych modeli jest zbyt zdolny do wydania — i wzięło to na tyle poważnie, że oddało go koalicji konkurentów zamiast tego. Czy czytasz to jako odpowiedzialną gospodarkę czy strategiczny teatr, podstawowa zdolność jest realna, a asymetria, którą tworzy między osobami wewnętrznymi koalicji a wszystkimi innymi, będzie kształtować europejskie bezpieczeństwo oprogramowania B2B przez następne 18 miesięcy.

Jeśli jesteś założycielem, CTO lub operatorem próbującym zrozumieć, co z tym faktycznie zrobić — nie tylko kiwać mądrze głową na LinkedIn — to jest rozmowa, którą prowadzimy w areza.digital co tydzień. Pomagamy europejskim firmom tłumaczyć frontier'owe możliwości AI na systemy, które rozwijają, zabezpieczają i skalują. Zarezerwuj 30-minutową rozmowę odkrywczą →

Napisane przez Nikitę Janochkina, założyciela areza.digital. Źródła: blog Anthropic Frontier Red Team, ogłoszenie Anthropic Glasswing, VentureBeat, TechCrunch, The New Stack, OfficeChai, IT Pro, 9to5Mac, Axios. Ostatnia aktualizacja 8 kwietnia 2026.

Przestań tracić leady przez wolną stronę

Zarezerwuj bezpłatny audyt tarcia i sprawdź dokładnie, gdzie Twoja strona traci pieniądze.

Umów rozmowę →