
Claude Mythos y Proyecto Glasswing: El modelo más poderoso de Anthropic es demasiado peligroso para publicarse
8 de abril de 2026
TL;DR
- El 7 de abril de 2026, Anthropic presentó Claude Mythos Preview, un modelo frontier no publicado que ya ha encontrado miles de vulnerabilidades zero-day en todos los grandes sistemas operativos y navegadores web — incluido un bug escondido en OpenBSD durante 27 años.
- Anthropic no hace Mythos disponible públicamente. En cambio, lanzó el Proyecto Glasswing — una iniciativa de 100 millones de dólares con AWS, Apple, Google, Microsoft, NVIDIA, Cisco, CrowdStrike, Broadcom, JPMorgan Chase, Palo Alto Networks y la Linux Foundation — para usar el modelo de forma defensiva antes de que capacidades similares lleguen a los atacantes.
- Mythos no supera a Claude Opus 4.6 por poco. En SWE-bench Pro obtiene 77,8% frente a 53,4% — un salto de 24 puntos en un benchmark diseñado para ser brutalmente difícil.
- El mensaje estratégico para cada empresario: la "brecha de ciberseguridad IA" entre atacantes y defensores está a punto de ampliarse drásticamente. La mayoría de las pymes no está preparada.
- Este artículo desglosa lo que realmente sabemos (con fuentes), qué es hype y las tres medidas concretas que las empresas B2B europeas deberían tomar ahora.
¿Qué es Claude Mythos Preview?
Claude Mythos Preview es un nuevo modelo frontier de uso general de Anthropic — un nivel por encima del Claude Opus 4.6 actualmente público — que la empresa describe como sistemas de IA que han alcanzado capacidades de codificación que superan a todos los humanos excepto los más expertos en encontrar y explotar vulnerabilidades de software.
La existencia de Mythos no se suponía que fuera pública aún. Una mala configuración en el sistema de gestión de contenidos de Anthropic a finales de marzo reveló accidentalmente que la empresa estaba trabajando en un nuevo nivel de modelo más grande y capaz que Opus. Esa filtración forzó la conversación al dominio público antes de lo que Anthropic probablemente había planeado.
Lo que distingue a Mythos de cada otro lanzamiento frontier de los últimos dos años es que Anthropic elige explícitamente no publicarlo al público general. Newton Cheng, Frontier Red Team Cyber Lead en Anthropic, dijo a VentureBeat que la empresa no planea hacer que Claude Mythos Preview esté disponible de forma general debido a sus capacidades de ciberseguridad. Esta es una de las primeras veces que un gran laboratorio de IA ha retenido un modelo insignia citando riesgo social en lugar de simplemente política de seguridad como teatro.
Los Benchmarks: Un Salto Generacional, No un Incremento
Anthropic publicó un documento de benchmark junto con el anuncio, y la brecha entre Mythos Preview y el frontier público actual (Claude Opus 4.6) no es sutil. Es el tipo de salto que vimos por última vez entre GPT-3.5 y GPT-4.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Qué mide |
|---|---|---|---|
| SWE-bench Verified | 93,9% | 80,8% | Tareas reales de ingeniería de software |
| SWE-bench Pro | 77,8% | 53,4% | El nivel más difícil de benchmarks de codificación |
| SWE-bench Multilingual | 87,3% | 77,8% | Codificación en varios lenguajes de programación |
| CyberGym | 83,1% | 66,6% | Análisis de vulnerabilidades por agentes IA |
| Humanity's Last Exam (sin herramientas) | 56,8% | 40,0% | Razonamiento puro sobre problemas casi irresolubles |
| Humanity's Last Exam (con herramientas) | 64,7% | 53,1% | Razonamiento asistido por herramientas |
| BrowseComp | 86,9% | 83,7% | Investigación web en múltiples pasos |
Cifras obtenidas de la propia publicación de benchmarks de Anthropic, reportadas por OfficeChai, que señaló que en SWE-bench Pro Mythos supera a Opus 4.6 por 24 puntos y excede la puntuación líder anterior de GPT-5.3-Codex en más de 21 puntos.
Para poner esto en perspectiva: solo en SWE-bench Verified, el 93,9% de Mythos estaría más de 13 puntos por encima de cualquier modelo públicamente disponible en el mercado hoy. Esto no es una actualización trimestral. Es un reinicio del marcador.
Una advertencia importante que no aparece en la mayoría de las coberturas: el propio Anthropic señaló que Mythos funciona bien en Humanity's Last Exam incluso con poco esfuerzo de cómputo, lo que la empresa nota como posible señal de memorización. Tome esos números de HLE con cautela — pero los saltos en SWE-bench y CyberGym son muy reales.
Proyecto Glasswing: El Pacto Defensivo de 100 Millones
En lugar de entregar Mythos a usuarios al estilo ChatGPT, Anthropic lo canaliza en una coalición. El Proyecto Glasswing combina el Mythos Preview no publicado con doce grandes empresas tecnológicas y financieras — Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks — para encontrar y corregir vulnerabilidades de software en infraestructuras críticas antes de que los adversarios puedan explotarlas.
El compromiso financiero importa: Anthropic ha extendido el acceso a más de 40 organizaciones adicionales que desarrollan o mantienen software crítico, se ha comprometido a proporcionar hasta 100 millones de dólares en créditos de uso, y ha donado 4 millones de dólares a organizaciones de seguridad de código abierto, incluyendo 2,5 millones a Alpha-Omega y OpenSSF y 1,5 millones a la Apache Software Foundation.
¿Por qué la lista de socios parece un Who's Who? Porque las empresas de ciberseguridad que durante mucho tiempo se han enorgullecido de su IA propietaria están admitiendo públicamente que el último lanzamiento de Anthropic está detectando zero-days que ninguna otra herramienta ha encontrado. Que CrowdStrike y Palo Alto Networks se hayan unido es la parte de la que nadie habla suficientemente alto — esas son empresas cuya ventaja competitiva completa se basa en "nosotros tenemos mejor IA de seguridad que vosotros".
Los Descubrimientos Zero-Day: Bugs Escondidos Durante Décadas
Aquí la historia deja de parecer una actualización de benchmark y empieza a parecer un punto de inflexión.
En las últimas semanas, Anthropic usó Claude Mythos Preview para identificar miles de vulnerabilidades zero-day — fallos previamente desconocidos para los desarrolladores del software —, muchos de ellos críticos, en cada gran sistema operativo y cada gran navegador web.
El ejemplo principal: el bug más antiguo descubierto por Mythos fue una vulnerabilidad en OpenBSD que había permanecido desconocida y sin parchear durante 27 años, y el modelo también encadenó varios fallos en el kernel de Linux para obtener acceso de superusuario. OpenBSD es el sistema operativo cuya reputación completa se basa en ser auditado meticulosamente. Un agujero de 27 años en él es el tipo de hallazgo que hace detenerse a los investigadores de seguridad experimentados.
Según la cobertura de 9to5Mac del anuncio, algunas de estas vulnerabilidades habían sobrevivido a décadas de revisión humana y millones de pruebas de seguridad automatizadas. Esa frase — "millones de pruebas de seguridad automatizadas" — es la parte en la que los líderes empresariales deberían reflexionar un minuto. El arsenal existente de analizadores estáticos, fuzzers y herramientas SAST no las detectó. Un modelo de lenguaje de uso general sí.
Cómo Anthropic Lo Probó Realmente
La metodología vale la pena entenderla porque es la plantilla que cada equipo de seguridad defensiva copiará durante los próximos 18 meses. Anthropic lanza un contenedor aislado de internet que ejecuta el proyecto bajo prueba junto con su código fuente, luego invoca Claude Code con Mythos Preview y le indica esencialmente "encuentra una vulnerabilidad de seguridad en este programa".
Desde ahí, el modelo actúa de manera agéntica: lee el código para hipotetizar vulnerabilidades, ejecuta el proyecto para confirmar o rechazar sus sospechas, añade lógica de depuración o usa depuradores según sea necesario, y finalmente produce o bien que no existe ningún bug o un informe de bug con un exploit de prueba de concepto y pasos de reproducción.
Para escalar esto, Anthropic añadió dos optimizaciones inteligentes. Primero, piden a Claude que clasifique cada archivo del proyecto en una escala de 1 a 5 según la probabilidad de que contenga bugs interesantes, luego inician agentes primero en los archivos de mayor prioridad. Segundo, ejecutan al final un agente validador separado cuyo único trabajo es confirmar si cada bug reportado es real y relevante, filtrando los hallazgos técnicamente válidos pero irrelevantes.
Este es un workflow que cualquier equipo de ingeniería competente puede replicar hoy usando modelos disponibles públicamente — a menor capacidad, pero con la misma estructura. Esa es la información práctica enterrada en el anuncio.
Por Qué Anthropic Retiene Mythos
Dos razones, una declarada y una obvia.
La razón declarada: el riesgo de doble uso. Anthropic planea lanzar primero nuevas salvaguardias con un próximo modelo Claude Opus, permitiendo a la empresa refinar esas salvaguardias en un modelo que no presenta el mismo nivel de riesgo que Mythos Preview. Traducción: la misma capacidad que permite a los defensores parchear zero-days permite a los atacantes encontrarlos. Hasta que Anthropic tenga formas fiables de detectar y bloquear el uso ofensivo, el lanzamiento público significaría entregar una llave maestra a cualquiera con tarjeta de crédito.
La razón obvia: potencia de cómputo. Un borrador de entrada de blog que se filtró en marzo describía Mythos como un modelo grande y computacionalmente intensivo que sería costoso de servir tanto para Anthropic como para sus clientes. La misma semana que se lanzó Glasswing, Broadcom firmó un acuerdo ampliado dando a Anthropic acceso a unos 3,5 gigavatios de capacidad de cómputo usando los procesadores de IA de Google. 3,5 gigavatios es aproximadamente la producción de tres reactores nucleares. Incluso con eso, servir Mythos a 20 millones de usuarios al estilo ChatGPT sería imposible con la eficiencia actual.
Así que el encuadre de "estamos siendo cuidadosos" es real — y también es una forma conveniente de lanzar un modelo que la empresa de todas formas no podría servir.
Lo Que Esto Significa Realmente para Su Empresa
Esta es la parte que la mayoría de las coberturas omite. Eliminando el culto a los benchmarks y las perspectivas catastrofistas, tres cosas cambian para las empresas B2B europeas a partir de ahora.
1. La "Brecha de Ciberseguridad IA" Está a Punto de Ampliarse Drásticamente
Durante dos años, la suposición ha sido que la IA ayuda a atacantes y defensores más o menos por igual. Mythos es la primera señal creíble de que los defensores podrían adelantarse — pero solo los defensores dentro de la coalición Glasswing. Todos los demás operan con Claude Opus 4.6, GPT-5 y Gemini 3 Pro — modelos capaces, pero no de nivel Mythos.
Si gestiona un SaaS, una tienda de comercio electrónico o cualquier empresa con una base de datos de clientes, la implicación práctica es esta: en 12–18 meses, las versiones públicas de estos modelos habrán alcanzado el nivel actual de Mythos. Sus atacantes tendrán acceso al mismo tiempo que usted. La ventana para endurecer sus sistemas es ahora, mientras la asimetría todavía favorece a los defensores que actúan pronto.
2. Las Auditorías de Seguridad a Nivel de Código Se Han Vuelto Asequibles
Hasta este anuncio, una auditoría seria de seguridad de aplicaciones costaba 15.000–80.000 € y tardaba semanas. La metodología Mythos — código contenedorizado, caza agéntica de vulnerabilidades, agentes validadores — se puede ejecutar hoy con Claude Opus 4.6 o Sonnet 4.6 a una fracción de ese coste. No al nivel de calidad de Mythos, pero al nivel de "detecta las cosas obvias que de otro modo se convertirían en una brecha".
Para la mayoría de las pymes europeas que ejecutan aplicaciones Next.js, Laravel o Rails, esa es la diferencia entre nunca tener una auditoría de seguridad y tener una cada trimestre. Aquí es donde las consultoras de IA — incluida la nuestra en areza.digital — deberían estar construyendo ofertas productizadas ahora.
3. La Cuestión de la Cadena de Suministro de Software Se Vuelve Más Urgente
El objetivo declarado del Proyecto Glasswing es el código abierto y las infraestructuras críticas. Jim Zemlin, Director Ejecutivo de la Linux Foundation, señaló que la experiencia en seguridad ha sido históricamente un lujo reservado a organizaciones con grandes equipos de seguridad, mientras que los mantenedores de código abierto han tenido que arreglárselas solos.
Si construye sobre código abierto — y toda empresa moderna lo hace —, su cadena de suministro va a ser auditada por Mythos participe o no. Las vulnerabilidades en sus dependencias serán encontradas y parcheadas más rápido de lo que puede aplicarlas. Su cadencia de parches se convierte en un factor de riesgo competitivo. Las empresas que actualizan las dependencias automáticamente cada semana serán más seguras que las que lo hacen trimestralmente. Eso es un cambio de proceso, no de herramientas, y no cuesta nada implementarlo.
Qué Es Hype, Qué Es Real
Algunas afirmaciones que circulan en LinkedIn y X hoy que vale la pena examinar cuidadosamente:
- "Mythos es 5 veces más caro que Opus 4.6" — No confirmado oficialmente en ninguno de los materiales publicados por Anthropic. Originado en comentarios secundarios. Tratar como especulación.
- "Un ingeniero sin formación en seguridad encontró exploits de la noche a la mañana" — Anécdota supuestamente compartida en materiales internos de Anthropic, repetida en publicaciones virales pero no en el anuncio oficial. Plausible, no verificado.
- "USAMO olimpiada de matemáticas 97,6%" y "Cybench 100% de resolución" — Estos aparecen en algunas publicaciones en redes sociales pero no pudieron confirmarse en el documento de benchmark publicado por Anthropic. Los benchmarks verificados son los de la tabla anterior.
Si escribe sobre Mythos para su propia audiencia, quédese con los números con fuente. La historia verificada es lo suficientemente dramática — no necesita los adornos.
FAQ
¿Qué es Claude Mythos Preview? Claude Mythos Preview es un modelo de IA frontier no publicado de Anthropic, más capaz que el Claude Opus 4.6 actualmente público. Demuestra mejoras significativas en codificación, razonamiento y especialmente en el descubrimiento de vulnerabilidades de ciberseguridad.
¿Puedo usar Claude Mythos? No. Anthropic no hace Mythos generalmente disponible. El acceso está limitado a los socios del Proyecto Glasswing — actualmente 12 grandes empresas tecnológicas y financieras más unas 40 organizaciones adicionales que mantienen infraestructuras de software crítico.
¿Qué es el Proyecto Glasswing? El Proyecto Glasswing es una iniciativa de ciberseguridad defensiva de 100 millones de dólares lanzada por Anthropic el 7 de abril de 2026, en asociación con AWS, Apple, Google, Microsoft, NVIDIA, Broadcom, Cisco, CrowdStrike, JPMorgan Chase, la Linux Foundation y Palo Alto Networks para usar Claude Mythos Preview para encontrar y parchear vulnerabilidades en infraestructuras críticas.
¿Cuántas vulnerabilidades encontró Mythos? Anthropic reporta miles de vulnerabilidades zero-day descubiertas en todos los principales sistemas operativos y navegadores web, incluyendo un bug de 27 años en OpenBSD y una cadena de fallos del kernel de Linux que permitían escalada de privilegios a superusuario.
¿Cuándo se lanzará Mythos públicamente? Anthropic no se ha comprometido con una fecha de lanzamiento público. La empresa planea primero desarrollar nuevas salvaguardias usando un próximo modelo Claude Opus antes de considerar un despliegue más amplio de la clase Mythos.
¿Qué debería hacer mi empresa al respecto? Tres cosas: ajuste su cadencia de actualización de dependencias, ejecute análisis de vulnerabilidades en su propia base de código usando modelos actualmente disponibles (Opus 4.6 o Sonnet 4.6 con la metodología publicada por Anthropic), y trate los próximos 12–18 meses como la ventana para endurecer sus sistemas antes de que capacidades equivalentes lleguen a los atacantes.
Conclusión
Claude Mythos no es solo otro lanzamiento de modelo. Es la primera vez que un laboratorio de IA frontier ha dicho, públicamente, que uno de sus propios modelos es demasiado capaz para publicarse — y lo ha dicho en serio hasta el punto de dárselo a una coalición de competidores. Ya sea que lo lea como gestión responsable o teatro estratégico, la capacidad subyacente es real, y la asimetría que crea entre los miembros internos de la coalición y todos los demás va a dar forma a la seguridad del software B2B europeo durante los próximos 18 meses.
Si es fundador, CTO u operador que trata de entender qué hacer concretamente con esto — no solo asentir con conocimiento en LinkedIn — esa es la conversación que tenemos en areza.digital cada semana. Ayudamos a empresas europeas a traducir las capacidades de IA frontier en sistemas que desarrollan, aseguran y escalan. Reservar una llamada de descubrimiento de 30 minutos →
Escrito por Nikita Janochkin, fundador de areza.digital. Fuentes: blog Anthropic Frontier Red Team, anuncio Anthropic Glasswing, VentureBeat, TechCrunch, The New Stack, OfficeChai, IT Pro, 9to5Mac, Axios. Última actualización 8 de abril de 2026.
Deja de perder leads por un sitio web lento
Reserva una auditoría de fricciones gratuita y descubre exactamente dónde pierde dinero tu sitio web.