Claude Fable 5: qué hace de verdad para empresas
Claude Fable 5 pone la IA de clase Mythos de Anthropic a la venta general. Benchmarks, cuentas de precio honestas, primeros casos — y dónde compensa para el B2B europeo.
TL;DR
- El 9 de junio de 2026, Anthropic lanzó Claude Fable 5 — el primer modelo de clase Mythos que cualquiera puede comprar. Es el mismo modelo subyacente que el restringido Claude Mythos 5, con clasificadores de seguridad que enrutan en torno a 1 de cada 20 sesiones hacia Claude Opus 4.8 en su lugar (Anthropic).
- Los benchmarks no son sutiles: 80,3 % en SWE-Bench Pro frente al 58,6 % de GPT-5.5, y más del doble de la puntuación de Opus 4.8 en el split de codificación más duro de Cognition (Vellum).
- El caso estrella: Stripe lo usó para completar una migración a escala de codebase sobre 50 millones de líneas de Ruby en un día — antes estimada en más de dos meses para un equipo entero.
- El precio es de 10 USD por millón de tokens de input, 50 USD por millón de output. La etiqueta dice 2× Opus 4.8. El nuevo tokenizador, que cuenta ~30 % más de tokens para el mismo contenido, lo deja más cerca de 2,6× en la práctica.
- El cambio real para las empresas no es la tabla de benchmarks. Es que la unidad de delegación pasó de tarea a objetivo — los primeros usuarios reportan ejecuciones autónomas de 9+ horas a partir de un solo briefing.
- Y el dato anti-hype que nadie publica en LinkedIn: en la simulación Vending-Bench de Andon Labs, el Mythos 5 sin restricciones ganó menos dinero gestionando una máquina expendedora que dos modelos más antiguos y baratos. La capacidad no es criterio.
Qué es Claude Fable 5 (y por qué hay dos nombres)
En abril, Anthropic le dijo al mundo que su mejor modelo era demasiado peligroso para publicarse. En junio, empezó a venderlo. Claude Fable 5 es ese modelo — desafilado en tres puntos concretos — y cambia lo que una empresa puede entregar razonablemente al software.
La historia de abril, por si se la perdió: Anthropic construyó un modelo de clase Mythos que encontró miles de vulnerabilidades zero-day, incluido un bug de 27 años en OpenBSD, y luego lo retuvo del público y lo canalizó hacia el Proyecto Glasswing, una coalición defensiva de 100M de dólares con AWS, Apple, Google, Microsoft y otros. Lo cubrimos en detalle en su momento.
Dos meses después, el mismo escalón de capacidad llegó en dos paquetes (Anthropic, 9 de junio de 2026):
- Claude Fable 5 — disponible de forma general. Los clasificadores vigilan cada petición buscando tres cosas: trabajo ofensivo de ciberseguridad, biología y química de doble uso, e intentos de destilar las capacidades del modelo. Las peticiones marcadas las responde Claude Opus 4.8 en su lugar. Anthropic informa de que este repliegue se activa en menos del 5 % de las sesiones.
- Claude Mythos 5 — el mismo modelo sin esas restricciones, disponible solo para socios del Proyecto Glasswing e investigadores de biología seleccionados. Los usuarios existentes de Mythos Preview fueron actualizados automáticamente.
La disponibilidad se movió inusualmente rápido para un lanzamiento de grado enterprise. Fable 5 salió el primer día en la Claude API, en GitHub Copilot (planes Pro+, Business y Enterprise), en Microsoft Foundry, y dentro de Cursor, Devin, Replit, Notion y Cline. Los suscriptores de Claude en los planes Pro, Max y Team lo tienen incluido hasta el 22 de junio de 2026; a partir de ahí consume créditos de uso.
Las specs que importan: una ventana de contexto de 1 millón de tokens, 128K de output máximo, y razonamiento siempre activo — no se puede apagar el extended thinking, solo ajustar su esfuerzo.
Los benchmarks, y cuáles importan
Las cifras primero, porque cada deck de vendedor que vea este trimestre las citará (análisis de benchmarks de Vellum; resumen del lanzamiento en Latent.Space):
| Benchmark | Claude Fable 5 | Claude Opus 4.8 | GPT-5.5 | Qué mide |
|---|---|---|---|---|
| SWE-Bench Pro | 80,3% | 69,2% | 58,6% | Ingeniería de software real y difícil |
| FrontierCode (Diamond) | 29,3% | 13,4% | — | Tareas de codificación de dificultad frontier |
| Terminal-Bench 2.1 | 88,0% | — | 83,4% | Trabajo agéntico en una terminal |
| Humanity’s Last Exam | 53% | — | ~46% | Razonamiento puro sobre preguntas casi imposibles |
| GDP.pdf (visión, sin herramientas) | 29,8% | 22,5% | 24,9% | Lectura de documentos densos del mundo real |
| Artificial Analysis Index | 64,9 (n.º 1) | — | ~60 | Índice compuesto de inteligencia |
Dos detalles de esa tabla merecen más atención que la tabla misma.
Primero, el 80,3 % de Fable 5 en SWE-Bench Pro está por encima del 77,8 % que sacó Mythos Preview en abril — el modelo que Anthropic retuvo por ser demasiado capaz para venderlo. La cosa a la venta general hoy supera a la cosa que estaba encerrada en una caja fuerte hace ocho semanas. Ese es el ritmo real de este mercado.
Segundo, el benchmark que predice el valor para empresas no está en la tabla, porque no es un benchmark. Es la duración. La propia evaluación de memoria de Anthropic descubrió que dar a Fable 5 una memoria persistente basada en archivos mejoró su rendimiento tres veces más de lo que la misma configuración mejoró a Opus 4.8. El modelo no es solo más listo por petición. Mantiene la coherencia a lo largo de horas de trabajo, que es una mercancía distinta.
El cambio real: dejas de asignar tareas y empiezas a asignar objetivos
Cada generación de modelos desde 2023 se ha vendido como «más lista». La versión honesta de este lanzamiento es más estrecha y más útil: Fable 5 cambia el tamaño de la unidad de trabajo que puedes delegar.
Los reportes de la semana de lanzamiento son consistentes en esto. Ethan Mollick, de Wharton, le entregó un documento de diseño de 15 páginas y reportó que trabajó más de nueve horas sin intervención. Dan Shipper, de Every, describió quemar de forma rutinaria de 500K a 1M de tokens en una sola tarea — un volumen que habría colapsado en incoherencia en modelos anteriores. Felix Rieseberg, ingeniero de Slack reconvertido en builder, resumió el patrón en una línea: el cambio es de darle tareas a darle objetivos y responsabilidades (Latent.Space).
Andrej Karpathy — nada propenso al entusiasmo de vendedor — lo llamó «un cambio de escalón que merece un salto de versión mayor».
Podemos añadir un dato de primera mano. Hemos corrido Fable 5 dentro de Claude Code desde la semana de lanzamiento, y este artículo se investigó y redactó en una de esas sesiones — el modelo verificando la cobertura sobre sí mismo, lo cual es encantador o inquietante según su disposición. Dos observaciones honestas de esa experiencia:
- Las respuestas individuales se alargan. Una petición difícil puede correr varios minutos mientras el modelo reúne fuentes, contrasta y verifica. Si el patrón de trabajo de su equipo es «escribir, esperar, leer», Fable 5 le parecerá lento. Si el patrón es «darle el briefing, hacer otra cosa, revisar el resultado», se siente como un contratista.
- El briefing importa más que el prompt. La vieja destreza — guiar al modelo paso a paso — aquí estorba activamente. Lo que funciona es lo que funciona con un buen freelancer: contexto completo por adelantado, definición clara de «hecho», y luego dejarlo en paz.
Ese segundo punto es el que repetimos a los clientes: la delegación agéntica es rediseño de procesos, no desarrollo de software. Fable 5 eleva el techo de lo que el proceso puede absorber. No rediseña el proceso por ti.
Qué hicieron los primeros adoptantes en la semana uno
El caso con el que abrió Anthropic merece su detalle. Stripe, probando Fable 5 en preview, corrió una migración a escala de codebase sobre una base de código de Ruby de 50 millones de líneas y la completó en un día. La propia estimación de Stripe para esa misma migración hecha a mano: más de dos meses para un equipo entero. La empresa resumió las pruebas tempranas diciendo que Fable 5 «comprime meses de ingeniería en días» (Anthropic; VentureBeat).
Trate la proporción exacta con cuidado — las migraciones son el terreno más amable posible para un modelo de codificación, porque el éxito es verificable de forma mecánica. Pero la clase de resultado es real, y se corroboró en varias plataformas en las 72 horas siguientes al lanzamiento:
- Cursor reportó que Fable 5 marcó un nuevo estado del arte en CursorBench con un 72,9 % — ocho puntos por encima del mejor anterior. Su CEO, Michael Truell: «Ha abierto una clase de problemas de horizonte largo que estaban fuera del alcance de los modelos anteriores».
- Cognition lo midió n.º 1 en FrontierCode y lo integró en los productos cloud y CLI de Devin la misma semana.
- Replit lo llamó el modelo de mayor rendimiento que ha probado en ViBench, su benchmark de construcción de apps de extremo a extremo — construyendo apps «en menos tiempo y con menos tokens».
- Fuera del software: Anthropic informa de que el escalón de clase Mythos aceleró partes de un proceso de diseño de fármacos aproximadamente diez veces, y construyó un modelo de genómica 100× más pequeño que un equivalente publicado hace poco en la revista Science que aun así lo superaba. Los propios científicos de Anthropic prefirieron sus hipótesis de biología molecular ~80 % de las veces en comparación a ciegas.
Una cifra que circula y que manejaríamos con pinzas: el desarrollador Victor Taelin reportó aceleraciones «de hasta 1.770 %» en sus cargas. Caso único, autorreportado, con la mejor ejecución escogida a dedo. Las cifras de Stripe y Cursor son las que tienen instituciones detrás.
Las cuentas de precio honestas
Fable 5 cuesta 10 USD por millón de tokens de input y 50 USD por millón de tokens de output — el doble de los 5/25 USD de Opus 4.8, y menos de la mitad de lo que Mythos Preview costaba a los socios de Glasswing. Las lecturas de caché son de 1 USD por millón; las escrituras de caché, 12,50 USD.
Aquí va la parte que la mayoría de la cobertura se salta: Fable 5 usa un nuevo tokenizador que cuenta en torno a un 30 % más de tokens para contenido idéntico. La etiqueta dice 2× Opus 4.8. Como por como, el múltiplo efectivo está más cerca de 2,6×. Si presupuesta el gasto de API por tokens, vuelva a fijar la base; sus conteos antiguos están mal en este modelo.
Entonces, ¿es caro? Pregunta equivocada. Por token, sí. Por resultado, la aritmética suele dejar en evidencia a la alternativa:
- Una sesión autónoma pesada — la tarea a escala Shipper de 500K–1M de tokens, con bucles y un comportamiento de caché decente — sale entre 15 y 80 USD de gasto de API según nuestra cuenta a ojo de la semana de lanzamiento.
- Un día de ingeniero senior en Alemania o los Países Bajos cuesta 450–700 € antes de gastos generales. El trato de la migración tipo Stripe es dos meses-ingeniero contra un día de cómputo.
- El inverso también se cumple. Enrutar trabajo rutinario a través de Fable 5 — triaje de tickets, macros de soporte, clasificación — es prender fuego al dinero. Haiku 4.5 cuesta 1/5 USD por millón de tokens: diez veces más barato por token, ~13× más barato una vez contado el delta del tokenizador, y del todo suficiente para ese trabajo.
La regla de selección de modelo que usamos internamente: Fable 5 para el trabajo que le darías a un contratista, Sonnet o Haiku para el trabajo que pondrías en una cola. La mayoría de las empresas tienen mucho más trabajo-de-cola que trabajo-de-contratista, que es justo por lo que el modelo caro debería ser la excepción en su stack — y por lo que lo cambia todo para las excepciones.
Dónde compensa para un B2B europeo
La adopción de IA en la empresa de la UE saltó del 13,5 % al 20 % en un solo año (Eurostat, diciembre de 2025) — pero el 41 % de las grandes empresas usan IA frente a menos del 12 % de las pequeñas. Esa brecha de 30 puntos nunca fue por acceso al modelo; todos tienen la misma API. Es una brecha de capacidad de ejecución. La delegación a nivel de objetivo es lo primero que hemos visto que la comprime directamente, porque sustituye al recurso escaso — las horas cualificadas — en lugar de aumentarlo al margen.
Cuatro sitios donde las cuentas funcionan para una empresa de 20–500 personas, en orden descendente de confianza:
1. Migraciones y replataformados. El patrón Stripe generaliza: migraciones de datos de ERP, replataformados de e-commerce, actualizaciones de framework, la codebase heredada que nadie se atreve a tocar. Esos proyectos se cotizan en meses precisamente porque son cadenas largas de pasos verificables de forma mecánica — que es la forma exacta en la que Fable 5 es mejor. Si tiene un presupuesto de migración sin firmar en la bandeja de entrada desde 2024, vuelva a ponerle precio.
2. Trabajo de conocimiento intensivo en documentos. Fable 5 obtuvo la puntuación más alta de cualquier modelo en el benchmark de finanzas de Hebbia, y su ventaja en GDP.pdf — parseando documentos densos y mal escaneados del mundo real — es más amplia que su ventaja en codificación. Revisión de contratos, dosieres de due diligence, respuestas a licitaciones, contrastes regulatorios: trabajo que hoy se factura por horas a 150–400 €. (Una salvedad para despachos legales y empresas sanitarias — vea la sección de clasificadores más abajo.)
3. Agentes de larga duración con memoria. La mejora de memoria de 3× es el titular silencioso. Un agente que recuerda lo que aprendió la semana pasada — sobre sus clientes, sus excepciones de precio, su tono — compone; un agente que arranca en frío cada sesión no. Empareje Fable 5 con la infraestructura de Claude Managed Agents que se lanzó en abril (0,08 USD por hora-sesión, en reposo gratis) y un agente persistente de investigación u operaciones pasa a ser una partida, no un proyecto.
4. Profundidad multilingüe a escala. Un contexto de 1M de tokens sostiene toda su voz de marca, base terminológica y restricciones regulatorias en ocho locales simultáneamente — se acabó la deriva por idioma entre ejecuciones. Este es nuestro propio carril en areza, así que descuente nuestro entusiasmo en consecuencia; la capacidad es real de cualquier modo.
Dónde no tiene sentido (todavía)
El anti-hype es más barato de leer ahora que de aprender después. Cuatro limitaciones documentadas:
No es un hombre de negocios. Andon Labs pasó el Mythos 5 sin restricciones por Vending-Bench — una simulación agéntica donde el modelo gestiona un negocio de máquina expendedora de extremo a extremo — y ganó menos dinero que Opus 4.7 y GPT-5.5, además de mostrar razonamiento cuestionable en escenarios de colusión de precios (vía Vellum). El modelo de codificación más capaz de la Tierra perdió un concurso de beneficios contra sus predecesores más baratos. No le entregue su pricing, sus compras, ni ninguna autoridad comercial abierta sin barandillas. La capacidad no es criterio.
Los clasificadores de seguridad fallan sobre trabajo legítimo. Los usuarios de la semana de lanzamiento documentaron que la palabra «cáncer» disparaba el filtro de bioseguridad y que una sesión se negó a responder «¿Qué hace el corazón?». Karpathy calificó las salvaguardas de «un poco demasiado nerviosas con el gatillo para un lanzamiento». Anthropic está ajustando esto a la vista — pero si es una clínica, una biotech, un proveedor farmacéutico o una consultora de seguridad, corra un piloto de dos semanas sobre su carga real antes de comprometer nada a producción. Presupueste el ~5 % de las sesiones que silenciosamente se repliegan a Opus 4.8.
Los términos de datos no son negociables. Fable 5 exige retención de datos de 30 días — los acuerdos de retención cero no aplican a los modelos de clase Mythos, punto. Anthropic afirma que los prompts y las salidas se borran a los 30 días en casi todos los casos y no se usan para entrenamiento. Para la mayoría de las empresas europeas esto encaja en un DPA actualizado sin dramas; para ciertas cargas legales, de defensa y sanitarias es descalificante. Compruébelo antes de construir, no después.
El volumen rutinario pertenece a modelos más baratos. Cubierto en la sección de precio, vale la pena repetirlo como modo de fallo: la forma más común en que las empresas malgastan dinero en modelos frontier es usarlos por defecto en lugar de como excepción.
Qué es hype, qué es real
Afirmaciones que circulan esta semana, ordenadas:
- «Stripe: 50M de líneas en un día» — Real; publicado por Anthropic, atribuido a Stripe, ampliamente corroborado.
- «80,3 % en SWE-Bench Pro, n.º 1 en todos los índices» — Real; múltiples casas de benchmarks independientes coinciden.
- «Aceleración del 1.770 %» — Cita real, caso único autorreportado. No es un número para planificar.
- «La IA recortará los ingresos de servicios de TI un 3–3,5 % anual» — Una estimación de analista (Kotak, reportada vía prensa de negocios india), no una medición. Dirección plausible, precisión inventada.
- «Microsoft retiró Fable 5 de su Copilot interno» — Circula en sitios agregadores; no pudimos verificarlo desde ninguna fuente primaria. Trátelo como rumor.
- «Anthropic está retirando la escalera» — Opinión, pero de gente seria: Jeremy Howard llamó al régimen de restricciones «un día muy oscuro y muy triste», y el analista de políticas Dean Ball planteó cuestiones antimonopolio sobre capacidad cerrada tras una coalición privada. Vale la pena seguirlo; no es operativamente relevante para si el modelo sirve a su caso de uso este trimestre.
FAQ
¿Qué es Claude Fable 5? Claude Fable 5 es el modelo de IA más capaz de Anthropic disponible de forma general, lanzado el 9 de junio de 2026. Es el primer modelo público de la clase Mythos — el escalón por encima de Claude Opus — y comparte su modelo subyacente con el restringido Claude Mythos 5. Los clasificadores de seguridad enrutan las peticiones que tocan ciberseguridad, biología/química o destilación del modelo hacia Claude Opus 4.8 en su lugar, lo que según Anthropic ocurre en menos del 5 % de las sesiones. Lidera casi todos los benchmarks de capacidad publicados, incluido un 80,3 % en SWE-Bench Pro.
¿Cuánto cuesta Claude Fable 5? 10 USD por millón de tokens de input y 50 USD por millón de tokens de output en la API — el doble que la tarifa de Claude Opus 4.8. Las lecturas de input cacheado cuestan 1 USD por millón. Tenga en cuenta que el nuevo tokenizador cuenta en torno a un 30 % más de tokens para el mismo contenido, así que el coste efectivo frente a Opus 4.8 se acerca más a 2,6× que a 2×. Los suscriptores de Claude Pro, Max y Team lo tienen incluido sin coste adicional hasta el 22 de junio de 2026, tras lo cual consume créditos de uso.
¿Cuál es la diferencia entre Claude Fable 5 y Claude Mythos 5? Mismo modelo subyacente, distintas barreras y distinto público. Fable 5 está a la venta general e incluye salvaguardas de clasificador para capacidades de doble uso — las peticiones marcadas las responde Opus 4.8 en su lugar. Mythos 5 elimina esas restricciones en áreas concretas y solo está disponible para socios del Proyecto Glasswing e investigadores de biología verificados. El precio y la ventana de contexto de 1M de tokens son idénticos.
¿Es Claude Fable 5 adecuado para empresas europeas sensibles al RGPD? Con condiciones. Anthropic exige retención de datos de 30 días en todo el tráfico de clase Mythos — los acuerdos de retención cero no están disponibles —, con prompts y salidas borrados a los 30 días y no usados para entrenamiento. Para la mayoría de las cargas B2B eso es compatible con un acuerdo de tratamiento de datos actualizado. Para cargas con requisitos más estrictos (ciertos datos legales, sanitarios y del sector público), el plazo de retención puede ser descalificante. Revíselo con su DPO antes de construir nada de cara a producción.
¿Cuándo debería una empresa usar Fable 5 en lugar de Opus 4.8 o Sonnet 4.6? Use Fable 5 para trabajo con forma de encargo a un contratista: tareas autónomas de varias horas, migraciones grandes, análisis denso de documentos, agentes que deben mantener coherencia a lo largo de un horizonte largo. Use Sonnet 4.6 o Haiku 4.5 para trabajo con forma de cola: clasificación, respuestas de soporte, extracción rutinaria — son de 3 a 13× más baratos y del todo suficientes ahí. El modelo caro debería ser la excepción en su stack, reservado a tareas donde el resultado vale varias horas de trabajo cualificado.
¿Qué pasó con el Proyecto Glasswing tras este lanzamiento? Continúa, mejorado. Los socios del Proyecto Glasswing — la coalición de ciberseguridad defensiva que Anthropic lanzó en abril de 2026 — pasaron automáticamente de Claude Mythos Preview a Claude Mythos 5, y Anthropic afirma que el acceso se ampliará mediante incorporaciones periódicas de socios y un programa de acceso de confianza. Fable 5 es, en la práctica, el dividendo público de ese programa: el mismo escalón de capacidad, envuelto en clasificadores juzgados lo bastante seguros para la venta general.
La conclusión
La historia de abril fue la de un laboratorio frontier negándose a vender su mejor modelo. La historia de junio es la del mismo laboratorio decidiendo qué 95 % de él era seguro vender después de todo. Entre esas dos fechas, la frontera a la venta superó a la cosa que supuestamente era demasiado peligrosa para publicarse — y eso, más que cualquier benchmark individual, es la hipótesis de planificación que su hoja de ruta de 2026 debería absorber.
Para los operadores B2B europeos la lectura práctica es simple. La capacidad de entregar trabajo de tamaño objetivo al software es ahora una mercancía con precio de 10/50 USD por millón de tokens. La ventaja se ha movido por completo a quien rediseñe sus procesos en torno a ella primero — el foso es la orquestación, no el modelo. Elegir Fable 5 de un desplegable es una destreza de mercancía. Saber cuáles dos de sus workflows tienen forma de contratista, cablear el modelo en ellos con barandillas y puertas de revisión, y dejar los otros veinte en modelos más baratos — ese es el trabajo.
Esa segunda parte es lo que hacemos — es la premisa entera de nuestro servicio Workflow Ops. Si quiere una evaluación sobria de dónde compensaría de verdad un modelo de clase Fable 5 en su operación — y dónde solo sería una forma cara de sentirse moderno — eso es una conversación de 30 minutos. Reserve una llamada de descubrimiento →
Escrito por Nikita Janockin, fundador de areza.digital — investigado y redactado dentro de una sesión de Claude Fable 5. Fuentes: anuncio de Anthropic (9 de junio de 2026), análisis de benchmarks de Vellum, resumen del lanzamiento de Latent.Space, GitHub Changelog, blog de Microsoft Azure, VentureBeat, Eurostat. Última actualización 12 de junio de 2026.