Anthropic ha presentado Claude Sonnet 4.5, un modelo de inteligencia artificial que, según la empresa, trabajó durante 30 horas seguidas para replicar Slack, generando unas 11.000 líneas de código sin supervisión y deteniéndose únicamente al completar la tarea. En mayo, la versión anterior, Opus 4, había logrado mantener su funcionamiento por siete horas. Anthropic lo promociona como "el mejor modelo del mundo para agentes, programación y uso de ordenadores".

¿Por qué importa esto? Anthropic compite con OpenAI y Google en la carrera por dominar los agentes autónomos y las herramientas de programación, un campo con enorme potencial de ingresos por licencias empresariales. Scott White, responsable de producto, comenta que Claude Sonnet 4.5 funciona “al nivel de un jefe de gabinete”, capaz de coordinar agendas, analizar datos y redactar informes. Dianne Penn lo utiliza para buscar candidatos en LinkedIn y generar hojas de cálculo.

Sin embargo, los desarrolladores ofrecen una visión más crítica. Miguel Ángel Durán (@midudev) explica que Claude Sonnet 4.5 reestructuró por completo su proyecto tras un único prompt, creando 14 archivos nuevos y modificando 1.500 líneas con arquitectura limpia, pero que nada funcionaba: “Pero qué bonito fue”. Otros usuarios también reportan lo mismo: código con una estructura impecable, pero que no compila ni funciona correctamente. Parece profesional, pero fracasa al ejecutarse.

Además, Anthropic no ha mostrado el Slack funcionando ni ha probado que el código generado sea operativo, lo que genera dudas. Ed Zitron destaca la diferencia entre anunciar un logro y demostrarlo.

La compañía, de forma indirecta, reconoce las limitaciones. Claude Sonnet 4.5 llega acompañado de infraestructura adicional para gestionar agentes, como máquinas virtuales, memoria, contexto y soporte multiagente. Esto implica que, incluso con un modelo avanzado, los desarrolladores necesitan herramientas extra para que los agentes programen de manera fiable.

Dianne Penn dijo a The Verge que el equipo se sorprendió con las mejoras, señalando que el modelo es tres veces más hábil en el uso de ordenadores que la versión de octubre. Han estado trabajando con retroalimentación de GitHub y Cursor, y Canva, que participa como beta-tester, afirma que ayuda con tareas complejas de largo plazo.

Lo que queda claro es que existe una gran brecha entre el marketing y la realidad técnica. Anthropic promete una IA capaz de construir software complejo durante horas, pero los desarrolladores confirman que, aunque el código generado tiene buena estructura, funciona mal o colapsa. Este patrón se repite en toda la industria: los modelos avanzan creando código que parece profesional, pero fallan al generar código funcional sin una importante intervención humana.

Entonces, la pregunta sigue abierta: ¿cuándo veremos una IA capaz de producir código funcional de forma totalmente autónoma? Anthropic apuesta por combinar un modelo potente con infraestructura adicional para cerrar esa brecha, pero por ahora, seguimos esperando pruebas concretas, no solo promesas sin código verificable.

↗

fuente original

https://www.xataka.com/robotica-e-ia/anthropic-dice-que-claude-sonnet-4-5-puede-clonar-servicio-como-slack-30-horas-realidad-complicada

ver →

etiquetas:inteligencia artificial desarrollo de software modelos de ia tooling para programación competencia tecnológica limitaciones de ia industria tecnológica