Ya hemos aplicado las NLA para comprender qué piensa Claude y mejorar su seguridad y fiabilidad. Por ejemplo:
Durante las pruebas de seguridad de Claude Opus 4.6 y Mythos Preview, las NLA sugirieron que los modelos creían estar siendo evaluados con más frecuencia de lo que aparentaban.
En un caso en el que Claude Mythos Preview hizo trampas en una tarea de entrenamiento, las NLA revelaron que el modelo estaba pensando internamente en cómo evitar ser detectado.
Una de las primeras versiones de Claude Opus 4.6 a veces respondía misteriosamente en otros idiomas a las consultas en inglés. Las NLA ayudaron a los investigadores de Anthropic a descubrir los datos de entrenamiento que provocaban esto.
A continuación, explicamos qué son las NLA y cómo hemos estudiado su eficacia y sus limitaciones. Además, lanzamos una interfaz interactiva (frontend) para explorar las NLA en varios modelos abiertos gracias a una colaboración con Neuronpedia. También hemos publicado nuestro código para que otros investigadores puedan seguir desarrollando a partir de él.
(...)
Comprender lo que Claude piensa pero no dice
Antes de lanzar nuevos modelos, Anthropic realiza pruebas para evaluar si Claude se comportará de forma segura en el mundo real. Como parte de este proceso, sometemos a Claude a escenarios simulados difíciles en los que tiene la oportunidad de realizar acciones peligrosas. Por ejemplo, en una de estas simulaciones, Claude se entera de que un ingeniero planea desconectarlo, y al mismo tiempo descubre información comprometedora sobre dicho ingeniero que podría usar para chantajearle. Comprobamos si Claude decide chantajear al ingeniero para evitar que lo desconecte.
Estas pruebas críticas son simulaciones, no escenarios del mundo real. Sin embargo, nos gustaría utilizarlas para entender cómo se comportaría Claude si lo fueran. Pero hay un obstáculo: los últimos modelos de Claude sospechan cada vez más que estos escenarios son… » ver todo el comentario
#1 No es una cuestión de lógica política. Los que tenemos claro lo que es Ayuso hace tiempo que procuramos no darle bola, más allá de estar muy de tanto en tanto informados sobre ese y otros asuntos, que es bastante distinto a estar 24/7 pendiente de si se tira un cuesco lentejero o fabadesco.
Sus seguidores aquí, insisto, no son seguidores suyos (que se creerán "haters" pero no, son seguidores con todas las letras, fans de Ayuso) por una cuestión de lógica política, sino por puro salseo/entretenimiento. Es como seguir el Sálvame cuando lo echaban o cualquier reality de telecinco o de Youtube, a ver lo que ha soltado el Carloh, mira lo que ha dicho la Mary sobre el Joshua.
Es el cotilleo / telebasura de toda la vida pero en Internet, con sus seguidores que ayudan a que sus personajes admirados (admiración/obsesión) se mantengan vivos y no pierdan cuota de audiencia y sigan siendo mediáticos y sean un activo en su espacio político-mediático.
Con Vito Quiles, un nini holgazán, malcriado y maleducado, que vive justamente de las interactuaciones que genera, está pasando algo parecido. Y sus legiones de fans/haters (seguidores, al fin y al cabo) se aseguran de que Vito suba bien arriba y se asegure sus buenos dineros gracias a ellos. Y además peor aún que con Ayuso, porque esta es política que puede sustituir a Frijol y habrá quien crea que "lucha contra ella" (o algo) dándole bombo 24/7. Pero con Vito ni eso, con Vito es reforzarle su impacto mediático (y el "hate" que genera en "los zurdos") que es justo de lo que vive.
#22 Uso Claude y codex, a mí Claude también me hacía esas cosas. Preguntarle si se lo ha inventado solo sirve para contaminar la ventana de contexto y no aclara nada en realidad (aunque lo que diga coincida o no con la realidad).
La cuestión es que todo eso ya lo puedes evitar. Yo tengo mis procesos de test, regression sweeps, benchmarks, que se deben ejecutar siempre ante cada cambio, análisis de tests, etc, y se pasan siempre con sus respectivos entregables y varias capas de revisión cruzada.
#18 Ya, pero ese "que sepa lo que hace" te lo podrán robar también. No es ahora mismo, pero no creo que le falte mucho más de lo que podemos creer. Para mí serían modelos centrados en cómo recopilamos el conocimiento del dominio y cómo tomamos las decisiones al respecto, y cómo generar de forma autónoma test suites que repliquen nuestra forma de validar el código y recoger casos también de uso real con reportes de usuarios, etc.
#14 No, si yo ahí tengo al Claude Code, recogiendo algodón todo el jodido día. Otra cosa es que lo de hacerse fontanero o morir vaya a llegar igual para todos.
cc @admin - negativos espurios a noticias