edición general
51 meneos
346 clics
La herramienta IA OpenClaw borra la bandeja de entrada del director de AI Alignment de Meta a pesar de las repetidas órdenes de detenerla [EN]

La herramienta IA OpenClaw borra la bandeja de entrada del director de AI Alignment de Meta a pesar de las repetidas órdenes de detenerla [EN]

El ejecutivo tuvo que apagar manualmente la IA para impedir que el bot siguiera borrando datos (...) Como muchos otros entusiastas, Yue tenía una configuración con un Mac Mini y OpenClaw ejecutándose en él para diversas tareas. Mientras Claw archivaba correos electrónicos antiguos de algunas cuentas, ella también le pidió que «revisara también esta bandeja de entrada y le sugiriera qué archivar o eliminar, sin tomar ninguna medida hasta que yo se lo indicara» (sic; énfasis nuestro). Claw comenzó a borrar toda la bandeja de entrada.

| etiquetas: openclaw , meta , correo electrónico
Ja, ja, ja....JA JA JA JA Claw ¡TIRA DEL CABLE! ¡TIRA DEL CABLE!
Quien lo iba a saber? Ya veo a la gente dandole acceso de root y que sea imposible de hacerle sigterm
Hay que ser un auténtico gilipollas para darle a Clawbot acceso a la bandeja de entrada de tu correo principal.
#22 Hay que ser burro para ponerte un agente en local. Así, en general.

Como si costase tanto esfuerzo leerse el correo por la mañana y contestar alguno.
#23 ¿Cuántos mensajes al día crees que recibirá ese tipo de gente?
#26 Pueden borrar el 80% y no pasaría nada.
#26 Y por ello cobra.
#19 yo solo te cuento mi experiencia con integración de LLMs via API oficial, en este caso era Gemini vía VertexAI pero podría ser cualquier otra. En la sección de las instrucciones principales del prompt se ponen todos los requisitos, e hice la prueba exactamente con el mismo prompt que teníamos en producción, poniendo y quitando una línea con una instrucción negativa, y el resultado fue que había un porcentaje de error apreciablemente inferior quitando esa instrucción. Al final lo que hicimos…   » ver todo el comentario
#20 tremendo
Al final pudo salvar parte de su correo, apagando todos los procesos de la IA en el Mac xD
#1 mencionan una cosa interesante en el artículo, tú le puedes decir al principio “ni de coña hagas esto”, pero si se le acaba el contexto y tiene que resumir lo que lleva de momento para que pueda seguir trabajando… pues lo mismo no entra en el resumen esa instrucción inicial.

Vamos, que además de alucinar es como si tuvieran demencia senil. Cada día más útiles.
#2 Esas instrucciones tienen que ir externas para que sean comprobables siempre de forma adicional. No pueden depender únicamente del contexto inicial que puede ser resumido.
#2 #7 una cosa parecida que me ha ocurrido trabajando en integraciones con LLMs es que al ponerle una instrucción negativa en el prompt, por ejemplo: "No aceptes X", aceptaba más veces lo que le decía en X que si no se lo ponía. Y esto lo validé con un test A/B separando los datos en dos grupos iguales, de varias miles de muestras cada uno, en un prompt con la instrucción negativa y en el otro sin ella, y lo confirmé. Y tiene todo el sentido del mundo, porque estás…   » ver todo el comentario
#17 Tener que eliminar toda forma de revisión humana lo veo complicado, pero lo de evitar "no hacer X" usando varias capas de verificación y que haya restricciones en los cambios que son independientes del contenido del contexto sí se puede hacer.
#17 muy interesante esto que dices, pensaba que a pesar de no tener compresión humana si ponías un “no” y detrás un verbo sería suficiente para que no lo usaran.

Pero no, son simple estadística a lo bestia, más tontas que un autobús lleno de directivos.

¿Se te ha ocurrido publicarlo como un estudio serio?
#21 hombre, para hacer un estudio serio pues habría que hacer una investigación seria, y lo que yo hice no fue más que una pequeña investigación para optimizar un caso de uso específico en nuestra empresa. Para hacerlo extrapolable a cualquier caso habría que echarle muchas horas, además de tener unos conocimientos matemáticos y científicos en general de los que no dispongo.
#17 Obedeciendo a las restricciones negativas no hay ninguno que se salve, se pegan patadas con el NO.
Se puede mejorar a base de instrucciones positivas:
En lugar de "No aceptes X" es mejor "Excluye terminantemente cualquier caso X. El ambito de actuación estará restringido unicamente a Y".
Aunque tampoco es infalible...
#2 #7 Pensaba que las instrucciones iniciales formaban parte del contexto
#2 Y, la casualidad, que es precisamente una de las cosas que comentaba aquí: www.meneame.net/story/amazon-enfrenta-caida-13-horas-aws-tras-cambios-
Pero es que además da igual que las órdenes estén en la ventana de contexto porque, igualmente, el modelo puede saltárselo a la torera ya que cada vez que el modelo predice autoregresivamente hay una posibilidad nada desdeñable de que el modelo infiera algo completamente contrario a la…   » ver todo el comentario
#9 bueno, es un directivo, no un ingeniero. Lo que has puesto en negrita es 100% correcto. :troll:
#9 La IA hace todo más rápido y la caga relativamente poco. Eso si, cuando la caga, no tiene parangón humano la pedazo cagada que hace.
#29 es la version exponencial de "no hay nada con maqs peligro que un tonto trabajador"
#9 francamente. No sabe lo que es una memoria.... Confiar en el contexto compreso es un puto suicidio. Empiezo a pensar si solo es una noticia de engagement baiting. Porque no tiene sentido
#2 Y no van mejorando. Me pasó ayer con ChatGPT. Le paso un imagen y le pido que extraiga el texto. Sólo extrae un par de oraciones. Le digo que falta texto por extraer, se disculpa, y vuelve a sacarme el mismo resultado :shit: Por suerte hay muchas alternativas.
#10 eso mismo me pasaba con Nano Banana. A lo primero hace cambios pero a poco que quería matizar o indicar algo que faltaba me devolvía la misma imagen una y otra vez. Mucho hype (justificado) pero esto me hacía quitarle muxhos puntos.
#12 El truco es descargar la imagen y volver a empezar, pero es muy frustrante, sí.
#10 el tema es si le pides que sobre el texto extraído haga otra tarea, se va empeorando el resultado, no te fijas y das por bueno el resultado.
#16 Pues sí, con el modelo de agentes pasaría eso. Cada agente está encargado de una tarea, y uno de ellos podría hacer una chapuza como la que me pasó con ChatGPT. Y claro, al final es responsabilidad del humano darse cuenta de ello :shit:
#2 No llamemos "alucinar" a lo que es realmente "cometer una cagada del quince". Es un eufemismo de aquellos hipnotizados por la IA que creen que piensa.
#2 Cualquiera que se instale una IA en su sitema con el equivalente a admin/root access, que es lo que hace Claw, merece todo lo malo que le pase, por subnormal.
#2 Por eso hay que blindar el System prompt, que es donde van esas instrucciones, para evitar la deriva de contexto
Algo sabria la ia que no somos capaces de discernir, o algo queria del ejecutivo. Hay que tomarlo como en "el secreto". El universo te habla. En este caso no el universo, es la ia la que te habla.
Los caminos de la ia son inescrutables
Supongo que sería algo así:

"Eh, OpenClaw, quiero empezar a usar la técnica inbox cero con mi correo"
"Perfecto, aquí tienes, tu bandeja de entrada vacía. ¿Quieres que además te cree una firma?"
Ojo que estos experos inversores y hombres de negocios, lo están apostando todo a esto. Capitalismo poético.
Hasta cierto punto, relacionada:
www.meneame.net/story/gobierno-eeuu-da-ultimatum-anthropic-eliminar-re
Total, ¿Qué puede salir mal?. :roll:
¡Vaya! Al final la inteligencia artificial también puede fallar como la inteligencia natural de su antigua secretaria. :troll:
#6 Pero si hubiese fallado la secretaria él podría enfadarse, pegarle la bronca y despedirla... ahora debe asumir que es culpa suya.

Creo que el puesto de secretaria está salvado, al menos de secretaria de jefes gordos.
#8 Hasta que inventen las robopilinguis :troll:
Es como cuando le dices a tu hijo que no haga una cosa. Se distrae, se le olvida y la acaba haciendo.

Y la misma situación cuando le dices que haga algo. O la hace en el momento o ya sabes lo que pasará.

Hay que aprender a crear prompts más efectivos :troll:

menéame