Tecnología, Internet y juegos
87 meneos
628 clics
La herramienta IA OpenClaw borra la bandeja de entrada del director de AI Alignment de Meta a pesar de las repetidas órdenes de detenerla [EN]

La herramienta IA OpenClaw borra la bandeja de entrada del director de AI Alignment de Meta a pesar de las repetidas órdenes de detenerla [EN]

El ejecutivo tuvo que apagar manualmente la IA para impedir que el bot siguiera borrando datos (...) Como muchos otros entusiastas, Yue tenía una configuración con un Mac Mini y OpenClaw ejecutándose en él para diversas tareas. Mientras Claw archivaba correos electrónicos antiguos de algunas cuentas, ella también le pidió que «revisara también esta bandeja de entrada y le sugiriera qué archivar o eliminar, sin tomar ninguna medida hasta que yo se lo indicara» (sic; énfasis nuestro). Claw comenzó a borrar toda la bandeja de entrada.

| etiquetas: openclaw , meta , correo electrónico
55 32 0 K 308
55 32 0 K 308
Comentarios destacados:              
#9 #2 Y, la casualidad, que es precisamente una de las cosas que comentaba aquí: www.meneame.net/story/amazon-enfrenta-caida-13-horas-aws-tras-cambios-
Pero es que además da igual que las órdenes estén en la ventana de contexto porque, igualmente, el modelo puede saltárselo a la torera ya que cada vez que el modelo predice autoregresivamente hay una posibilidad nada desdeñable de que el modelo infiera algo completamente contrario a la intención de las normas dadas y el contexto previo. Lo cual sólo se puede solucionar con pragmatismo y entendimiento que los modelos de lenguaje no tienen (porque no hay nadie al volante, ni siquiera un alguien artificial).

Es lo que yo llamo el problema del genio de la lámpara: si le pides algo a un modelo de lenguaje, el modelo encontrará más maneras de "cumplir tu deseo mal o de manera mediocre" que maneras de "cumplir tu deseo bien o de

…...
Ja, ja, ja....JA JA JA JA Claw ¡TIRA DEL CABLE! ¡TIRA DEL CABLE!
#3 No diréis después que Skynet no dio avisos.
Supongo que sería algo así:

"Eh, OpenClaw, quiero empezar a usar la técnica inbox cero con mi correo"
"Perfecto, aquí tienes, tu bandeja de entrada vacía. ¿Quieres que además te cree una firma?"
#24 Premio.
#19 yo solo te cuento mi experiencia con integración de LLMs via API oficial, en este caso era Gemini vía VertexAI pero podría ser cualquier otra. En la sección de las instrucciones principales del prompt se ponen todos los requisitos, e hice la prueba exactamente con el mismo prompt que teníamos en producción, poniendo y quitando una línea con una instrucción negativa, y el resultado fue que había un porcentaje de error apreciablemente inferior quitando esa instrucción. Al final lo que hicimos…   » ver todo el comentario
#20 tremendo
#20 Muy interesante lo que cuentas, gracias {0x1f44f} {0x1f44f}
#20 Curiosamente es el mismo consejo que se da en educación infantil. No ordenar en negativo, por ejemplo decir "se bueno" a "no seas malo", o "vete a jugar" en lugar de "no toques eso"
Quien lo iba a saber? Ya veo a la gente dandole acceso de root y que sea imposible de hacerle sigterm
Hay que ser un auténtico gilipollas para darle a Clawbot acceso a la bandeja de entrada de tu correo principal.
#22 Hay que ser burro para ponerte un agente en local. Así, en general.

Como si costase tanto esfuerzo leerse el correo por la mañana y contestar alguno.
#23 ¿Cuántos mensajes al día crees que recibirá ese tipo de gente?
#26 Pueden borrar el 80% y no pasaría nada.
#26 Y por ello cobra.
Al final pudo salvar parte de su correo, apagando todos los procesos de la IA en el Mac xD
#1 mencionan una cosa interesante en el artículo, tú le puedes decir al principio “ni de coña hagas esto”, pero si se le acaba el contexto y tiene que resumir lo que lleva de momento para que pueda seguir trabajando… pues lo mismo no entra en el resumen esa instrucción inicial.

Vamos, que además de alucinar es como si tuvieran demencia senil. Cada día más útiles.
#2 Esas instrucciones tienen que ir externas para que sean comprobables siempre de forma adicional. No pueden depender únicamente del contexto inicial que puede ser resumido.
#2 #7 una cosa parecida que me ha ocurrido trabajando en integraciones con LLMs es que al ponerle una instrucción negativa en el prompt, por ejemplo: "No aceptes X", aceptaba más veces lo que le decía en X que si no se lo ponía. Y esto lo validé con un test A/B separando los datos en dos grupos iguales, de varias miles de muestras cada uno, en un prompt con la instrucción negativa y en el otro sin ella, y lo confirmé. Y tiene todo el sentido del mundo, porque estás…   » ver todo el comentario
#17 Tener que eliminar toda forma de revisión humana lo veo complicado, pero lo de evitar "no hacer X" usando varias capas de verificación y que haya restricciones en los cambios que son independientes del contenido del contexto sí se puede hacer.
#17 muy interesante esto que dices, pensaba que a pesar de no tener compresión humana si ponías un “no” y detrás un verbo sería suficiente para que no lo usaran.

Pero no, son simple estadística a lo bestia, más tontas que un autobús lleno de directivos.

¿Se te ha ocurrido publicarlo como un estudio serio?
#21 hombre, para hacer un estudio serio pues habría que hacer una investigación seria, y lo que yo hice no fue más que una pequeña investigación para optimizar un caso de uso específico en nuestra empresa. Para hacerlo extrapolable a cualquier caso habría que echarle muchas horas, además de tener unos conocimientos matemáticos y científicos en general de los que no dispongo.
#17 Obedeciendo a las restricciones negativas no hay ninguno que se salve, se pegan patadas con el NO.
Se puede mejorar a base de instrucciones positivas:
En lugar de "No aceptes X" es mejor "Excluye terminantemente cualquier caso X. El ambito de actuación estará restringido unicamente a Y".
Aunque tampoco es infalible...
#39 es exactamente lo mismo, pero con otras palabras. Al final si tienes un sistema de revisión automática tienes que ponerle de una forma u otra los casos que aceptas y los casos que no aceptas, no sirve con solo poner los que aceptas, por lo tanto si o si en algún momento tendrás que poner frases en negativo. Lo único que queda es encontrar la forma de hacerlo que te de el mejor resultado.

Pero eso es solo un detalle que se puede solucionar, o como poco tratar de mejorar, con prueba y…   » ver todo el comentario
#46 Es lo mismo pero no es lo mismo. Con las instrucciones negativas se llevan explícitamente mal, porque no razonan la negación como verificador lógico, solo como patrones de texto. Por eso es fácil que se acabe focalizando en el X y no en el ¬X. Puedes restringir igualmente usando instrucciones positivas para decir los casos que "no" aceptas.
#2 #7 Pensaba que las instrucciones iniciales formaban parte del contexto
#34 A ver, forman parte del contexto inicial y pueden dejar de formar parte de él cuando se resume contexto. Por eso necesitas unas instrucciones que sean "políticas" que metes por ejemplo en un fichero aparte y que siempre tenga que consultarlas. Formarán parte del contexto debido a ello, pero dará igual que resuma el historial porque a cada prompt deberá buscar las instrucciones. Evidentemente si no usas una herramienta que haga ese prompt interno de inyección de las instrucciones,…   » ver todo el comentario
#2 Y, la casualidad, que es precisamente una de las cosas que comentaba aquí: www.meneame.net/story/amazon-enfrenta-caida-13-horas-aws-tras-cambios-
Pero es que además da igual que las órdenes estén en la ventana de contexto porque, igualmente, el modelo puede saltárselo a la torera ya que cada vez que el modelo predice autoregresivamente hay una posibilidad nada desdeñable de que el modelo infiera algo completamente contrario a la…   » ver todo el comentario
#9 bueno, es un directivo, no un ingeniero. Lo que has puesto en negrita es 100% correcto. :troll:
#9 La IA hace todo más rápido y la caga relativamente poco. Eso si, cuando la caga, no tiene parangón humano la pedazo cagada que hace.
#29 es la version exponencial de "no hay nada con maqs peligro que un tonto trabajador"
#29: No te creas, un humano usando la función "sustituir todos" puede ser peor:
x.com/MZBS/status/1808796517852913888 #renfecito #renfe #becarios #pwned
cadenaser.com/nacional/2024/07/05/renfe-responde-a-la-polemica-sobre-s
Espero que no le pongan al becario al mando de una base de datos SQL. :-P
#9 francamente. No sabe lo que es una memoria.... Confiar en el contexto compreso es un puto suicidio. Empiezo a pensar si solo es una noticia de engagement baiting. Porque no tiene sentido
#9 Cómo decir que no tienes ni puta idea de LLMs sin decir que no tienes ni puta idea de LLMs.

Eso sí, como comentario sensacionalista/emocional para palmaditas de los del bar está cojonudo. Una buena ilustración de por qué en cualquier situación empresarial cualquiera elegiría a un LLM antes que alguien que escribe comentarios así.

Concuerdo contigo en esto:

"Si este ese tipo es un "especialista en IA" que Dios nos pille confesados, porque estamos en manos de absolutos idiotas."

Abrazo.
#2 Y no van mejorando. Me pasó ayer con ChatGPT. Le paso un imagen y le pido que extraiga el texto. Sólo extrae un par de oraciones. Le digo que falta texto por extraer, se disculpa, y vuelve a sacarme el mismo resultado :shit: Por suerte hay muchas alternativas.
#10 eso mismo me pasaba con Nano Banana. A lo primero hace cambios pero a poco que quería matizar o indicar algo que faltaba me devolvía la misma imagen una y otra vez. Mucho hype (justificado) pero esto me hacía quitarle muxhos puntos.
#12 El truco es descargar la imagen y volver a empezar, pero es muy frustrante, sí.
#12 eso es una cache para reducir costes, a mi también me ha ocurrido en Gemini, como te dice #14 tienes que iniciar una nueva conversación y cambiarle el prompt por completo, y aún así a veces te devuelve el mismo resultado.

Y esto ocurre ahora que los departamentos de IA tienen prácticamente presupuesto infinito, tienen que recortar por todos lados porque sino el gasto se les va de las manos. Imaginad en cuanto empiecen a recortar e intentar sacar beneficios de verdad, estará todo ultra…   » ver todo el comentario
#10 el tema es si le pides que sobre el texto extraído haga otra tarea, se va empeorando el resultado, no te fijas y das por bueno el resultado.
#16 Pues sí, con el modelo de agentes pasaría eso. Cada agente está encargado de una tarea, y uno de ellos podría hacer una chapuza como la que me pasó con ChatGPT. Y claro, al final es responsabilidad del humano darse cuenta de ello :shit:
#10 El otro dia estaba haciendo uso de paypal sdk para php, le pido a chatgpt que me implemente el codigo para hacer un crud de productos, planes y subscripciones, sin dudarlo me lo hizo todo ... el sdk en php no tiene soporte para producto y planes. SE LO INVENTO TODO ...
#42 pues no le pidas que te haga la documentación para pasar la ISO 27001, que verás que risa.
#2 No llamemos "alucinar" a lo que es realmente "cometer una cagada del quince". Es un eufemismo de aquellos hipnotizados por la IA que creen que piensa.
#2 Cualquiera que se instale una IA en su sitema con el equivalente a admin/root access, que es lo que hace Claw, merece todo lo malo que le pase, por subnormal.
#2 Por eso hay que blindar el System prompt, que es donde van esas instrucciones, para evitar la deriva de contexto
Hasta cierto punto, relacionada:
www.meneame.net/story/gobierno-eeuu-da-ultimatum-anthropic-eliminar-re
Total, ¿Qué puede salir mal?. :roll:
Algo sabria la ia que no somos capaces de discernir, o algo queria del ejecutivo. Hay que tomarlo como en "el secreto". El universo te habla. En este caso no el universo, es la ia la que te habla.
Los caminos de la ia son inescrutables
Ojo que estos experos inversores y hombres de negocios, lo están apostando todo a esto. Capitalismo poético.
Aún recuerdo mi primera o segunda interacción con una IA. Estaba buscando comparar coches y pedí un listado de modelos de coche a la venta en España que cumpliesen una serie de criterios que le di. No hubo manera. Me sacaba una lista, sí, pero ya lo de cumplir los requisitos pedidos como que se le hacía bola. Algunos sí, otros no, y otros ni cerca.
Otras experiencias que tuve fue con generadores de imágenes. Le pides ciertas características y si tienes suerte las cumple, pero como se deje…   » ver todo el comentario
¡Vaya! Al final la inteligencia artificial también puede fallar como la inteligencia natural de su antigua secretaria. :troll:
#6 Pero si hubiese fallado la secretaria él podría enfadarse, pegarle la bronca y despedirla... ahora debe asumir que es culpa suya.

Creo que el puesto de secretaria está salvado, al menos de secretaria de jefes gordos.
#8 Hasta que inventen las robopilinguis :troll:
#15 Ya verás que risas cuando le pongan a la robopilingui una mandíbula hidráulica de 250kg por cm2.
Es una tecnología que lleva pocos años aquí y la gente eso no lo entiende. A día de hoy para cosas concretas bien, para cosas complicadas todavía es pronto (si es que llega a ese punto algún día). Yo normalmente cuando la uso reviso las respuestas con espíritu crítico, sin creérmelo solo porque sí.
Es como cuando le dices a tu hijo que no haga una cosa. Se distrae, se le olvida y la acaba haciendo.

Y la misma situación cuando le dices que haga algo. O la hace en el momento o ya sabes lo que pasará.

Hay que aprender a crear prompts más efectivos :troll:
Resumen: el director de AI aligmnent de Meta es gili*****. Y doblemente porque esto ha salido a la luz por lo que se lo contó a alguien
#43 Artificially intelligent. Eso es lo que es el director.

menéame