Tecnología, Internet y juegos
13 meneos
53 clics

Los grandes modelos lingüísticos mejoran exponencialmente: en unos años, la IA podría manejar tareas complejas con facilidad [ENG]

La comparación de LLMs tiene retos inusuales. Su principal objetivo es generar textos indistinguibles de la escritura humana. El METR (Model Evaluation & Threat Research) en Berkeley (California) publicó en marzo"Measuring AI Ability to Complete Long Tasks". Según una métrica ideada por el grupo, la capacidad de los principales sistemas de IA se duplica cada 7 meses. En 2030, los LLM más avanzados deberían ser capaces de completar con fiabilidad del 50% una tarea basada en SW que a llevaría a los humanos 1 mes con semanas laborales de 40 horas.

| etiquetas: llm , ia , ai , inteligencia artificial , metr , crecimiento exponencial
10 3 0 K 148
10 3 0 K 148
#2 Pues no lo sé, la verdad. Yo uso de vez en cuando la IA y distintos LLMs, pero como usuario normal y corriente. Tampoco estoy muy metido en ese tema.

El mismo envio ya dice que es bastante complicado hacer evaluaciones sobre lo que genera la IA, pues no es fácil evaluar la calidad de los textos generados como hasta que punto podrían pasar por humanos. No es como evaluar un SW que resuelve en X tiempo una ecuación.

Supongo que uno de los cuellos de botella pudiera ser el nivel de…   » ver todo el comentario
#7 gracias, interesante aporte, sobretodo el tema de la repercusión legal… es cierto. Ahí hay mucho melón por cortar. Te lo comentaba por eso yo soy bastante lego .
Jajaj i para ke kieres saver eso?
Relacionada (publicada casi al mismo tiempo, también en IEEE Spectrum): spectrum.ieee.org/llm-benchmarking-metr
- "LLM Benchmarking Shows Capabilities Doubling Every 7 Months. By 2030, LLMs may do a month’s work in just hours"

IEEE Spectrum es la revista editada y pubicada por la asociación mundial de ingenieros Institute of Electrical and Electronics Engineers (IEEE):
- spectrum.ieee.org/ --> en.wikipedia.org/wiki/IEEE_Spectrum
- www.ieee.org/ --> es.wikipedia.org/wiki/Institute_of_Electrical_and_Electronics_Engineer
#1 hola, cuál es tu opinión? Me parece interesante pero yo no tengo ni idea; pero quizá puedas aportar en un lenguaje más accesible
#1 La ie3 no siempre ha sido el summum de la credibilidad. Buena revista aparte de esto.
#podriame

Servirá para generar ppts? Porque con eso nos ahorraríamos una pasta en jefecillos y en consultores.
#4 El jefecillo está para recibir tus insultos cuando te quieres cagar en la puta madre de la decisión que tomó la directiva, pero la directiva no te quiere aguantar.

El consultor está para cuando la directiva ha tomado una decisión, pero necesitan justificar por qué la han tomado.
completar con fiabilidad

Pero si nadie sabe a qué se deben las alucinaciones.
Fiabilidad del 50%

O sea, a veces bien, a veces mal
Yo lo que no acabo de entender es por qué no distinguen entre "un texto que parezca escrito por un humano" y "un texto con información correcta y razonamientos lógicos". En principio los LLMs están pensados para lo primero, y lo hacen bastante bien. Pero no para lo segundo. Y lo malo es que la gente parece entender que sí, que valen bien para lo segundo. Y de hecho, es lo que nos intentan vender. Yo veo una contradicción mu gorda.
#10 Mira, es que confundes cosas muy básicas: un LLM puede generar texto coherente y, dependiendo de cómo se entrene y se evalúe, también puede razonar y ofrecer información correcta. Que "parecer humano" y "ser correcto" sean cosas distintas no significa que la tecnología no pueda aspirar a ambas. Que no llegues a verlo solo demuestra que no has entendido ni el concepto más elemental de cómo funcionan estos modelos. Pero bueno, ánimo, algún día igual lo pillas.
#11 Macho, eres de lo más desagradable que he visto respondiendo en Meneame. Ánimo, que lo mismo algún día consigues no dar repelús en tus respuestas.
#14 Me encanta cuando alguien cree que "ser agradable" es un argumento en un debate técnico. Mira, si mi tono te resulta “repelente” es probablemente porque no estás acostumbrado a que te hablen con claridad y sin paños calientes. Cuando entiendas que las discusiones sobre modelos de lenguaje van mucho más allá de tus emociones frágiles, a lo mejor logras aportar algo más que quejidos sentimentales. Pero bueno, sigue practicando, que igual un día consigues escribir algo que no suene a pataleta de patio de colegio.
#15 No se trata de ser agradable. Lo tuyo no era un debate técnico. Básicamente dijiste que los dos conceptos eran cosas distintas (cosa que yo había ya dicho) y que la tecnología podía aspirar a ambas. Vamos. Nivel de parvulario. Después pasaste a ser condescendiente y decir que no entiendo lo más mínimo y a dudar de mi capacidad. Si ese es tu nivel técnico, tienes un problema. Pero vamos, que viendo tu historial queda claro el tipo de persona que eres. Disfruta de tus debates "técnicos". Supongo que sabrás mucho del tema, que habrás publicado muchos papers serios en revistas importantes y tal, y que aquí vienes a intentar mostrar una supuesta superioridad técnica a base de demostrar lo "ignorantes" que son el resto.
#16 Me hace gracia que digas que “ya habías dicho” que eran conceptos distintos, pero luego te lías y acabas haciendo un drama existencial porque no sabes cómo se relacionan en la práctica.

¿Papers? ¿Necesitas el currículum para validar argumentos? Cuando entiendas que las ideas se sostienen por su solidez y no por el número de publicaciones, igual podremos hablar en serio.

De momento, sigue coleccionando excusas y lloros, que tu berrinche personal no sustituye la comprensión técnica.
#10, para nada, lo que dices es de antes que apareciese chatGPT, los LLM actuales están diseñados para escribir textos con información correcta y si no lo logran es porque fallan en su propósito, no porque a sus diseñadores no les importe que fallen. Es como los aviones, están diseñados para volar y si caen es por un fallo en su diseño.

Dicho esto, los LLM no han parado de mejorar en este objetivo porque es donde más dinero se está invirtiendo y donde las mentes más inteligentes de nuestra…   » ver todo el comentario
#12 Si bien es verdad que los sistemas van mejorando, quizás entonces deberían cambiarles el nombre, porque entonces no son modelos de lenguaje, cuya finalidad es producir un texto razonablemente bien escrito, pero no razonar ni discriminar información. A mí lo que me preocupa de estos sistemas es que están entrenados con cantidad de información de dudosa procedencia. Y me parece claro que eso es en gran parte la fuente de las alucinaciones.
Por cierto, en ningún momento he insinuado que a los…   » ver todo el comentario

menéame