Siempre igual, y nunca funciona porque lo proponen siempre para el AÑO SIGUIENTE para lo cual no da tiempo a implementar cambios. Si lo propusieran para al menos 2 años de previsión sería mucho más factible.
#116 Cuando digo llama.cpp me refiero al software, y cuando digo llama a secas me refiero al modelo de meta. Llama.cpp puede ejecutar todos los demás que he mencionado, suponiendo que tengas suficiente RAM para el quant que vayas a usar.
#109 Llama.cpp lleva el nombre del modelo de meta, pero llama en sí no es muy allá hoy en día. Los modelos chinos como GLM, Qwen, Kimi K2 y Deepseek lo superan con creces.
Para generación de imágenes no hay MoEs. Hay uno para generación de vídeos pero es pequeño y no es para tirar cohetes.
#29 No es difícil ejecutar modelos grandes teniendo suficiente memoria DDR4, no hacen falta gráficas super caras de data center si no estás intentando proveer a mucha gente a la vez.
#54 Llama no es "abierto en todos los sentidos", pues no publican los datos de entrenamiento. Hay muy poquitos modelos que son totalmente open source, como OLMo-2 y SmolLM3. Y encima han dejado de publicar pesos abiertos (no sabemos si llama 5 será abierto). Solo empezaron porque el primer llama se filtró e hicieron como si hubiera sido a propósito para colgarse la medalla del "open source".
Pero si hablas de open source en el tema de software para entrenar los modelos y todos los detalles técnicos para conseguirlo, hay muchos LLMs chinos que lo hacen: DeepSeek ha contribuído un montón de mejoras en el campo, y también moonshot y z.ai aportando innovaciones construyendo sobre el trabajo de DeepSeek, todos ellos abaratando mucho los costes (tanto de entrenamiento como de inferencia).
De hecho han abaratado tanto los costes que hacen la burbuja aun más absurda.
#45 Fuentes, citaciones, referencias. Pídeles a tus alumnos que documenten bien de donde sale la información. Ahora es más imporante que nunca. Sin ello la gente no aprenderá a distinguir qué es verda de lo que no. Sin ello la ciencia no podrá avanzar.
#14 En machine learning, "end of sentence" y "end of sequence" se usan de forma intercambiable. Ambos significan lo mismo, un token especial para parar la generación.
Un LLM base es cierto que siguen generando indefinidamente. Pero un LLM fine-tuned para instrucción (que lo son todos los que se usan para chatbot) está entrenado con los tokens especiales para que pueda seguir instrucciones y "decidir" que es hora de parar. De hecho puedo alargar o acortar las respuestas cambiando el bias del logit de EOS. O sea subir o bajar la probabilidad de que emita el token de EOS. Si me paso de bias, se queda generando hasta el infinito, y se ralla porque no está entrenado para seguir hablando.
#71 Sigo sin saber de que hablas. Encoder del modelo BERT? OpenAI fue quien les quitó el encoder para hacer GPT. Los LLM actuales no tienen encoder. Son decoder-only.
Si hablas del entrenamiento en FP8 directamente, eso es solo una de las diferencias de algunos de los modelos chinos con los occidentales. Los chinos han sacado muchas otras innovaciones que también benefician mucho al entrenamiento en 16 bits en el tema de ahorro de energía.
#18 No sé qué quieres decir. Lo que yo estoy diciendo es que están creando modelos que cuestan mucho menos de entrenar. No es que "usen" un modelo más barato, sino que hacen ellos un modelo más barato.
Edit: si hablas de modelo de GPU, eso es parte del coste, sí, pero la mayor parte de los costes son la electricidad.
No es la única. Hay unas cuantas empresas chinas de IA (la mayoría son pequeñas y desconocidas) que le están dando de palos a EEUU consiguiendo entrenar a IAs por una fracción del coste con innovaciones como la de deepseek, y encima publican esas IAs como pesos abiertos y publican como lo hacen. Pero la gente tarda en enterarse, por eso a la burbuja aun le queda un rato.
Hecha la ley, hecha la trampa. El 99.99% de delincuentes que podrían cazar con esto sabrán evitar el escaneo de mensajes. No pueden hacer nada contra un linux live y un tor browser.
Esto no sirve para evitar CSAM y sirve mucho para espiarnos a todos y que luego haya leaks accidentales de datos privados de todos.
#22 Se supone que el análisis se haría en el mismo dispositivo, con una IA pequeña o lo que sea, solo enviando lo que es sospechoso. Y luego ya una IA más grande puede detectar muchas más cosas. Pero el hecho de que funcione o no es irrelevante. Es un ataque a nuestra privacidad de cualquier modo y debemos oponernos.
#41 No hay pruebas de que haya adicción real a la sal, glutamato, grasa, etc. pero sí al azúcar. En particular la fructosa (que además se metaboliza de forma muy similar al etanol).
#21 La adicción no necesita tener un efecto psicoactivo asociado (aparte de los mecanismos de recompensa) para considerarse adicción. El azúcar produce este efecto. Especialmente la fructosa, que no tiene un efecto saciante asociado, pues en la naturaleza siempre ha venido acompañada de algo (como la fibra alimentaria) que sí que produce saciedad.
#34 Por la misma razón que se echa sal, estimula un tipo de papilas gustativas (en este caso umami en lugar de salado). El hecho de que esté presente en el sistema nervioso no significa nada.