edición general
DiThi

DiThi

En menéame desde abril de 2006

8,87 Karma
3.685 Ranking
7 Enviadas
2 Publicadas
1.297 Comentarios
8 Notas

El Gobierno propone a la Unión Europea acabar con el cambio de hora a partir de 2026 [319]

  1. Siempre igual, y nunca funciona porque lo proponen siempre para el AÑO SIGUIENTE para lo cual no da tiempo a implementar cambios. Si lo propusieran para al menos 2 años de previsión sería mucho más factible.

ChatGPT y el resto de IAs podrían ser un espejismo demasiado caro para sostenerse: “Las grandes compañías de inteligencia artificial enfrentan un déficit de ingresos de 800.000 millones de dólares” [118]

  1. #116 Cuando digo llama.cpp me refiero al software, y cuando digo llama a secas me refiero al modelo de meta. Llama.cpp puede ejecutar todos los demás que he mencionado, suponiendo que tengas suficiente RAM para el quant que vayas a usar.
  1. #109 Llama.cpp lleva el nombre del modelo de meta, pero llama en sí no es muy allá hoy en día. Los modelos chinos como GLM, Qwen, Kimi K2 y Deepseek lo superan con creces.

    Para generación de imágenes no hay MoEs. Hay uno para generación de vídeos pero es pequeño y no es para tirar cohetes.
  1. #97 Pues por ejemplo con llama.cpp y la opción --cpu-moe con un modelo MoE (mixture of experts). Por ejemplo:

    llama-server -m Qwen3-30B-A3B-Thinking-2507-UD-Q5_K_XL.gguf --ctx-size 16384 --gpu-layers 99 --cpu-moe --jinja

    Ese modelo en particular son solo 22 GB. Si tienes 64 GB de RAM o más, recomiendo GLM-4.5-Air (o el 4.6 cuando salga).
  1. #29 No es difícil ejecutar modelos grandes teniendo suficiente memoria DDR4, no hacen falta gráficas super caras de data center si no estás intentando proveer a mucha gente a la vez.
  1. #54 Llama no es "abierto en todos los sentidos", pues no publican los datos de entrenamiento. Hay muy poquitos modelos que son totalmente open source, como OLMo-2 y SmolLM3. Y encima han dejado de publicar pesos abiertos (no sabemos si llama 5 será abierto). Solo empezaron porque el primer llama se filtró e hicieron como si hubiera sido a propósito para colgarse la medalla del "open source".

    Pero si hablas de open source en el tema de software para entrenar los modelos y todos los detalles técnicos para conseguirlo, hay muchos LLMs chinos que lo hacen: DeepSeek ha contribuído un montón de mejoras en el campo, y también moonshot y z.ai aportando innovaciones construyendo sobre el trabajo de DeepSeek, todos ellos abaratando mucho los costes (tanto de entrenamiento como de inferencia).

    De hecho han abaratado tanto los costes que hacen la burbuja aun más absurda.

La IA obliga a cambiar los trabajos escolares: los profesores piden ahora reflexión sobre las tareas y vuelven a la oralidad [106]

  1. #45 Fuentes, citaciones, referencias. Pídeles a tus alumnos que documenten bien de donde sale la información. Ahora es más imporante que nunca. Sin ello la gente no aprenderá a distinguir qué es verda de lo que no. Sin ello la ciencia no podrá avanzar.

Los creadores de DeepSeek, la IA china que noqueó a Silicon Valley, desvelan sus secretos [75]

  1. #30 prueba GLM 4.5
  1. #50 Habla de los instruct templates, creo. De estructurar por ejemplo los mensajes sistema/asistente/usuario mediante tokens especiales.
  1. #14 En machine learning, "end of sentence" y "end of sequence" se usan de forma intercambiable. Ambos significan lo mismo, un token especial para parar la generación.

    Un LLM base es cierto que siguen generando indefinidamente. Pero un LLM fine-tuned para instrucción (que lo son todos los que se usan para chatbot) está entrenado con los tokens especiales para que pueda seguir instrucciones y "decidir" que es hora de parar. De hecho puedo alargar o acortar las respuestas cambiando el bias del logit de EOS. O sea subir o bajar la probabilidad de que emita el token de EOS. Si me paso de bias, se queda generando hasta el infinito, y se ralla porque no está entrenado para seguir hablando.
  1. #71 Sigo sin saber de que hablas. Encoder del modelo BERT? OpenAI fue quien les quitó el encoder para hacer GPT. Los LLM actuales no tienen encoder. Son decoder-only.

    Si hablas del entrenamiento en FP8 directamente, eso es solo una de las diferencias de algunos de los modelos chinos con los occidentales. Los chinos han sacado muchas otras innovaciones que también benefician mucho al entrenamiento en 16 bits en el tema de ahorro de energía.
  1. #69 De quienes estás hablando? Yo uso modelos abiertos chinos que no tienen nada que envidiar a gemini...
  1. #18 No sé qué quieres decir. Lo que yo estoy diciendo es que están creando modelos que cuestan mucho menos de entrenar. No es que "usen" un modelo más barato, sino que hacen ellos un modelo más barato.

    Edit: si hablas de modelo de GPU, eso es parte del coste, sí, pero la mayor parte de los costes son la electricidad.
  1. No es la única. Hay unas cuantas empresas chinas de IA (la mayoría son pequeñas y desconocidas) que le están dando de palos a EEUU consiguiendo entrenar a IAs por una fracción del coste con innovaciones como la de deepseek, y encima publican esas IAs como pesos abiertos y publican como lo hacen. Pero la gente tarda en enterarse, por eso a la burbuja aun le queda un rato.

Chat Control 2.0: el plan de vigilancia masiva que quiere implementar la Unión Europea [134]

  1. #95 Totalmente de acuerdo. Es terrible lo mires como lo mires.
  1. Hecha la ley, hecha la trampa. El 99.99% de delincuentes que podrían cazar con esto sabrán evitar el escaneo de mensajes. No pueden hacer nada contra un linux live y un tor browser.

    Esto no sirve para evitar CSAM y sirve mucho para espiarnos a todos y que luego haya leaks accidentales de datos privados de todos.
  1. #22 Se supone que el análisis se haría en el mismo dispositivo, con una IA pequeña o lo que sea, solo enviando lo que es sospechoso. Y luego ya una IA más grande puede detectar muchas más cosas. Pero el hecho de que funcione o no es irrelevante. Es un ataque a nuestra privacidad de cualquier modo y debemos oponernos.

Los datos que desmienten a Vox: España tiene el doble de extranjeros que en 2005 y una tasa de delincuencia más baja [129]

  1. #64 Ten en cuenta que no podemos saber si han subido de verdad o tan solo se reportan más.
  1. #22 Has leído el artículo que enlazas? Desmonta la noción de que los extranjeros sean más delictivos.

Una experta en seguridad alimentaria avisa: "los ultraprocesados están diseñados para crear adicción, y lo consiguen" [53]

  1. #41 No hay pruebas de que haya adicción real a la sal, glutamato, grasa, etc. pero sí al azúcar. En particular la fructosa (que además se metaboliza de forma muy similar al etanol).

    www.sciencedirect.com/science/article/pii/S2161831322011073
  1. #21 La adicción no necesita tener un efecto psicoactivo asociado (aparte de los mecanismos de recompensa) para considerarse adicción. El azúcar produce este efecto. Especialmente la fructosa, que no tiene un efecto saciante asociado, pues en la naturaleza siempre ha venido acompañada de algo (como la fibra alimentaria) que sí que produce saciedad.
  1. #34 Por la misma razón que se echa sal, estimula un tipo de papilas gustativas (en este caso umami en lugar de salado). El hecho de que esté presente en el sistema nervioso no significa nada.

    La adicción lo produce el azúcar.
  1. #8 La principal sustancia adictiva es el azúcar. El glutamato monosódico no es adictivo de por sí.

Anthropic se enfrenta a una demanda por derechos de autor que podría poner fin a su negocio (EN) [54]

  1. #15 Algunos modelos chinos ya son mejores que claude, y encima son modelos abiertos

Cómo es Kimi K2, el nuevo modelo de IA de China que marca “otro momento DeepSeek”, según la revista Nature [42]

  1. Son muchos modelos abiertos chinos dominando el panorama: No solo deepseek y kimi k2, también está GLM-4.5, qwen 3 coder, y varios más.
« anterior1

menéame