#69, sobre el papel sí, en la práctica cuestan mucho de entrenar. Hoy por hoy los modelos que funcionan mejor para problemas como LLM, generación de imagen o incluso visión por computador están hechos a mano a base de convoluciones, transformes, modelos de difusión o autoencoders. No digo que no tengan utilidad en problemas basados en aprendizaje por refuerzo, pero en muchos otros las arquitecturas hechas a mano son las que se están utilizando más.
#60 hmmmm, no se, no se
Conseguir la mejor precisión, o la métrica que te interese, es solo parte del problema. Después ese modelo hay que llevarlo a producción y mil historias. Pero si nos centramos en mejorar la precisión, esas técnicas también ayudan a conseguir mejor poder predictivo. Algunos ejemplos que me vienen a la cabeza:
- NAS consigue igual o mejor poder predictivo que las arquitecturas diseñadas a mano
- reducir el tamaño de los modelos sirve como regularization lo cual ayuda a generalizar
- Generative AI ya esta ayudando a diseñar mejores elementos en otras industrias, creo que es solo cuestión de tiempo que la arquitecturas de los modelos también se aprenda o diseñe automáticamente.
Volviendo al punto inicial, creo que la barrera entre lo que se puede aprender y no de manera automática es borrosa. Con el tiempo, esa linea se ha ido moviendo para abarcar mas y es difícil saber donde esta limite. Si me pongo el gorr de Nostradamus: yo creo que al final el ingeniero tendrá que crear unas especificaciones (minimo nivel predictivo en base a unas metrics, latencia, coste, nivel de fairness, etc) e iterar con un agente que propone diferentes diseños y ejecuta experimentos.