DeepSeek lanzó el lunes un nuevo modelo de inteligencia artificial (IA) de código abierto que cambia la forma en que estas máquinas analizan y procesan texto sin formato. Apodado DeepSeek-OCR, utiliza mapeo 2D para convertir texto en píxeles y comprimir un contexto largo a un tamaño digerible. La startup de inteligencia artificial afirma que los modelos de lenguaje grandes (LLM) son más eficientes en el procesamiento de píxeles sobre texto y la compresión les permite capturar información relevante para generar la respuesta. Además, también...
|
etiquetas: ia , código abierto , deepseek-ocr , tratamiento , textos , imágenes
github.com/deepseek-ai/DeepSeek-OCR
deepseekaiapi.com/image-to-text-converter
DeepSeek-OCR presenta una técnica novedosa para procesar texto
Basado en tecnología de reconocimiento óptico de caracteres (OCR), lo último Búsqueda profunda El modelo de IA utiliza un nuevo método para procesar información. Primero convierte texto simple en imágenes y luego analiza el contenido para generar respuestas. La promesa es que al leer el texto de una… » ver todo el comentario
No dudo de la eficacia del método, pero me recuerda poderosamente al juego del teléfono estropeado.
Ya con la explicación de #1 entiendo que transforma el texto en imágenes conceptuales. O sea, que si un texto de 100 palabras está definiendo una casa pequeña, con techo a dos aguas, junto a un lago, en un día soleado, blablabla, pues genera una "foto" de esa info, que después puede volver a interpretar.
El concepto suena interesante, suena al típico "una imagen vale más que mil palabras", pero se me hace cotnraintuitivo que sea más eficiente convertir y desconvertir texto a imagen que tokenizar el texto. Además de la posible pérdida de información, contexto o detalles semánticos que sucedan en el proceso.