El programa tesseract-ocr fue comprado por Google a HP hace varios años y la verdad es que reconoce incluso el texto en varias columnas, cosa que ni la versión 7 del famoso software de reconocimiento óptico de caracteres (OCR) de Adobe es capaz de hacer.
Comentarios
OCR libre en Ubuntu, Windows y próximamente en GNU/Linux y Mac OS X
¿Desde cuándo Ubuntu no es GNU/Linux?
Lee la noticia y te responderás a tu pregunta
Relacionado y lo mismo a alguno le interesa.
Hay un módulo python para hacer OCR usando tesseract que se llama PyTesser
http://code.google.com/p/pytesser/
No se que tal funcionará porque lo tengo en marcadores pendiente de probar
Bueno, hace ya muchos años OmniPage reconocia textos en multiples columnas, y lo hacia de maravilla, de una forma practicamente insuperable.
Sí, pero en Open Source y encima en el ñú? Qué más se puede pedir?
Gracias por el aporte Zootropo