Publicado hace 17 años por maeghith a google-code-updates.blogspot.com

En inglés. Tesseract OCR, un soft de OCR desarrollado por los laboratorios de HP entre 1985 y 1995, ha sido retomado por Google que ha corregido algunos bugs importantes, y lo ha publicado en sourceforge bajo una licencia libre. No es apto para documentos demasiado complejos, y sólo funciona en inglés, pero en Google afirman que es el OCR open source más preciso existente en la actualidad. Como dato adicional, la entrada dice que en Google buscan buenos ingenieros OCR (para contratarlos).

Comentarios

D

Otra Cosa Rara

a

Exacto. Ahora para ciertos usos basta con archivar la imagen de documento sin pasarlo a texto, porque uno de los motivos para hacer tal cosa era el ahorro de espacio, pero lógicamente un OCR continua siendo realmente interesante en muchas situaciones. ¿Como haces para buscar palabra en una imagen de un documento?

k

#1 Que tu lo ignores no significa que los demás también. Las siglas OCR son conocidas por casi cualquier persona que haya tenido alguna vez un scanner, ya que la mayoría de los programas están en inglés. No nos culpes de tu ignorancia.

Polmac

Qué manía de copiar la costumbre yanki de decirlo todo en siglas... que levante la mano el que supiera qué es OCR antes de ver el contenido del enlace. Alguno se las dará de guay diciendo que lo sabía, pero la mayoría creo que no, así que por favor... si algo no es MUY conocido, ¡¡siglas no!!

Por cierto, ya que estoy, significa Optical Character Recognition, osea, reconocimiento óptico de caracteres.

D

Pues que quieres que te diga, pero hace mucho tiempo (año 95-98) el tema de usar OCR para escanear libros y enciclopedias era algo "habitual" para hacer "trabajos del cole, instituto y universidad" Claro está... en el 97-98 un módem a 33.600 lo cambió todo

D

#1, yo lo sabía, y tal y como dice #4 todos los que hemos tenido/tenemos escáner lo conocemos

arcangel2p

#1. Yo tb lo sabía.
Además yo pienso que es muy útil una herramienta de OCR para libros de texto, novelas ...etc. Me imagino que todo esto debe ir ligado con el Google Books.

c

yo le veo util para aplicaciones de archivo documental. los que hay hasta ahora .. clara etc de opensource dejan mucho que desear.. espero que tenga soperte de castellano.. pronto

pdp

Pero en la licencia pone esto acerca de una parte del código:

We require a brief acknowledgement in any research
paper or other publication where this software has made a significant
contribution. If you wish to use it for commercial gain you must contact
The MITRE Corporation for conditions of use.

Esto no es entonces del todo libre, ¿no? Aunque el resto está bajo la licencia Apache.

Polmac

#4 Me parece un poquito prepotente llamarme ignorante por no saber algo que el 99% de la población española desconoce. Me acabo de inventar el dato, pero te animo a que hagas un sondeo entre tus conocidos, a ser posible entre gente "normal", tú ya me entiendes.

Buenos días.

D

#9, que no sea gratis para uso comercial no quiere decir que no sea libre... ¿cuántas veces tenemos que decir que libre no es igual a gratis?

Y #10, tu actitud sí que es prepotente, porque mínimo la cuarta parte de la gente sabe lo que es un OCR... al menos en mi pueblo (porque hasta mi padre sabe lo que es un OCR, y eso que se trata de un negado en la informática). Si tú no lo sabes, no dés por hecho que casi nadie lo sabe

Polmac

#11 OK, mis disculpas entonces, seré yo el equivocado. Pero sigue sin estar de más poner el significado de las siglas en la noticia