Eli
149meneos

Google hace open source un soft OCR

En inglés. Tesseract OCR, un soft de OCR desarrollado por los laboratorios de HP entre 1985 y 1995, ha sido retomado por Google que ha corregido algunos bugs importantes, y lo ha publicado en sourceforge bajo una licencia libre. No es apto para documentos demasiado complejos, y sólo funciona en inglés, pero en Google afirman que es el OCR open source más preciso existente en la actualidad. Como dato adicional, la entrada dice que en Google buscan buenos ingenieros OCR (para contratarlos).

etiquetas: software libre, google, ocr, hp
negativos: 0  usuarios: 149  anónimos: 0  compartir:  twitter  facebook  friendfeed
  1. #1   Qué manía de copiar la costumbre yanki de decirlo todo en siglas... que levante la mano el que supiera qué es OCR antes de ver el contenido del enlace. Alguno se las dará de guay diciendo que lo sabía, pero la mayoría creo que no, así que por favor... si algo no es MUY conocido, ¡¡siglas no!!

    Por cierto, ya que estoy, significa Optical Character Recognition, osea, reconocimiento óptico de caracteres.
    votos: 0, karma: 6
    por Polmac el 31-08-2006 01:42 UTC
  2. #2   Pues que quieres que te diga, pero hace mucho tiempo (año 95-98) el tema de usar OCR para escanear libros y enciclopedias era algo "habitual" para hacer "trabajos del cole, instituto y universidad" :D Claro está... en el 97-98 un módem a 33.600 lo cambió todo ;)
    votos: 0, karma: 6
    por durky el 31-08-2006 04:45 UTC
  3. #3   Exacto. Ahora para ciertos usos basta con archivar la imagen de documento sin pasarlo a texto, porque uno de los motivos para hacer tal cosa era el ahorro de espacio, pero lógicamente un OCR continua siendo realmente interesante en muchas situaciones. ¿Como haces para buscar palabra en una imagen de un documento?
    votos: 0, karma: 9
    por acastro el 31-08-2006 04:54 UTC
  4. #4   #1 Que tu lo ignores no significa que los demás también. Las siglas OCR son conocidas por casi cualquier persona que haya tenido alguna vez un scanner, ya que la mayoría de los programas están en inglés. No nos culpes de tu ignorancia.
    votos: 0, karma: 7
    por kNo el 31-08-2006 06:29 UTC
  5. por --2030-- el 31-08-2006 06:57 UTC
  6. por --8552-- el 31-08-2006 09:03 UTC
  7. #7   #1. Yo tb lo sabía.
    Además yo pienso que es muy útil una herramienta de OCR para libros de texto, novelas ...etc. Me imagino que todo esto debe ir ligado con el Google Books.
    votos: 0, karma: 6
    por arcangel2p el 31-08-2006 09:32 UTC
  8. #8   yo le veo util para aplicaciones de archivo documental. los que hay hasta ahora .. clara etc de opensource dejan mucho que desear.. espero que tenga soperte de castellano.. pronto
    votos: 0, karma: 6
    por chipword el 31-08-2006 09:47 UTC
  9. #9   Pero en la licencia pone esto acerca de una parte del código:

    We require a brief acknowledgement in any research
    paper or other publication where this software has made a significant
    contribution. If you wish to use it for commercial gain you must contact
    The MITRE Corporation for conditions of use.

    Esto no es entonces del todo libre, ¿no? Aunque el resto está bajo la licencia Apache.
    votos: 0, karma: 6
    por emedeme el 31-08-2006 10:04 UTC
  10. #10   #4 Me parece un poquito prepotente llamarme ignorante por no saber algo que el 99% de la población española desconoce. Me acabo de inventar el dato, pero te animo a que hagas un sondeo entre tus conocidos, a ser posible entre gente "normal", tú ya me entiendes.

    Buenos días.
    votos: 0, karma: 6
    por Polmac el 31-08-2006 10:34 UTC
  11. por --8552-- el 31-08-2006 11:07 UTC
  12. #12   #11 OK, mis disculpas entonces, seré yo el equivocado. Pero sigue sin estar de más poner el significado de las siglas en la noticia ;)
    votos: 0, karma: 6
    por Polmac el 31-08-2006 11:13 UTC
comentarios cerrados

menéame