Google ha lanzado una hemeroteca de 3.000 periódicos de los siglos XIX y XX. De momento los estadounidenses y canadienses. Aunque también aparecen otros como El País...
#1 ¿Por qué? Supongo que pretendías ser irónico. ¿O también se debe pagar por consultar una hemeroteca?
De todos modos, ya lo hacen todos los diarios en sus propias webs, Google se limita a juntar todos los enlaces en una sola página.
Una vez más, me avergüenza que tenga que ser una empresa privada quién haga esto y lo ponga a disposición del público de forma gratuita. Deberían ser los gobiernos quienes se encarguen de proporcionarnos servicios de cartografía, búsqueda y distribución de libros y textos libres de derecho de autor, etc... que tenga que venir una empresa para darnos algo que ya es de todos, y encima ganar dinero, sólo dice lo estrecho de miras que son los políticos.
#23 El Correo Español que aparece esta editado en México, pero parece que reproduce la información de la España del momento. En el primero que he abierto
Es una buena noticia, por que siempre que necesitas algo de "hemeroteca" te entretienes por 20.000 páginas sin llegar a encontrar lo que buscas. Espero que sea tan completa como dicen.
#4 La cosa está chunga en cuanto a OCRs... Yo creo que ya se ha llegado (prácticamente) a la cumbre de la tecnología, si hablamos del alfabeto latino, claro. Siempre me puedo equivocar, claro, pero yo diría que no va a haber más avances sustanciales en OCR (ahora mismo se consigue un 98-99% de aciertos creo recordar). Ten en cuenta que eso ya son 1 o 2 caracteres por cada 100, que aunque parezca casi perfecto no es ni de lejos lo más deseable que digamos, sobre todo si la intención es destruir u olvidarse del documento original en papel para siempre (facturas por ejemplo). Siempre queda la opción de poner a alguien a leer comparando con el original, o utilizar soluciones como reCAPTCHA...
Que yo sepa, ahora mismo los mejores son el FineReader y el OmniPage, de pago. Ya luego tienes otras dos opciones open source bastante famosas, como Ocropus y Tesseract. Ocropus tiene un gran futuro, más que nada porque permite la identificación de layouts (o capas) en un documento, cosa que Tesseract no hace por sí sólo. Además, antes dependía de Tesseract, pero ahora están desarrollando su propio motor de reconocimiento.
Es un estudio en profundidad de hace un par de años, precisamente acerca de la tarea que ha emprendido Google, la digitalización de grandes hemerotecas en papel.
Si los extraterrestres nos quisieran estudiar les bastaría copiar toda la base de datos de google en una memoria USB alienigena. O quizás Google es alienigena
#13 Vaya hombre... Pero afirmas que es "la mayor hemeroteca", así que imaginé que la habrías comparado con otras. Y no te hace falta ver 'más de 3000 periódicos y sus ediciones' simplemente en el grupo que aparece al abrir el link hay 8 periódicos con ediciones de 2009. Así que ya podrías afirmar que hay del siglo XXI.
Comentarios
Malnacidos.
Vais a matar la cultura y el conocimiento.....
#1 ¿Por qué? Supongo que pretendías ser irónico. ¿O también se debe pagar por consultar una hemeroteca?
De todos modos, ya lo hacen todos los diarios en sus propias webs, Google se limita a juntar todos los enlaces en una sola página.
Como se va a poner la Sinde con tanta cultura libre y con autor!!
Americanos y canadienses.
Hasta donde yo sé, los canadienses también son americanos.
#5 Editado. Gracias!
#6 Mejor: estadounidenses.
Lo mismo, los canadienses también son norteamericanos
#7 Incluido! Perfect! #8 Voy!
#5 #8 Los mexicanos también son estadounidenses (El nombre oficial es Estados Unidos Mexicanos) Mejor yanquis
http://es.wikipedia.org/wiki/Yanqui
El país: http://news.google.com/newspapers?nid=ECvNt0vk_34C
Edito, porque es El País, de México 26 Sep 1900 - 22 Ago 1914
Una vez más, me avergüenza que tenga que ser una empresa privada quién haga esto y lo ponga a disposición del público de forma gratuita. Deberían ser los gobiernos quienes se encarguen de proporcionarnos servicios de cartografía, búsqueda y distribución de libros y textos libres de derecho de autor, etc... que tenga que venir una empresa para darnos algo que ya es de todos, y encima ganar dinero, sólo dice lo estrecho de miras que son los políticos.
Oh, dios mío... ¡Alemania ha declarado la guerra a Rusia!
http://news.google.com/newspapers?id=WEc8AAAAIBAJ&sjid=kCsMAAAAIBAJ&pg=0,10262892&hl=es
Ya sabía yo que el asesinato del Archiduque Francisco Fernando traería problemas
Esta El Correo Español...
#23 El que dices está editado en México.
#23 El Correo Español que aparece esta editado en México, pero parece que reproduce la información de la España del momento. En el primero que he abierto
Es impresionante, pena que aún no haya periódicos españoles.
#20 http://news.google.com/newspapers?nid=ECvNt0vk_34C
Vale, nada, parece ser que es un periódico mexicano.
Es una buena noticia, por que siempre que necesitas algo de "hemeroteca" te entretienes por 20.000 páginas sin llegar a encontrar lo que buscas. Espero que sea tan completa como dicen.
Siento curiosidad por "Anales Mexicanos" (2ª colummna, 16)
Falta que mejore la capacidad de reconocimiento de los textos y se puedan indexar y hacer búsquedas en ellos.
Internet llego tarde pero Google va con un pie al futuro y con el otro al pasado.
#4 La cosa está chunga en cuanto a OCRs... Yo creo que ya se ha llegado (prácticamente) a la cumbre de la tecnología, si hablamos del alfabeto latino, claro. Siempre me puedo equivocar, claro, pero yo diría que no va a haber más avances sustanciales en OCR (ahora mismo se consigue un 98-99% de aciertos creo recordar). Ten en cuenta que eso ya son 1 o 2 caracteres por cada 100, que aunque parezca casi perfecto no es ni de lejos lo más deseable que digamos, sobre todo si la intención es destruir u olvidarse del documento original en papel para siempre (facturas por ejemplo). Siempre queda la opción de poner a alguien a leer comparando con el original, o utilizar soluciones como reCAPTCHA...
Que yo sepa, ahora mismo los mejores son el FineReader y el OmniPage, de pago. Ya luego tienes otras dos opciones open source bastante famosas, como Ocropus y Tesseract. Ocropus tiene un gran futuro, más que nada porque permite la identificación de layouts (o capas) en un documento, cosa que Tesseract no hace por sí sólo. Además, antes dependía de Tesseract, pero ahora están desarrollando su propio motor de reconocimiento.
Bueno, quería apuntar una cosa más a mi comentario en #28: http://www.dlib.org/dlib/march09/holley/03holley.html
Es un estudio en profundidad de hace un par de años, precisamente acerca de la tarea que ha emprendido Google, la digitalización de grandes hemerotecas en papel.
#4 El sistema te permite linkear los titulares de cada artículo:
http://news.google.com/newspapers?id=_8UkAAAAIBAJ&sjid=sA4GAAAAIBAJ&hl=es&pg=3319%2C485094
Edito: también está la opción de articulos relacionados por cada artículo enlazado.
Una gran noticia! gracias por compartirlo.
edit
Algo parecido en español, y desde el siglo XIX. http://bit.ly/e7739M
No está completo. Falta el Miskatonic Inquisitor http://www.miskatonic-university.org/inquisitor/
Si los extraterrestres nos quisieran estudiar les bastaría copiar toda la base de datos de google en una memoria USB alienigena. O quizás Google es alienigena
Me gusta mas YouKioske.com http://www.youkioske.com/
La forma de verlos es mas comoda que en news.google y sobre todo mas actuales.
#21, y sobre todo mas actuales
Precisamente, la labor de una hemeroteca es poder consultar periódicos viejos.
#22 esta claro, pero nunca esta de más, tener la hemeroteca desde hoy mismo, o incluso de lo del mes que viene, que tambien esta.
De momento no hay españoles, pero aparte de México, EEUU y Canadá, también aparece uno (al menos) de Costa Rica: http://news.google.com/newspapers?nid=BZGggv0hN9sC La Nación, desde 1945.
Vaya, ¿no se pueden buscar periódicos según fecha?
Aun hay esperanza, se pueden cambiar las cosas porque internet es la herramienta que revoluciona el mundo.http://twextra.com/3x4cnq
http://news.google.com/newspapers?nid=ECvNt0vk_34C&dat=19000930&printsec=frontpage
La PowerBalance de 1900 era mucho más molona!
Muy interesante pero...
1) Es microblogging
2) Hay periódicos del siglo XXI (Hay por ahí algún 2004 o 2008)
#12 Perdón, no he tenido tiempo de mirarme los.... 3.000 periódicos con sus ediciones correspondientes
#13 Vaya hombre... Pero afirmas que es "la mayor hemeroteca", así que imaginé que la habrías comparado con otras. Y no te hace falta ver 'más de 3000 periódicos y sus ediciones' simplemente en el grupo que aparece al abrir el link hay 8 periódicos con ediciones de 2009. Así que ya podrías afirmar que hay del siglo XXI.
#12 No es microblogging, la entradilla describe el contenido.