He creado este pequeño script para convertir a txt los PDFs de la contabilidad del PP. Este script crea un hilo por cada core de tu CPU, convierte el pdf a tif y lo procesa con tesseract, que saca el texto de las imágenes. Iré actualizando el post con las sugerencias de la gente.
#4:
#2 ¿En qué? El script que comentas usa una función recursiva para pasar por todos los directorios, yo hago una llamada recursiva para ejecutar un proceso por cada core y exprimir la CPU. Además yo convierto los pdfs a tif usando ghostscript, el script que dices usa pdftoppm ... El único parecido es el uso de tesseract, que es un software muy utilizado ¿Todo el que lo use esta copiando ese script? yo creo que no.
No soy ningún genio de la programación, pero no he estado yo un buen rato escribiendo el script, y peleándome con la documentación de parallel para que vengas ahora a decir que me lo he copiado!
#1:
Gracias a toda la gente que se está preocupando en analizar y mejorar el acceso a las cuentas del PP. Gracias.
#10:
#9 He actualizado el script con lo bueno que tiene el de #2. Ahora procesa todos los directorios y además continua donde se haya quedado, es decir, si ya ha generado el txt de un tomo, pues pasa al sieguiente.
#25 Merci por el link.
Pero igualmente yo tengo mis dudas. Es el procedimiento que deberían de hacer para aparentar que son ciertas esas cuentas. llámame conspiranoico pero es lo que pienso
El problema es que el OCR hace un gran trabajo, pero comete gran cantidad de fallos debido en muchos casos a la calidad de la fotocopia o a la dificultad del texto, por eso, lo mejor es analizar cada documento que procesa el OCR , como hace #3 , yo realice uno ( Las #CuentasDelPP ¿nos ayudas a analizarlas?/c77#c-77 ) la memoria del 2012 y afirmo que es un trabajo duro corregir todos los errores (y que abandone con el del 2011 ya por cansancio).
Por eso, aunque el script esta muy bien, hay que usarlo con cierta cautela.
Por cierto, si queréis ver los papeles sin tener que descargaros todo el torrent los he publicado online en http://elpp.chorizo.es/ para verlos online.
Justo por gente asi es por lo que se recorta y reforma la educación para q no aprenda a hacer script y la sanidad para q si aprende que se muera rápido.
#31WTF? Que mis envíos tienen más de spam? Pues no se de qué... Yo no escrito eso... Solo constato que desde el punto de vista de los niveles de "entropía" (que hasta donde yo se, miden la variedad de las fuentes) el usuario que envía esta noticia, hasta el momento, tiene el doble que tu (por cierto, y que yo ).
También habría que tener en cuenta el número de envíos realizados desde la fecha del registro, claro.
Simplemente me extrañaba que un usuario tan antiguo en MNM preguntase algo que está bastante claro en las normas de uso, con respecto al spam.
A mi en la portada tampoco me sobra nada (casi nunca) lo que pasa es que en días como hoy la actualidad marca demasiado y echo en falta un poco más de variedad temática (sobre todo si tenemos en cuenta a los usuarios que no viven en España...).
Discúlpame si mi comentario te ha resultado molesto.-
Que está muy currao y tal, pero... ¿lo de subir algo de tu propio blog no debería ser considerado SPAM? Porque por mucho menos se han tirado temas aquí...
#20 Si es para atacar al PP, todo vale Si fuera sobre los EREs de Andalucía, seguro que lo tumbaban, y si fuera sobre algo de IU estaba descartada en tiempo record
#20Es muy común que los primeros enlaces que se envíen no estén "en sintonía" con la comunidad de usuarios de Menéame y reciban votos negativos. Un error típico suele ser enviar artículos de tu blog sin parar. Algunos usuarios lo consideran de mal gusto y lo votan como "spam". No tiene nada de malo enviar del propio blog; pero es mejor enviar sólo los artículos que consideres más interesantes y no abusar, procurando que la proporción de envíos de tu blog sea baja respecto al total de tus envíos. Recuerda: a los usuarios les molesta mucho que la gente sólo intente aprovecharse del sitio para su propio beneficio, en vez de compartir enlaces interesantes y conversar o debatir con los demás.
Es cierto que muchos envíos se "tiran" por cualquier gilipollez y que otros lleguen a la portada isospechadamente; y que la cola de pendientes a veces resulte más variada que la portada (por ejemplo hoy mismo); pero no deja de ser curioso que un usuario con un nivel de "entropía del 25%" escriba lo que tu escribes sobre otro usuario con un nivel de "entropía del 56%".
Si no ponemos tiquismiquis con los votos de spam, tus envíos tienen más papeletas que los del usuario que ha hecho este. Eso sin tener en cuenta ni la antigüedad del usuario ni la utilidad del envío
#31 "Que mis envíos tienen más de spam? Pues no se de qué..."
Spam de huevos con Spam.
Si solo enviases Spam con pan y Spam, a lo mejor el Spam con Spam huevos y Spam podría colar, pero el Spam con Spam Spam y huevos y Spam, pues como que Spam Spam Spam Spam Spam!
Una cosa de la que me estoy dando cuenta con tanta noticia es que hay mucha gente que el problema de todo esto es fundamentalmente del PP, o que piensan que dentro de que todos son malos, el PP es todavia mas malo. Lamentablemente todos son basura, el sistema esta podridisimo, lo que pasa es que el PP esta ahora en el gobierno y como es normal salen mas mierdas suyas.
#2 ¿En qué? El script que comentas usa una función recursiva para pasar por todos los directorios, yo hago una llamada recursiva para ejecutar un proceso por cada core y exprimir la CPU. Además yo convierto los pdfs a tif usando ghostscript, el script que dices usa pdftoppm ... El único parecido es el uso de tesseract, que es un software muy utilizado ¿Todo el que lo use esta copiando ese script? yo creo que no.
No soy ningún genio de la programación, pero no he estado yo un buen rato escribiendo el script, y peleándome con la documentación de parallel para que vengas ahora a decir que me lo he copiado!
#9 He actualizado el script con lo bueno que tiene el de #2. Ahora procesa todos los directorios y además continua donde se haya quedado, es decir, si ya ha generado el txt de un tomo, pues pasa al sieguiente.
Comentarios
Gracias a toda la gente que se está preocupando en analizar y mejorar el acceso a las cuentas del PP. Gracias.
#1 Gracias a toda la gente que se está preocupando en analizar y mejorar el acceso a los ordenadores con comandos ocultos. Gracias.
#1 una cosa, esos pdf son de fiar?
Puede que sea una filtración controlada por parte del PP?
#23 El PP denuncia a Anonymous ante la Guardia Civil por revelación de secretos al filtrar en Internet su contabilidad
El PP denuncia a Anonymous ante la Guardia Civil p...
europapress.es#25 Merci por el link.
Pero igualmente yo tengo mis dudas. Es el procedimiento que deberían de hacer para aparentar que son ciertas esas cuentas. llámame conspiranoico pero es lo que pienso
saludos
#28 Creo que los sobreestimas, no veo yo a esa panda de borderlines haciendo un montaje de ese calibre...
#5 si lo hubiese cogido de ahí no tendría ningún problema en reconocerlo, pero mis fuentes han sido estas webs:
http://www.webupd8.org/2010/02/how-to-extract-all-text-from-pdfs.html
http://www.gnu.org/software/parallel/man.html
http://stackoverflow.com/questions/16448887/gnu-parallel-not-working-at-all
Meneo por el curro de #0 y porque los del PP son unos sinvergüenzas HIJOS DE PUTA.
Citan a declarar a una persona por llamar ''hijos de puta'' al PP a través de Twitter
Citan a declarar a una persona por llamar ''hijos ...
cbanlieue.blogspot.com.esToda ayuda para encontrar pruebas contra la Banda organizada PP a partir de su contabilidad filtrada, es bienvenida, gracias!
¿POR QUÉ TODA LA MIERDA sale en Julio y Agosto? Que "casualmente" la gente está de vacaciones (la que puede)... Bienvenidos a la nave del misterio...
#15 Hay 6m que estan de vacaciones permanentes.
Aquí ya hay una buena parte pasados a texto: http://pastebin.com/7pDfubLA
El problema es que el OCR hace un gran trabajo, pero comete gran cantidad de fallos debido en muchos casos a la calidad de la fotocopia o a la dificultad del texto, por eso, lo mejor es analizar cada documento que procesa el OCR , como hace #3 , yo realice uno ( Las #CuentasDelPP ¿nos ayudas a analizarlas?/c77#c-77 ) la memoria del 2012 y afirmo que es un trabajo duro corregir todos los errores (y que abandone con el del 2011 ya por cansancio).
Por eso, aunque el script esta muy bien, hay que usarlo con cierta cautela.
Por cierto, si queréis ver los papeles sin tener que descargaros todo el torrent los he publicado online en http://elpp.chorizo.es/ para verlos online.
Justo por gente asi es por lo que se recorta y reforma la educación para q no aprenda a hacer script y la sanidad para q si aprende que se muera rápido.
Preveo que la contabilidad del PP va a acabar de Craptcha en breve.
#19 ¿Euros o pesetas?
http://espanol.answers.yahoo.com/question/index?qid=20111022161705AAgosUQ
Establo: 250€/mes (3000€/año)
Herrajes: 60€ cada mes y medio (480€/año)
Vacunas: 40€/año
Total: 3520€/año (584.000pts)
#0 muy boss!
#31 WTF? Que mis envíos tienen más de spam? Pues no se de qué... Yo no escrito eso... Solo constato que desde el punto de vista de los niveles de "entropía" (que hasta donde yo se, miden la variedad de las fuentes) el usuario que envía esta noticia, hasta el momento, tiene el doble que tu (por cierto, y que yo ).
También habría que tener en cuenta el número de envíos realizados desde la fecha del registro, claro.
Simplemente me extrañaba que un usuario tan antiguo en MNM preguntase algo que está bastante claro en las normas de uso, con respecto al spam.
A mi en la portada tampoco me sobra nada (casi nunca) lo que pasa es que en días como hoy la actualidad marca demasiado y echo en falta un poco más de variedad temática (sobre todo si tenemos en cuenta a los usuarios que no viven en España...).
Discúlpame si mi comentario te ha resultado molesto.-
El pastebin de ppgoteras ha sido eliminado.
El pastebin de@anarion321_1 parece no estar disponible.
La web de anon your voice ha eliminado el contenido por recibir informaciones de que es ilegal.
Larga vida al TORRENT!!
http://thepiratebay.sx/torrent/8659683/Cables_contabilidad_PP_1990-2011
Los tomos que aún no has visto de la contabilidad filtrada del PP
Los tomos que aún no has visto de la contabilidad ...
safebin.netParsear ls es lo peor que se puede hacer . Usando como argumento '*.pdf' sirve igualmente. Por lo demás, un script cojonudo.
O si no usad "xargs -p NUMERODEHILOSPORCPU "
¿No lo hay para Windows?
Estoy seguro que ese tal Anonymous jamás sacará las del PSOE por razones obvias.
Que está muy currao y tal, pero... ¿lo de subir algo de tu propio blog no debería ser considerado SPAM? Porque por mucho menos se han tirado temas aquí...
#20 Si es para atacar al PP, todo vale Si fuera sobre los EREs de Andalucía, seguro que lo tumbaban, y si fuera sobre algo de IU estaba descartada en tiempo record
#20 Es muy común que los primeros enlaces que se envíen no estén "en sintonía" con la comunidad de usuarios de Menéame y reciban votos negativos. Un error típico suele ser enviar artículos de tu blog sin parar. Algunos usuarios lo consideran de mal gusto y lo votan como "spam". No tiene nada de malo enviar del propio blog; pero es mejor enviar sólo los artículos que consideres más interesantes y no abusar, procurando que la proporción de envíos de tu blog sea baja respecto al total de tus envíos. Recuerda: a los usuarios les molesta mucho que la gente sólo intente aprovecharse del sitio para su propio beneficio, en vez de compartir enlaces interesantes y conversar o debatir con los demás.
Fuente: http://meneame.wikispaces.com/Comenzando
Es cierto que muchos envíos se "tiran" por cualquier gilipollez y que otros lleguen a la portada isospechadamente; y que la cola de pendientes a veces resulte más variada que la portada (por ejemplo hoy mismo); pero no deja de ser curioso que un usuario con un nivel de "entropía del 25%" escriba lo que tu escribes sobre otro usuario con un nivel de "entropía del 56%".
Si no ponemos tiquismiquis con los votos de spam, tus envíos tienen más papeletas que los del usuario que ha hecho este. Eso sin tener en cuenta ni la antigüedad del usuario ni la utilidad del envío
Con cariño.-
#26 WTF? Que mis envíos tienen más de spam? Pues no se de qué...
En fin, que yo he visto cómo se itraba a un usuario recién llegado un post de su blog por ser de su blog.
Pero vamos, que no me sobra esta noticia en portada. Me sorprende que haya entrado, nada más
#31 "Que mis envíos tienen más de spam? Pues no se de qué..."
Spam de huevos con Spam.
Si solo enviases Spam con pan y Spam, a lo mejor el Spam con Spam huevos y Spam podría colar, pero el Spam con Spam Spam y huevos y Spam, pues como que Spam Spam Spam Spam Spam!
Una cosa de la que me estoy dando cuenta con tanta noticia es que hay mucha gente que el problema de todo esto es fundamentalmente del PP, o que piensan que dentro de que todos son malos, el PP es todavia mas malo. Lamentablemente todos son basura, el sistema esta podridisimo, lo que pasa es que el PP esta ahora en el gobierno y como es normal salen mas mierdas suyas.
Si se empleara el esfuerzo que ese está empleando contra el PP con otros partidos habria demasiada mierda que tapar.
#13 Ya hay mierda suficiente encima de la mesa. Como para un atracón.
#0 Qué parecido a este otro
http://www.soydelbierzo.com/2013/07/08/convirtiendo-pdf-llenos-de-imagenes-a-texto/
#2 ¿En qué? El script que comentas usa una función recursiva para pasar por todos los directorios, yo hago una llamada recursiva para ejecutar un proceso por cada core y exprimir la CPU. Además yo convierto los pdfs a tif usando ghostscript, el script que dices usa pdftoppm ... El único parecido es el uso de tesseract, que es un software muy utilizado ¿Todo el que lo use esta copiando ese script? yo creo que no.
No soy ningún genio de la programación, pero no he estado yo un buen rato escribiendo el script, y peleándome con la documentación de parallel para que vengas ahora a decir que me lo he copiado!
#4 Si yo estoy a favor de la copia y mutación, pero también de la atribución. Pero que si dices que es todo tuyo, te creo, oye
#4 #5 podeis dejar de pelearos, utilizad ambos, compararemos resultados,quien sabe a lo mejor el bueno es la combinacion de ambos.
hay que compartir trabajar juntos es la unica manera de poner a estos ladrones en su sitio
#9 He actualizado el script con lo bueno que tiene el de #2. Ahora procesa todos los directorios y además continua donde se haya quedado, es decir, si ya ha generado el txt de un tomo, pues pasa al sieguiente.
#10 Un script genial. Se agradece mucho tu aporte, buen trabajo.