En sitios como Digg o Menéame es habitual encontrarse con que una misma noticia ha sido enviada repetidamente por varios usuarios en un breve espacio de tiempo. Es algo normal teniendo en cuenta que cada día se menean cientos de historias. Pero Digg ha estrenado un sistema ultra-avanzado que, según los ingenieros del portal, va a acabar con los artículos duplicados. Bueno, o no... En inglés: blog.digg.com/?p=866
Pues lo digo yo:
diggowned www.abadiadigital.com/imagenes/digg-duplicadas.png
:P
Ingenieros de Digg:
Amo' a ver... creo que si uno esto aquí, junto por allá, adapto la junta de la culata...
¡Mirad! ¡He conseguido un sistema infalible para las dupes!
consulta = "Select * from PAGINAS where URL=" + url;
if(query(consulta)!=0){
dupe = true;
}
Gracias HAJO (HAbladorcito JOrsovernet)
Carme pilla todas las duplicadas al vuelo, por eso lo digo. En fin.
"HAJO y agua" XD XD
* Votos positivos a tus noticias enviadas.
* Votos positivos a noticias que han sido publicadas, siempre que el voto haya sido realizado antes de la publicación de la noticia.
* Votos negativos a noticias que han sido descartadas, siempre que el voto haya sido realizado en los 15 minutos siguientes al envío de la noticia.
* Votos positivos a tus comentarios.
+
Karmawhores
=
Sistema infalible antidupes ... :D
En el Blog de digg explican en que consisten los nuevos mecanismos que estan desarrollando que NO se estan aplicando de momento.
blog.digg.com/?p=866
las nuevas soluciones corregiran casos en que se envia un link al mismo contenido pero con urls diferentes, mediante un algoritmo que compara la similitud entre contenidos.
Y por otro lado intentan algo un poco mas complejo: detectar como duplicadas dos noticias que aunque no sean la misma traten sobre el mismo tema (esto parece mas complicado... ya veremos que tal funciona :)
[chiste_malo]
¿Las hordas tienen inteligencia?
[/chiste_malo]
Esto es inDIGGnante
Él mandó meneame.net/story/orgullo-prejuicio-nada-persuasion con el url www.lanacion.com.ar/nota.asp?nota_id=1011137
Y luego yo envié meneame.net/story/como-debe-no-debe-ser-atencion-call-center con dirección www.lanacion.com.ar/opinion/nota.asp?nota_id=10111377
Básicamente, al enviar la noticia con todos los metadatos, el buscador no la detectó como duplicada porque la dirección no era idéntica. Así que la infalibilidad es bastante discutible.
Y el usuario es quien decide si enviarla finalmente o no.
Evidentemente lo primero es buscar URL idénticas. Pero no es tan fácil, deben previamente ser canonicalizarlas de alguna manera para que sea efectivo. Y no es nada trivial, por ejemplo, ¿tenemos en cuenta subdominios o solo los de primer nivel? ¿quitamos las barras que sobran? provad esta URL:
meneame.net////story/digg-estrena-sistema-infalible-para-evitar-envio-s
¿Raro, no? ¿Quitamos el #ancla? En algunas páginas, como la wikipedia llevarían a la misma página. En otras, donde son parámetros para el javascript/ajax de la página resultarían distintas (ej: facebook).
Y eso es solo el paso más fácil. Yo seguramente seguiría buscando envios similares a través de las etiquetas, y por último analizar el título de las más probables, que siendo optimistas serían pocas noticias. Vamos, casi imposible.
Reirme de los programadores de digg, me parece mal. Seguramente sean muy buenos, y han invertido un montón de tiempo y esfuerzo en esto, y seguramente ayude a evitar las duplicadas. Como uno del gremio, me compadezco por ellos por el escarnio público y el asegurado mal rollo en la oficina.
Menéame ya lo tiene y aún así se siguen subiendo las mismas noticias publicadas en otros medios...