Hace 13 años | Por --4302-- a genbeta.com
Publicado hace 13 años por --4302-- a genbeta.com

Raj Vir, un chico que todavía está en el instituto, ha sido capaz de crear un algoritmo que predice, con un 63% de acierto, qué historias alcanzarán la portada de Digg. Si uno visita habitualmente esta web, sabe que hay unas temáticas que día tras día se repiten en portada, pero lo hecho por Vir es muy interesante de todas formas.

Comentarios

inconnito

#1 Sí que hacen falta, pero son públicos

D

#1 Jajaja ni que lo dudes.

AsK0S1t10

#10 Implementalo predice con un 90%.
La extensión de la función "descartada" es muy similar, si se cambia alguna palabra y sobre todo buscar/reemplazar + por - y viceversa.

D

#10 Aldeairreductible = Fail

Irreductible ha puesto el no-share

jorso

Aquí en Meneame en sus comienzos un usuario desarrolló un bot que predecía y votaba las noticias: Un BOT en meneame!!

Hace 17 años | Por agusti a biruji.org
Publicado hace 17 años por agusti a biruji.org


Relacionada.

obi_wan_kaczynski

Añadiría lo siguiente y lo implementaría también para los comentarios:

import diccionario_hoygan

for palabra in articulo.getTexto():
----if palabra in diccionario_hoygan:
-------- articulo.discard()
-------- autor.ban()

request.redirect('http://www.hoygania.com/')

candymanbad

Si es facil con mnm, toda noticia que incluya gatos, anti-pp, anti-agirre y alguna cosa cuqui ecologica, es portada seguro

trollinator

#6 las ecológicas con cuidado. Que hay un par de veganos por ahí sueltos que han hecho que les cojamos tirria lol

rafamerino

¿Algún voluntario que nos deleite con un meneame-en-el-futuro.com?

En este caso, debería contar también con los karmawhores, anti-karmawhores, prosgae, antiwikileaks, mafia, anti-mafia, pro-mafia, un algoritmo independiente para los gatos, otro para Reverte y Wardog...

Mejor lo dejamos, parece imposible.

D

A portada:

-Animal adopta otra especie animal.
-Punset opina de algo como si tuviera 20 años.
-Persona tiene posibilidad de ganar un dinero, pero lo rechaza.
-La produccion de energias renovables mejora mensual, semestral o anualmente.
-Gran empresa española es pillada defraudando.
-Actor norteamericano se mete a politica u opina de internet contracorriente.
-Borracho preferentemente britanico la lia parda.
-Telecinco hace algo medio llamativo.

sat

¿Sólo un 63% de acierto? Con un algoritmo que que soló dijera si o no aleatoriamente, ya tendrías el 50% de posibilidades de acertar...

D

#12 como bien dice #14, Ese método implicaría que la mitad de las noticias terminan en portada...

#19 ¿Neperiano o sin pepinillos?

D

#12 Lo cual deduzco que es un algoritmo igual pero con algunas variables con palabras mas usadas o similares...

obi_wan_kaczynski

Pues predecir que noticias llegarán a portada en menéame es fácil... solo debe incluir por lo menos algo de la SGAE, ACTA, WikiLeaks, Linux.. perdón GNU/Linux, gatos o ciencia. Si es posible todo en una sola noticia, mejor.

jm22381

Han cambiado Digg y ahora no encuentro como ver la cola de "diggeos" pendientes antes de salir a portada.

D

!Exijo flame ya¡ Ea¡ Ya se ha roto.

sMeGm4

Y la primera, Elisabeth, de Nino Bravo lol

c

#29 Cross-commenting ehh?? lol

D

"Anunciate aquí Click here to find out more!" WTF??

El que publica esta noticia seguro que saco la ESO en el rincon del vago haciendo copy paste verdad?

Artorius

Coñe, 50 votos y nadie se queja de que en la entradilla pone "Anunciate aquí Click here to find out more!". Vaya tela!

D

#16 Eso es porque no hemos leído la entradilla. Con el título nos sobra para votar y comentar, así de chulos somos en mnm. Es más, esto es una buena prueba de que un algoritmo similar debería tener mejores resultados aqui.

Campos

Os habéis olvidado de las noticias tipo: Ya disponible en libre el OSS de CRX para plataformas Winstrol que trabaje con rutinas MLCH 5.0

(Para los que no tenemos ni idea de informática de gestión o sistemas, esto es lo que entendemos cuando leemos "vuestras" noticias )

D

Al final todo seguro que se resume en una mediana cantidad de reglas simples.

Gatos: +200 puntos.
SGAE: +100 Puntos.
Corrupción: +100 Puntos.
Etc, etc.

a

El problema de estos portales de noticias es cuando se convierte en un portal de onanismo mental para un grupo de gente.

Entran, votan las noticias que les dan placer y se creen que todo el mundo es así y que la voluntad del portal de noticias es extrapolable al mundo real.

D

#32 Si quieres ver algo realmente onanista entra en Applesfera y Meneame te parecerá lo más imparcial del planeta.

Aggtoddy

Todo un prototipo de Hari Seldon amigos

r

Echo de menos la SGAE.

BernatDesclot

El algoritmo de meneame es: If irrelevant or mierda, then portada... y a tomar por culo

l

Digg? pero esa web todavía funciona?

D

Pero bueno, ¿y en qué grado funciona? Por que no estoy seguro de que haya tenido en cuenta todas las variables.

d

Yo también soy capaz de crear un algoritmo que prediga que opiniones van a ser votadas negativas aunque no contenga insultos, abuso, acoso, espam, magufo, etc.

Spanish_Caravan

Un algoritmo que predice algo, con un 63% de aciertos.
Si solo acierta un 63%, ni siquiera predice nada. Yo diría que es cuestión de suerte, pues casi no llega a los 50% . Estos algoritmos no los quieren ni los casinos.
Es mejor el algoritmo de aquí...
----algoritmo meneame.
variables: portada, meneame, noticia.
meneame = 100
Si (noticia = > meneame) entonces
escribir noticia en portada
Sino si (noticia < meneame) entonces.
eliminar noticia.
fin algoritmo.----

a

No hace falta muchos algoritmos para detectar las futuras noticias de MENEAME: Sucesos catastróficos, noticias pro-científicas, noticias anti-sanación natural, anti-homeopática, anti-acupuntura, etc., noticias anti-espiritualidad, noticias sobre programas exclusivamente para informáticos, noticias pro-homosexuales, noticias pro-farmaceúticas, etc. Un cocktel que sólo lo promocionan informáticos aburridos o que trabajan poco, ateos, antinaturistas, pro-farmaceúticas, que parece que les pagasen éstas para promocionar cierto tipo de noticias. Lo siento, es el resumen que se aprecia de vuestro historial, que apenas cambia y que se intuye que seguirá, sin necesidad de algoritmos.

A

Pues yo apostaria con quien quiera a que soy capaz predecir que noticias tienen NO saldran en portada en meneame con un 95% de aciertos.

Y sin logaritmo ni leches...

afojyhad

Yo tengo otro que me acabo de inventar ahora mismo (aunque tengo mas edad).
A la pregunta de si va a llegar a portada responder NO.
Si el porcentaje de acierdo de este algoritmo es mas pequeño del 50%
tambien he diseñado uno que superaria los 50%
que es respondiendo a la misma pregunta SI.
(aunque lo dudo, con la cantidad de duples y otras varias)

sabbut

#31 Visto que hay unas 5000 páginas de noticias que han llegado a portada y unas 15000 páginas de noticias que no han llegado a portada, tu algoritmo tiene un porcentaje de acierto del 75%. Incluso si buscamos sólo entre las noticias de gatos, son minoría las que llegaron a portada.

Pero creo que lo que hace el artículo es pronosticar cuáles son las noticias que van a llegar a portada, no si una noticia dada va a llegar. En ese sentido, que un 63% de sus predicciones llegue a portada no está nada mal.

Ahora bien, ¿cómo sería un algoritmo similar para Menéame?

Aumentan la probabilidad:
1) que la noticia hable de gatos, tecnología, becarios, informáticos, cosas frikis en general, gitanos, musulmanes, muslamen, tías buenas, Tesla o la SGAE.
2) que la noticia venga de un medio generalista que sea progresista (pero tampoco demasiado) o que tenga una audiencia considerable. Por ejemplo, El País (cumple ambas) y El Mundo (cumple la segunda).
2.1) Si viene de El Mundo pero podría venir perfectamente de El Mundo Today, tiene un minipunto extra.
3) que el usuario que la envía sea un power user.

Disminuyen la probabilidad:
1) que la noticia provenga de un medio incluido en el listado de MIERDA (Medios Informativos Expertos en Repugnantes Deposiciones de Artículos), generalmente porque es percibido como demasiado extremista (La Haine y Público por la izquierda, los no-sé-qué digitales en general e Intereconomía por la derecha) o sensacionalista (Marca, The Sun).
2) que la noticia provenga del blog de quien la envía, o bien, que el que envía la noticia ha enviado más de un determinado porcentaje de noticias de ese mismo sitio.
3) que el texto de la entradilla no esté contenido en el texto de la noticia original (aunque sea perfectamente válido, si no es un copiapega, es probable que reciba votos de microblogging).
4) que el texto de la entradilla esté escrito en forma de anuncio publicitario.

Lo que no sabría hacer es cuantificar, o sea, poner números y decir a partir de esto cuáles serán las próximas noticias ahora en pendientes que pasarán a estar en la portada. Así que lo dejaré como ejercicio para el lector. lol

Y

y todas en las que el (NFSW)vaya implicito