#17 gracias por compartirlo, no sabía que habían respondido.
La cosa no está tan clara, aunque ellos están usando el user agent de la persona qué hace la búsqueda están haciendo el scraping y almacenando el contenido con sus bots, como un proxy, incumpliendo el deseo que se especifica en el robots.txt de no ser indexados. Con esa información entrenan su LLM por lo que a fin de cuentas no hay diferencia sobre quien inicia la petición. El hecho de que roten IPs , usen IPS residenciales y modo stealth lo confirma.
Hace años trabajé para una startup donde hacíamos scraping de portales de búsqueda. Hacíamos justo lo mismo. Miles de instancias de puppeteer con modo stealth, rotando user agents, usando proxy's residenciales etc para evitar los Captchas y parecer seres humanos.
Puedes cambiarlos de nombre, cambiar quien los cobra y hacelos más o menos justos. Nunca eliminarlos.
La cosa no está tan clara, aunque ellos están usando el user agent de la persona qué hace la búsqueda están haciendo el scraping y almacenando el contenido con sus bots, como un proxy, incumpliendo el deseo que se especifica en el robots.txt de no ser indexados. Con esa información entrenan su LLM por lo que a fin de cuentas no hay diferencia sobre quien inicia la petición. El hecho de que roten IPs , usen IPS residenciales y modo stealth lo confirma.
Hace años trabajé para una startup donde hacíamos scraping de portales de búsqueda. Hacíamos justo lo mismo. Miles de instancias de puppeteer con modo stealth, rotando user agents, usando proxy's residenciales etc para evitar los Captchas y parecer seres humanos.
"Rusia estaría intentando hacerse con las minas de uranio de la francesa Orano en Níger, según Bloomberg"
www.lanacion.com.ar/agencias/rusia-estaria-intentando-hacerse-con-las-