Tecnología, Internet y juegos
31 meneos
135 clics

[EN] Perplexity está ofuscando su identidad para robar la información de los sitios web

Cloudfare detalla una investigación sobre como Perplexity está usando técnicas de scraping para ofuscar su identidad y evitar los bloqueos por parte de las webs, ignorando así el deseo de sus dueños como se define en el fichero robots.txt. Entre las tecnicas que usan: rotación de ips, usar browser fingerprint falsos, ignorar el robots.txt.

| etiquetas: perplexity , ai , bots , amenaza , cloudfare
25 6 0 K 345
25 6 0 K 345
El articulo es muy bueno, han usado un honeypot (unas web falsas) para inducir a Perplexity a robar el contenido de estas. Lo más interesante es que cuando CloudFare se lo pone complicado usando reglas avanzadas para detección de bots entonces la IA directamente alucina y da contenido incorrecto.  media
La IA se está cargando Internet.
#4 Bueno, eso ya lo empezaron haciendo las grandes empresas que se dedican a la publicidad. Aunque prefieren ser llamadas "grandes tecnológicas".  media
#4 internet es un foro
#4 ya estaba bastante roto por el SEO, bots etc, esto es la estocada final.

No se de que manera se podría hacer pero necesitamos un internet de solo humanos. Pero no se me ocurre ninguna forma ni realista ni "ciencia ficción" (pero teoricamente realizable) de hacerlo ni he visto ninguna propuesta viable. Y menos a esta altura donde un bot asistido por IA puede suplantar a un humano de una forma cada día mas creible.

En mi humilde opinión en la próxima década vamos a ver el regreso de los criticos especializados, humanos que seleccionen contenido de calidad en todos los ambitos
Joder, ignorar el txt no es ofuscación. :shit:
#2 hay que leer, no ofuscarse
#3 no se ofusque con este terror tecnologico que ha construido xD
#3 La ofuscación se refiere a encubrir el significado de una comunicación haciéndola más confusa y complicada de interpretar.

#5

Que saltarse un txt no os ofusque.
#2 El robots.txt siempre me pareció una medida de seguridad? privacidad? de mierda. "Oye, porfavorcito scraper, no entres en la carpeta 'matematicas' de mi servidor"
#7 Una declaración de permisos entre caballeros. Pero de esos quedan pocos.

Lo que sí debería servir es para demandas. "Yo no sabía que no estaba permitido leer el contenido" - "Lo pone en el robots.txt que es el estándar para estas cosas"
También desde IPs de Alibaba hacen parecido. Tuve que bloquear todo un rango porque entraban a saco rotando cientos de IPs y "scrapeando" a toda velocidad sin hace caso al robots.txt
Ojalá les revienten los servidores

menéame