Ricardo Galli: Me da hasta vergüenza ponerlo, pero es que montan paywalls tan cutres que no sirven y te dejan ver todo el contenido deshabilitando JS. Pensaría que lo hacen adrede si no fuese que también se evita la publicidad.
#4:
#2 Entiendo que lo hacen así para que no les penalice en los buscadores.
Si se hace un bloqueo a nivel de servidor a menos que seas suscriptor los buscadores no podrán ver ni indexar el contenido y por lo tanto no les enviarán a ese sitio.
Por contra si la protección la ejecutas en el navegador del cliente eso no interfiere con el indexado del buscador y será efectivo para la gran mayoría de usuarios.
#6 Eso es jugársela, los buscadores sin duda penalizarán esas prácticas de falsear los resultados si las detectan. Han estado tanteando y han visto que de momento los buscadores no les penalizan por hacer jugarretas en el javascript, hacer filtros de IP es otro nivel más agresivo.
Pero es que además dudo que puedan conocer las IPs de los spiders de los buscadores, te la juegas si las van cambiando.
#7 Web cloaking, sé lo que es, pero mi comentario venía a referirse a la posibilidad de hacerlo desde diferentes puntos. Supongo que la razón de usar JS es justamente esta, cabrear a los buscadores lo menos posible y no llevarte penaltis, la cosa es que estos deberían también ponerse al día sobre este tipo de protecciones y paywalls (y algo me dice que lo estarán) dependiendo el medio/empresa, en Bing existen excepciones para múltiples casos, supongo que Google, Yandex, Baidu... etc, tendrán también agentes que revisen esas excepciones.
#7 Hay un estandar basado en json-ld para anunciar que una página es muro de pago y que los buscadores la tengan en cuenta y no la marquen como cloaking.
Y las IPs de los buscadores se suelen anunciar, Google por ejemplo tiene tanto una URL donde están anunciados todos sus rangos como la norma de que cualquier IP de sus crawlers tenga una resolución inversa a *.googlebot.com. De hecho es que si esto no existiera la gente se podría poner simplemente el user-agent del googlebot y acceder al contenido.
#2 Entiendo que lo hacen así para que no les penalice en los buscadores.
Si se hace un bloqueo a nivel de servidor a menos que seas suscriptor los buscadores no podrán ver ni indexar el contenido y por lo tanto no les enviarán a ese sitio.
Por contra si la protección la ejecutas en el navegador del cliente eso no interfiere con el indexado del buscador y será efectivo para la gran mayoría de usuarios.
#4 Así es, es algo muy común para rankear en google y tener tráfico que al final acabe convirtiendo en suscriptores de pago.
La gran mayoría de usuarios no entiende de deshabilitar javascript y de esta forma consigues todo. Rankear y ganar suscriptores de pago.
Luego por otro lado están los que se creen muy listos y se jactan de que la paywall es una mierda y lo que no se han dado cuenta es que el que lo ha hecho ya viene de vuelta.
#4 Si filtras la IP de los spiders y por User-Agent, los bots seguirán pudiendo acceder al contenido. Ambas cosas perfectamente posibles a través de DNS, servidor o aplicación.
#4 ok, yo soy de back, por eso se me ocurrió eso. no sabía de estas cosas de front o de seo. es interesante saberlo, gracias
otra solución back podría ser diferenciar por el user agent, mostrar a los bots toda la página para que puedan indexarla, y a los usuarios normales no logados sólo una parte
Comentarios
Solo puedo decir que los paywalls se terminaron hace un tiempo con esta extension de código abierto tanto para Firefox como para navegadores tipo chromium https://gitlab.com/magnolia1234/bypass-paywalls-chrome-clean
#3 ¿Y qué se hace con eso?
#3 Sep, jejeje
#3 me uno a la duda. Una breve explicación? Please
#3 Gracias. Estoy probándola, y está muy bien.
Es uno de los trucos que ya uso para ver algunas noticias que se envían a Menéame.
#9 Pero si solo discriminas por user agentent mañana sale un versión de Firefox o una extensión que ponen el user agent del spider en cuestión.
#11 sí, es falsificable, es verdad
#6 Eso es jugársela, los buscadores sin duda penalizarán esas prácticas de falsear los resultados si las detectan. Han estado tanteando y han visto que de momento los buscadores no les penalizan por hacer jugarretas en el javascript, hacer filtros de IP es otro nivel más agresivo.
Pero es que además dudo que puedan conocer las IPs de los spiders de los buscadores, te la juegas si las van cambiando.
#7 Web cloaking, sé lo que es, pero mi comentario venía a referirse a la posibilidad de hacerlo desde diferentes puntos. Supongo que la razón de usar JS es justamente esta, cabrear a los buscadores lo menos posible y no llevarte penaltis, la cosa es que estos deberían también ponerse al día sobre este tipo de protecciones y paywalls (y algo me dice que lo estarán) dependiendo el medio/empresa, en Bing existen excepciones para múltiples casos, supongo que Google, Yandex, Baidu... etc, tendrán también agentes que revisen esas excepciones.
#7 Hay un estandar basado en json-ld para anunciar que una página es muro de pago y que los buscadores la tengan en cuenta y no la marquen como cloaking.
Y las IPs de los buscadores se suelen anunciar, Google por ejemplo tiene tanto una URL donde están anunciados todos sus rangos como la norma de que cualquier IP de sus crawlers tenga una resolución inversa a *.googlebot.com. De hecho es que si esto no existiera la gente se podría poner simplemente el user-agent del googlebot y acceder al contenido.
creo que es fácil:
if (usuario no logado): enviar contenido truncado
else: enviar todo el contenido
programación server side
#2 Entiendo que lo hacen así para que no les penalice en los buscadores.
Si se hace un bloqueo a nivel de servidor a menos que seas suscriptor los buscadores no podrán ver ni indexar el contenido y por lo tanto no les enviarán a ese sitio.
Por contra si la protección la ejecutas en el navegador del cliente eso no interfiere con el indexado del buscador y será efectivo para la gran mayoría de usuarios.
#4 Así es, es algo muy común para rankear en google y tener tráfico que al final acabe convirtiendo en suscriptores de pago.
La gran mayoría de usuarios no entiende de deshabilitar javascript y de esta forma consigues todo. Rankear y ganar suscriptores de pago.
Luego por otro lado están los que se creen muy listos y se jactan de que la paywall es una mierda y lo que no se han dado cuenta es que el que lo ha hecho ya viene de vuelta.
#4 Si filtras la IP de los spiders y por User-Agent, los bots seguirán pudiendo acceder al contenido. Ambas cosas perfectamente posibles a través de DNS, servidor o aplicación.
#4 ok, yo soy de back, por eso se me ocurrió eso. no sabía de estas cosas de front o de seo. es interesante saberlo, gracias
otra solución back podría ser diferenciar por el user agent, mostrar a los bots toda la página para que puedan indexarla, y a los usuarios normales no logados sólo una parte
Editado duplicado