• Caracas (Venezuela)

BBC Mundo

Al instante

Conozca a los "scrapers", los ladrones de páginas de internet

Los sitios web con información sobre vuelos suelen ser el principal objetivo de los scrapers / BBC Mundo

Los sitios web con información sobre vuelos suelen ser el principal objetivo de los scrapers / BBC Mundo

Algunos lo llaman robo, otros lo definen como la recopilación legítima de información relacionada con los negocios, pero al parecer todos lo están haciendo

  • Tweet:

  • Facebook Like:

  • Addthis Share:

Screen scraping es un término acuñado en inglés que, en ese idioma, suena como a lo que se le haría a los vidrios de un auto cubiertos de escarcha en una mañana muy fría. Pero a lo que se refiere en internet es a copiar todos los datos que contiene un sitio web.

"Todas las empresas lo hacen, y si te dicen que no, están mintiendo", dice Francis Irving, director de Scraper Wiki, una compañía que diseña herramientas que ayudan a diversas organizaciones a recabar y organizar información de sus competidores.

Para copiar algún archivo en una computadora, el texto se subraya con el ratón o con el teclado usando, por ejemplo, "Control+C". Pero copiar un sitio web es más complicado debido a la manera en la que se disponen y almacenan los datos.

Generalmente, se trata de un mecanismo informático intensivo que implica visitar la página de internet en múltiples ocasiones para obtener todos los dígitos y caracteres que se encuentran allí.

Recursos dilapidados

Si el contenido cambia con frecuencia, los scrapers (que realizan el procedimiento descrito con anterioridad) tienen que revisar el sitio web con más regularidad para garantizar que tienen todos los datos.

"Hasta un 40% de las visitas que reciben las páginas de internet de nuestros clientes son scrapers", explica Mathias Elvang, director de la empresa de seguridad Sentor, que elabora herramientas para impedir el trabajo de los programas informáticos que se dedican a este tema.

"Pueden invertir mucho dinero en infraestructura que ayuda a estos programas en el trabajo que hacen", afirma Elvang.

Y ese es el problema. En vez de concentrarse en sus clientes, los recursos tecnológicos de una empresa se destinan a ayudar a programas computarizados que no tienen la menor intención de gastar dinero.

Pérdida de datos

Lo que es peor es que es muy probable que esos scrapers trabajen para tus rivales, según Mike Gaffney, exdirector de seguridad informática en Ladbrokes (una compañía británica de apuestas), quien pasó una buena parte de su tiempo en la casa de apuestas combatiendo a los scrapers.

"Ladbrokes bloqueaba alrededor de un millón de direcciones IP (la identificación de una computadora) diariamente", cuenta, describiendo la dimensión de los ataques de los scrapers.

"Muchos -prosigue- estaban controlados por rivales inescrupulosos que estaban fuera del Reino Unido y que no querían pagar por la recopilación de datos relacionados con las apuestas que ofrece la empresa".

Así que obtenían la información gratis a través de scrapers y luego la fusionaban con datos similares obtenidos de la misma manera para darles a sus usuarios un compendio de las apuestas que ofrecían casas dedicadas al tema.

"Es importante evitar que la competencia se entere de tus tarifas, pero es información disponible para los apostadores. La clave es bloquear a los scrapers pero permitir el acceso a quienes realmente quieren apostar", añade Gaffney.

Los más apetitosos

Los sitios web que suelen convertirse en el blanco de los scrapers son aquellos con datos que cambian con gran rapidez, por ejemplo, empresas de apuestas a los resultados de eventos deportivos, aerolíneas y compañías de viajes.

El problema, comenta Shay Rapaport, cofundador de Fireblade, una firma que combate a quienes se dedican al screen scraping, está en saber si el visitante es una persona que busca un pasaje barato o es un programa que está tratando de copiar todos los datos del portal.

"Es una tendencia en aumento porque se hace con facilidad y hay muchas herramientas disponibles en la red. Los mejores programas son los que imitan el comportamiento humano y almacenan lo que recopilan en diferentes computadoras, lo que dificulta saber si se trata de una computadora o una persona", dice Rapaport.

En muchos países no se trata de una actividad ilegal, por lo que empresas escrupulosas o inescrupulosas aprovechan la situación.

"Muchas firmas utilizan esta técnica. Algunas veces la información está disponible en la red con una presentación diferente y, otras, se utiliza internamente para analizar el negocio", afirma Rapaport.

Aspectos positivos

Frances Irving, director de Scraper Wiki, indica que no todo es malo con respecto a este procedimiento. Hay usos legítimos.

Por ejemplo, según Irving, algunas de las herramientas utilizadas para hacer screen scraping pueden ayudar a entender sitios web con cantidades inmensas de información que dificultan la navegación.

Los scrapers se han utilizado para obtener datos de Hansard, una página web que documenta las votaciones de los parlamentarios británicos y transcribe lo que dicen en la sede legislativa.

"Los datos son uniformes porque utilizan un estilo estándar, pero está hecho por humanos, así que existe la posibilidad de que haya errores", dice Irving.

Así que esta técnica permite organizar la información para que esté disponible en la red, lo que permitiría "vigilar" a los funcionarios que representan a los ciudadanos.

Scrapers de peso

Adicionalmente, indica Irving, se puede usar para "darles la vuelta" a las barreras burocráticas u organizacionales que podrían obstaculizar un proyecto de recopilación de datos.

"Es importante recordar que el desarrollo de la red ha estado impulsado por dos grandes scrapers, Google y Facebook", afirma el especialista.

En un principio los motores de búsqueda utilizaban esta técnica para catalogar la información disponible en la red y facilitar el acceso a la misma. Y en tiempos más recientes, Facebook la empleó para ayudar a las personas a llenar su perfil en la red social.

"Ambas empresas se desarrollaron gracias al scraping. Si existieran restricciones significativas con respecto a que tipo de datos pueden someterse a este mecanismo, la red sería muy distinta a la que tenemos en la actualidad", concluye.