Tecnologias de Web Scraping
En este articulo me gustaria hablaros de una herramienta revolucionaria en materia de inteligencia web, esta tecnica cuyo objetivo es conseguir gran cantidad de datos con poco esfuerzo, es el llamado Web scraping.
El Web scraping consiste en usar robots y programas informaticos para analizar web especificas o cientos de webs para conseguir informacion de ellas.
En los años 90 esto se hacia a mano con el Copy&Paste, a día de hoy modernas bases de datos con cientos de miles de resultados que se actualizan diariamente, impiden esta tarea artesanal y se utilizan programas de software para extraer información de sitios web.
Para realizar estas tareas, estos programas informáticos, se conectan a una web como si de una persona real se tratara y obtienen la información que desean guardándola en inmensas bases de datos que después se filtran usando técnicas de minería de datos.
El web scraping es una técnica muy positiva, en el marketing turístico. Por ejemplo en búsqueda de viajes por Internet, muchas agencias dan diferentes precios para el mismo producto en tiempo real y para una empresa determinada es muy difícil saber si está vendiendo demasiado más caro o más barato que la competencia, independientemente del producto. Antiguamente la opción era tener un becario o otro sufrido trabajador revisando constantemente las webs de la competencia proporcionando en muchos casos información parcial y desactualizada. Sin embargo a día de hoy las empresas cuentan con partners tecnológicos especializados en web scraping , como Dataseekers.es, que se dedican a preparar software específicos que realiza la búsqueda de datos automática y generan informes para que las empresas o incluso modifican las bases de datos de precios de las empresas automáticamente para que ellas estén siempre en los precios óptimos.
Otro gran campo donde se mueve el web scraping son los buscadores como Google o Bing, analizan las paginas webs para insertarlas en sus indices, en estos casos el web scraping se llama Indexación y los programas que lo buscan se llaman spiders o arañas ya que se mueven como arañas que viajan por la gran tela de araña que es Internet buscando datos.
Hay que decir que Estas ingentes cantidades de información a menudo hay que filtrarlas usando técnicas de minería de datos de datos y gestión de big data, algoritmos que buscan por miles y miles de registros para mostrarnos la información importante. También hay que destacar que si no deseas que te scrapeen tu web, es posible realizar técnicas antiscraping que encriptan tu web para que nadie pueda tener tus datos.
¿Cuales son las tecnicas de Web Scraping?
Como decíamos anteriormente la técnica más primitiva era Copiar y pegar de manera manual, de hecho algunas técnicas de antiscraping, hacen que actualmente, esta sea una técnica que esta resurgiendo.
Existen Aplicaciones especificas de web scraping pero que generalmente están bastante limitadas, realmente lo que hacen es facilitar la búsqueda de información, facilitando el uso de las expresiones regulares, en general es mejor que un experto desarrolle un software que te saque lo que deseas.
Otra forma aun más limitada que el Copy&Paste, para realizar web scraping es usando las herramientas de la web semántica si tenemos acceso a los archivos XML, los microformatos o los rich snipets, que se usan para facilitar estas tareas a los spiders de los buscadores. Si nos ponenmos a analizar el código, La forma mas fácil es por la identificación de etiquetas html, por ejemplo , las imágenes están siempre en una etiqueta de este tipo '<img src=imagen alt=info sobre la imagen>' así que si hacemos un software que busque esta etiqueta podemos sacar las imágenes de la web.
Sin embargo, lo que hacen los expertos es usar las expresiones regulares, un lenguaje de programación que crea patrones que el software busca y recopila y que se usa entre otros contextos en los lenguajes de programación para entender los programas fuentes y convertirlos en código maquina que entiende el ordenador.
Para finalizar decir que esta técnica de marketing online permite automatizar tareas que serian imposibles de otra forma y que las empresas que las usan tienen una gran ventaja competitiva sobre sus competidores .






































Registro automático