Anunciese Aquí

Registro automático

Acceder con Twitter Acceder con Linkedin Acceder con Facebook

top articulo
twitter
facebook
Rss
martes 17 de septiembre del 2019
Lea, publique artículos gratis, y comparta su conocimiento
Usuario Clave ¿Olvidó su clave?
¿Iniciar sesión automáticamente en cada visita?
Inserte su correo electronico

Tecnologias de Web Scraping

veces visto 1545 Veces vista   comentario 0 Comentarios

Tecnologias de Web Scraping

En este articulo me gustaria hablaros de una herramienta revolucionaria en materia de inteligencia web, esta tecnica cuyo objetivo es conseguir gran cantidad de datos con poco esfuerzo, es el llamado Web scraping.

El Web scraping consiste en usar robots y programas informaticos para analizar web especificas o cientos de webs para conseguir informacion de ellas.

En los años 90 esto se hacia a mano con el Copy&Paste, a día de hoy modernas bases de datos con cientos de miles de resultados que se actualizan diariamente, impiden esta tarea artesanal y se utilizan programas de software para extraer información de sitios web.

Para realizar estas tareas, estos programas informáticos, se conectan a una web como si de una persona real se tratara y obtienen la información que desean guardándola en inmensas bases de datos que después se filtran usando técnicas de minería de datos.

El web scraping es una técnica muy positiva, en el marketing turístico. Por ejemplo en búsqueda de viajes por Internet, muchas agencias dan diferentes precios para el mismo producto en tiempo real y para una empresa determinada es muy difícil saber si está vendiendo demasiado más caro o más barato que la competencia, independientemente del producto. Antiguamente la opción era tener un becario o otro sufrido trabajador revisando constantemente las webs de la competencia proporcionando en muchos casos información parcial y desactualizada. Sin embargo a día de hoy las empresas cuentan con partners tecnológicos especializados en web scraping , como Dataseekers.es, que se dedican a preparar software específicos que realiza la búsqueda de datos automática y generan informes para que las empresas o incluso modifican las bases de datos de precios de las empresas automáticamente para que ellas estén siempre en los precios óptimos.

Otro gran campo donde se mueve el web scraping son los buscadores como Google o Bing, analizan las paginas webs para insertarlas en sus indices, en estos casos el web scraping se llama Indexación y los programas que lo buscan se llaman spiders o arañas ya que se mueven como arañas que viajan por la gran tela de araña que es Internet buscando datos.

Hay que decir que Estas ingentes cantidades de información a menudo hay que filtrarlas usando técnicas de minería de datos de datos y gestión de big data, algoritmos que buscan por miles y miles de registros para mostrarnos la información importante. También hay que destacar que si no deseas que te scrapeen tu web, es posible realizar técnicas antiscraping que encriptan tu web para que nadie pueda tener tus datos.

¿Cuales son las tecnicas de Web Scraping?

Como decíamos anteriormente la técnica más primitiva era Copiar y pegar de manera manual, de hecho algunas técnicas de antiscraping, hacen que actualmente, esta sea una técnica que esta resurgiendo.

Existen Aplicaciones especificas de web scraping pero que generalmente están bastante limitadas, realmente lo que hacen es facilitar la búsqueda de información, facilitando el uso de las expresiones regulares, en general es mejor que un experto desarrolle un software que te saque lo que deseas.

Otra forma aun más limitada que el Copy&Paste, para realizar web scraping es usando las herramientas de la web semántica si tenemos acceso a los archivos XML, los microformatos o los rich snipets, que se usan para facilitar estas tareas a los spiders de los buscadores. Si nos ponenmos a analizar el código, La forma mas fácil es por la identificación de etiquetas html, por ejemplo , las imágenes están siempre en una etiqueta de este tipo '<img src=imagen alt=info sobre la imagen>' así que si hacemos un software que busque esta etiqueta podemos sacar las imágenes de la web.

Sin embargo, lo que hacen los expertos es usar las expresiones regulares, un lenguaje de programación que crea patrones que el software busca y recopila y que se usa entre otros contextos en los lenguajes de programación para entender los programas fuentes y convertirlos en código maquina que entiende el ordenador.

Para finalizar decir que esta técnica de marketing online permite automatizar tareas que serian imposibles de otra forma y que las empresas que las usan tienen una gran ventaja competitiva sobre sus competidores .

 

Clasificación: 2.2 (10 votos)

Está prohibido copiar este artículo. Artículo.org no permite la sindicación de sus artículos.
Acerca del autor

Paraty Marketing Online Hoteles - Web Scraping Dataseekers

¿Tiene comentarios o preguntas para el autor?
Artículos recomendados
La importancia del posicionamiento en los motores de búsqueda
Escrito por Interficto SEO LinkBuilding, Añadido: 14 de Sep, 2011
Existen muchos consejos para optimizar los resultados de una página web en los motores de búsqueda. El primero de estos consejos es utilizar la repetición de palabras clave que pueden ser buscadas por las personas interesadas en el tema de un sitio web. Si por ejemplo una empresa de hoteles desea optimizar...
veces visto 1121 Veces vista:   comentarios 0 Comentarios
Qué es el posicionamiento SEO
Escrito por Interficto SEO LinkBuilding, Añadido: 14 de Sep, 2011
El posicionamiento en buscadores se puede definir de dos maneras. En primer lugar, en ocasiones puede describir el lugar en el que su sitio web aparecerá en el ranking de la página del motor de búsqueda. En segundo lugar, puede referirse a las numerosas formas en que los programadores pueden mejorar la...
veces visto 1016 Veces vista:   comentarios 0 Comentarios
Los diferentes tipos de herramientas SEO
Escrito por Interficto SEO LinkBuilding, Añadido: 13 de Ene, 2011
Existen una serie de diferentes de herramientas SEO (Search Engine Optimization) para ayudar a que aumente el ranking de un sitio web. Las Herramientas SEO son las palabras claves que se utilizan a menudo al comienzo de un proceso de optimización web. Después de las palabras clave que haya se hayan escogido...
veces visto 3066 Veces vista:   comentarios 1 Comentarios
Invisibilidad
Escrito por Manuel Velasco Carretero, Añadido: 11 de Jun, 2010
A pesar de que los buscadores cada vez son más hábiles a la hora de recuperar todo tipo de documentos, leía hace unos años en la revista consumer la existencia de una Internet invisible, que escapa a los robots de búsqueda y que en ella se encuentra la información de numerosas bases especializadas. A ver...
veces visto 1411 Veces vista:   comentarios 1 Comentarios
Tecnicas para generar trafico gratis
Escrito por Edgardo , Añadido: 20 de Jun, 2010
Tecnicas para generar trafico web El principal problema de los emprendedores en Internet es generar tráfico Web. La mayoría de las personas gastan mucho tiempo, dinero y energía tratando de conseguir tráfico hacia sus sitios. Probablemente tú seas una de ellas. Hay muchas formas de generar tráfico Web, y...
veces visto 1505 Veces vista:   comentarios 4 Comentarios