Mineria de textos Web
Introducción
Una de las extensiones del data mining consiste en aplicar sus técnicas a documentos y servicios del Web, lo que se llama Web Mining (minería de web). Se usa para el estudio de varios aspectos esenciales de un sitio y ayuda a descubrir tendencias y relaciones en el comportamiento de los usuarios que sirven como pistas para, por ejemplo, mejorar la usabilidad de un sitio. Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log).
Las herramientas de Web Mining analizan y procesan estos logs para producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término multimedia data mining (minería de datos multimedia) como una instancia del web mining para tratar ese tipo de datos.
Los accesos totales por dominio, horarios de accesos más frecuentes y visitas por día, entre otros datos, son registrados por herramientas estadísticas que complementan todo el proceso de análisis del web mining. En definitiva podemos decir que todo el proceso consiste en la integración de información obtenida mediante los métodos tradicionales de la minería de datos con información recogida sobre la web, es decir, la minería de datos aplicada a las especificidades de la web.
Tipos de minería de textos web (Web Mining)El Web Mining nos ayuda a descubrir información, encontrar documentos relacionados, mostrar temáticas, averiguar el grado de satisfacción de recursos web, etc. Según el fin deseado, la actividad de excavar en la web se desglosa en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos:
Web content mining (minería de contenido web) Web usage mining (minería de uso web) El Web Mining de contenidoWeb Mining de estructura, intenta descubrir la organización de los enlaces del conjunto de hiperenlaces dentro del documento para generar un informe estructural sobre la página y el sitio web. Obtenemos información acerca de si los usuarios encuentran la información, si la estructura de sitio es demasiado ancha o demasiado profunda, si los elementos están colocados en los lugares adecuados dentro de la página, si la navegación se entiende, cuáles son las secciones menos visitadas y su relación con el lugar que ocupan en la página central.
Según el objetivo a estudiar, se pueden dar tres tipos de informes:
Basándose en los hiperenlaces, clasifica las páginas Web y genera el informe. Revelando la estructura del documento Web en sí. Descubriendo la naturaleza de la jerarquía o de la red de hiperenlaces del sitio Web de un dominio particular.Suele dar como resultado representaciones gráficas para una mejor visión del conocimiento obtenido y pueden utilizarse como guía para el usuario en busca de información.
El Web Mining de usoEl Web Mining de uso es la aplicación de las técnicas de data mining para descubrir pautas de conducta a la hora de utilizar la web por parte de los usuarios.
Esta extracción se refiere a patrones de navegación que podemos descubrir en nuestros usuarios y nos pueden servir para mejorar la misma, por ejemplo si el 80 % de nuestros usuarios recurren al campo de búsqueda cuando entran a nuestro sitio es que deberemos poner énfasis en la mejora de esa interfaz y que el motor que se encuentre detrás devuelva la información deseada. Este proceso se basa en el uso de logs de los accesos al web.
En definitiva, se tratan seguir una serie de pautas sobre:
el acceso que utilizan los clientes cuando consultan el sitio web de una empresa los usuarios que interrogan a una aplicación que precede a una base de datos los individuos que navegan por páginas determinadas, …A partir de datos secundarios derivados de interacciones automáticas de los usuarios mientras navegan por la web se pueden cubrir mejor las necesidades que se solicitan a través de aplicaciones basadas en protocolos W3.
Autor: Julio Alberto Herrero Núñez
Direccion Web: http://mineria-textos-web.awardspace.com/
Registro automático