Mineria de Textos Web
Recuperación y organización de la información
Introducción
Una de las extensiones del data mining consiste en aplicar sus técnicas a documentos y servicios del Web, lo que se llama Web Mining (minería de web). Se usa para el estudio de varios aspectos esenciales de un sitio y ayuda a descubrir tendencias y relaciones en el comportamiento de los usuarios que sirven como pistas para, por ejemplo, mejorar la usabilidad de un sitio. Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log).
Las herramientas de Web Mining analizan y procesan estos logs para producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término multimedia data mining (minería de datos multimedia) como una instancia del web mining para tratar ese tipo de datos.
Los accesos totales por dominio, horarios de accesos más frecuentes y visitas por día, entre otros datos, son registrados por herramientas estadísticas que complementan todo el proceso de análisis del web mining. En definitiva podemos decir que todo el proceso consiste en la integración de información obtenida mediante los métodos tradicionales de la minería de datos con información recogida sobre la web, es decir, la minería de datos aplicada a las especificidades de la web.
Selección y recopilación de datos
En primer lugar decidir qué se quiere estudiar y cuáles son los datos que nos facilitarán esa información. Posteriormente se localizan los documentos o archivos a adquirir. Estos se capturarán y se almacenarán los datos pertinentes.
Tratamiento previo de los datos
Se trata de filtrar y limpiar los datos recogidos. Una vez extraída una determinada información a partir de un documento, ya sea HTML, XML, texto, ps, PDF, LaTeX, FAQs, ...., se realizan tareas de criba y normalización, eliminando los datos erróneos o incompletos, presentando los restantes de manera ordenada y con los mismos criterios formales hasta conseguir una homogeneidad formal, etc. y demás labores enfocadas a la obtención de unos datos originales listos para su transformación por medios automáticos.
Transformación de los datos
En esta fase se utilizan algoritmos inteligentes de búsqueda de patrones de comportamiento y detectar asociaciones. Estos algoritmos se elaboran previamente utilizando recursos estadísticos, técnicas procedentes del data mining, etc, se procede a transformar los datos para obtener como resultado, información sobre ellos.
Los principales algoritmos se basan en la reunión de grupos homogóneos (ej. Usuarios que visitan más de un número determinado de páginas), reglas de asociación de páginas, seguimiento de rutas o historial de navegación de una persona, etc.
Esta metamorfosis suministra información que englobe a la mayor parte de los datos estudiados. En esta fase se consiguen generalizaciones que se perciben en el establecimiento de enlaces, en muchas ocasiones en forma gráfica. Esta fase, junto con la próxima, son las más cercanas al campo de la visualización, especialmente en métodos de visualización.
Análisis de las inferencias sobre los datos
La simple inferencia no tendría un sentido completo si no se razonan los resultados, si no se logra encontrar una justificación a dichos resultados. Es aquí donde, dependiendo del tipo web mining, utilizaremos recursos de las ciencias sociales y económicas. Ya que, como bien se ha comentado, la W3 es una comunidad, un territorio donde los comportamientos automatizados de relaciones y contenidos vienen decididos por personas que se encuentran tras cada ordenador conectado a la red.
Tipos de minería de textos web (Web Mining)
El Web Mining nos ayuda a descubrir información, encontrar documentos relacionados, mostrar temáticas, averiguar el grado de satisfacción de recursos web, etc. Según el fin deseado, la actividad de excavar en la web se desglosa en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos:
- Web content mining (minería de contenido web)
- Web structure mining (minería de estructura web)
- Web usage mining (minería de uso web)
WIKI de recuperación y organización de la información
- Página principal del WIKI
- Evaluación de los principales buscadores web
- Sistemas de Question-Answering
- Metadatos y documentos XML/RDF para recuperación
- Lenguajes de recuperación: XML-Query, XQL y Tolog
- Lenguajes de recuperación: SeRQL y SPARQL
- Almacenamiento, consulta y razonamiento: Sesame y Jena
- Modelos de recuperación
- Motores de recuperación de documentos XML/RDF
- Procesamiento del Lenguaje Natural
- Usabilidad y accesibilidad en el posicionamient
- Clasificación supervisada
- Clasificación no supervisada: clustering y Kohonen
- Fusión de ontologías de metadatos FCA, Onions y Prompt
- Minería de textos web