Mineria de Textos Web
Recuperación y organización de la información
Herramientas para el Web Mining
En los tres tipos de extracción de información web se utilizan técnicas que se venían utilizando con la minería de datos y otras que se han planteado y perfeccionado en ambos casos. Se trata de campos extremadamente ligados, el primero centrado en datos hipertextuales en red (W3) y el segundo aplicado a información estructurada o semi-estructurada que se encuentra en bases de datos.
Según pues la rama en la que se esté trabajando dentro de la extracción de información web, se utilizan más los elementos formales o los elementos de contenido. En especial destacar el uso de ficheroslogs
LOGS
Los ficheros logs son una grabación de la actividad de un servidor o de un sitio web a lo largo de un período de tiempo determinado. La información se genera automáticamente y suelen incluir la dirección IP de los visitantes, la página solicitada junto con la fecha y hora de la consulta, tiempo de lectura, si han accedido desde buscadores,
Suelen ser ficheros voluminosos y registran visitas automáticas de robots, no efectuadas por usuarios de manera voluntaria y con una intención.
WIKI de recuperación y organización de la información
- Página principal del WIKI
- Evaluación de los principales buscadores web
- Sistemas de Question-Answering
- Metadatos y documentos XML/RDF para recuperación
- Lenguajes de recuperación: XML-Query, XQL y Tolog
- Lenguajes de recuperación: SeRQL y SPARQL
- Almacenamiento, consulta y razonamiento: Sesame y Jena
- Modelos de recuperación
- Motores de recuperación de documentos XML/RDF
- Procesamiento del Lenguaje Natural
- Usabilidad y accesibilidad en el posicionamient
- Clasificación supervisada
- Clasificación no supervisada: clustering y Kohonen
- Fusión de ontologías de metadatos FCA, Onions y Prompt
- Minería de textos web