Mineria de Textos Web
Recuperación y organización de la información
El Web Mining de contenido
Busca la regularidad y dinámica de los contenidos en la W3. Los documentos Web pueden ser datos sin estructurar, archivos html parcialmente estructurados, o información procedente de bases de datos generadas en páginas con formato html. Estos documentos hipertexto incluyen texto y también a imagenes, audio, vídeo, metadatos e hiperenlaces.
La metodología utilizada en este apartado, va desde las tradicionales relaciones entre términos hasta la tecnología que se utiliza en la minería textual (text mining). Esta última consiste en analizar elementos textuales con el fin de identificar, deducir y ampliar conocimiento a partir de cualquier organización de documentos (por ejemplo, bases de datos, web ).
La extracción (mining) de información, intenta inferir la estructura del sitio web (web site) para transformarla y convertirla en una base de datos a nivel lógico.
Además, la localización de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría.
En definitiva, podemos obtener datos acerca de la forma de escribir que es más atractiva para el usuario, de si la catalogación que usamos sirve para mejorar un ranking, si los temas que se tratan interesan o no.
WIKI de recuperación y organización de la información
- Página principal del WIKI
- Evaluación de los principales buscadores web
- Sistemas de Question-Answering
- Metadatos y documentos XML/RDF para recuperación
- Lenguajes de recuperación: XML-Query, XQL y Tolog
- Lenguajes de recuperación: SeRQL y SPARQL
- Almacenamiento, consulta y razonamiento: Sesame y Jena
- Modelos de recuperación
- Motores de recuperación de documentos XML/RDF
- Procesamiento del Lenguaje Natural
- Usabilidad y accesibilidad en el posicionamient
- Clasificación supervisada
- Clasificación no supervisada: clustering y Kohonen
- Fusión de ontologías de metadatos FCA, Onions y Prompt
- Minería de textos web