Minería de textos

La minería de textos o text mining es un área de investigación muy novedosa dentro del acceso, recuperación y organización de información. En este tipo de procesamiento de textos se definen un conjunto de técnicas que permiten extraer información relevante y desconocida de forma automática dentro de grandes volúmenes de información textual, normalmente en lenguaje natural y no necesariamente estructurada.

La minería de textos descubre patrones interesantes y nuevos conocimientos dentro de colecciones de textos, descubriendo nuevos conocimientos que no existían explícitamente en ningún texto específico de la colección evaluada, pero que tienen relación con el contenido de varios de ellos.

La principal diferencia de la minería de textos con la minería de datos o data mining es que en este último tipo de recuperación se obtienen los términos normalmente de bases de datos, en las que la información existente está estructurada. Por este motivo es más sencilla la extracción de la información de esas bases de datos, que están pensadas normalmente para que se pueda tratar su información de manera automática. Por el contrario en la minería de textos la información se obtiene directamente de textos obtenidos de la web o de otros medios pero sin un tratamiento previo de los textos.

Est etipo de tratamiento de textos hay que diferenciarlo también de lo que en el entorno Web se denomina búsqueda. Pues en una búsqueda en Web se busca información ya conocida e indexada por un sistema, y que previamente se había sido puesta por escrito por otras personas.

Los sistemas de minería de textos permiten el análisis léxico de los textos y especialmente la construcción automática de estructuras de clasificación y categorización que se pueden codifican en forma de tesauros.

Este proceso consiste de dos etapas principales: una etapa de preprocesamiento y una etapa de descubrimiento.

En la primera etapa, preprocesamiento, los textos se transforman a algún tipo de representación estructurada o semi-estructurada que facilite su posterior análisis, mientras que en la segunda etapa, descubrimiento, las representaciones intermedias se analizan con el objetivo de descubrir en ellas algunos patrones interesantes o nuevos conocimientos.

Dependiendo del tipo de métodos usados en la etapa de preprocesamiento es el tipo de representación del contenido de los textos construida y dependiendo de esta representación, es el tipo de patrones descubiertos.

Página realizada por: Pedro Ángel Sánchez Rubio
Recuperación y Acceso a la Información: Minería de Textos
Última Actualización: 06-04-2008

[Valid RSS] Valid XHTML 1.0 Transitional ¡CSS Válido! Icono de conformidad con el Nivel A, de las Directrices de Accesibilidad para el Contenido Web 1.0 del W3C-WAI Icono de conformidad con el Nivel A, del Test de Accesibilidad Web, T.A.W. Icono de conformidad con el Nivel A, del Test de Accesibilidad Web, HERA