Text mining Mineria de Textos Data Mining Mineria de datos recuperacion y organizacion de la informacion





Concepto / Definicion / Introduccion de la mineria de textos como tecnica de recuperacion y organizacion de la informacion


¿Para que sirve la Minería de Textos o Text Mining? ¿Cuales son sus usos? ¿Es util para la recuperacion y organizacion de la informacion?


¿Como hacer minería de textos (Text Mining)?


Conclusiones sobre esta nueva tecnica de recuperacion y organizacion de la informacion


Recursos sobre recuperacion y organizacion de la informacion consultados para la elaboracion de esta página, especialmente los relacioandos con la Mineria de Textos o Text Mining



[Valid RSS]



Contactar


Mineria de Textos o Text Mining

En esta pagina se pretenden explicar los conceptos mas importantes que definen la mineria de textos o text mining como tecnica de recuperacion y organizacion de la informacion


Es una de las ramas de la lingüística computacional que trata de obtener informacion y conocimiento a partir de conjuntos de datos que en principio no tienen un orden o no estan dispuestos en origen para transmitir esa informacion
Es una tecnica clave en un mundo como el actual en el que continuamente se recogen datos desde distintas perspectivas y de muchos aspectos diferentes de todas las actividades propias de los seres humanos.


Concepto / Definicion / Introduccion de la mineria de textos como tecnica de recuperacion y organizacion de la informacion

Es imprescindible para entender lo que es la Mineria de Textos o Text Mining, tener claro antes lo que es el Data Mining:
Este ultimo concepto surgió hace ya mas de cinco años para ayudar a la comprensión de los contenidos de las bases de datos. En cualquier acto de comunicación o de tratamiento de información, de lo que se trata es de adquirir conocimiento a partir de unos datos originales. Para el Data Mining los datos son la materia prima bruta a los que los usuarios dan un significado convirtiendolos en información que posteriormente sera tratada y utilizada por los especialistas para convertirlos en conocimiento.
El data mining a conseguido reunir las ventajas de áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, las bases de datos como materia prima. Molina y otros lo definirían como "la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión" (Molina y otros, 2001).
Entendido que es el Data Mining, podemos extrapolar la misma idea a la Minería de Textos o Text mining. Los datos a tratar con esta técnica serán, en lugar de los datos de las bases de datos, los documentos y textos de las organizaciones, administraciones, compañías, etc.
El Text Mining no se debe confundir con la recuperación de la información, que es la recuperación automática de documentos relevantes mediante indexaciones de textos, clasificación, categorización, etc. La información que realmente le interesaría a la minería de textos es aquella contenida en esos documentos pero de manera general, es decir, no esta contenida en un texto en concreto sino que es la información global que tienen todos los registros, textos, documentos... de la colección en común. Es un análisis de los datos compartidos por todos los textos de la colección que se ofrece de manera indirecta, es decir, son informaciones que la colección dará a los especialistas pero que no fue específicamente incluida en esa colección en el momento de su creacion para su posterior difusion a los usuarios.
Por tanto, podemos decir que la Mineria de Textos comprende tres actividades fundamentales:

  1. Recuperación de información, es decir, seleccionar los textos pertinentes.
  2. Extracción de la información incluida en esos textos: hechos, acontecimientos, datos clave, relaciones entre ellos, etc.
  3. Por ultimo se realizaria lo que antes definiamos como minería de datos para encontrar asociaciones entre esos datos claves previamente extraidos de entre los textos

En resumen, la minería de textos pueden ayudar a que la información implícita en los documentos más explícitos, que le ahorra tiempo y dinero. Echa un vistazo a nuestra página de servicios para descubrir la gama de servicios que actualmente ofrecemos. El text mining se apoya en otras técnicas como:
  • categorización de texto
  • procesamiento de lenguaje natural
  • extracción y recuperación de la información
  • aprendizaje automático


Volver al Inicio


¿Para que sirve la Minería de Textos o Text Mining? ¿Cuales son sus usos? ¿Es util para la recuperacion y organizacion de la informacion?


Es muy útil para todas la compañías, administraciones y organizaciones en general que por las características propias de su funcionamiento, composición y actividades generan gran cantidad de documentos y que están interesadas en obtener informacion a partir de todo ese volumen de datos. Les puede servir para conocer mejor a sus clientes, cuales son sus hábitos, preferencias,...
Un ejemplo claro de la utilizacion de las tecnicas de mineria de textos lo realizó Hearst en 1999 y es incluido como ejemplo en el articulo en “Data mining: torturando a los datos hasta que confiesen” de Luis Carlos Molina Félix. En el describe como Don Swanson trato de extraer información a partir de colecciones de texto y demostró cómo cadenas de implicaciones causales dentro de la literatura médica pueden conducir a hipótesis para enfermedades poco frecuentes, como por ejemplo ocurrio con la migraña. Se pudieron extraer evidencias a partir de varios articulos de literatura biomedica y algunas de las claves fueron:

  1. El estrés está asociado con la migraña.
  2. El estrés puede conducir a la pérdida de magnesio.
  3. Los bloqueadores de canales de calcio previenen algunas migrañas.
  4. El magnesio es un bloqueador natural del canal de calcio.
  5. La depresión cortical diseminada (DCD) está implicada en algunas migrañas.
  6. Los niveles altos de magnesio inhiben la DCD.
  7. Los pacientes con migraña tienen una alta agregación plaquetaria.
  8. El magnesio puede suprimir la agregación plaquetaria.

Estas evidencias permitieron crear una hipótesis que no existía en la literatura científica como tal pero que se pudo encontrar de manera indirecta haciendo un análisis diferente de los textos. Según Swanson (Swanson y otros, 1994), estudios posteriores probaron experimentalmente esta hipótesis obtenida por text mining con buenos resultados.
De la misma manera, analizando por ejemplo las fichas de entrada en una fabrica es posible obtener información sobre los trabajadores que sellan al entrar y al salir. Estudiándolas detenidamente se podría averiguar si existe algún día en el que esos trabajadores entran o salen mas tarde de lo normal, si existe algún departamento en el que los trabajadores suelen salir mas tarde, la incidencia de faltas o retrasos en función de las fechas, etc.



Volver al Inicio

¿Como hacer minería de textos (Text Mining)?


Es una técnica relativamente nueva, cambiante y que puede adaptarse a diferentes situaciones y casos, por lo que no existe un método estricto a seguir siempre. Sin embargo, en términos generales se podría decir que estas son las cuatro etapas principales:
Primera Determinación de los objetivos. Aclarar que es lo que se esta buscando con esta investigacion, acotando hasta que punto se quiere profundizar en la misma y definiendo claramente los limites.
Segunda Preprocesamiento de los datos, que seria la selección, análisis y reducción de los textos o documentos de los que se extraerá la información. Esta etapa consume la mayor parte del tiempo.
Tercera Determinación del modelo. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse unas técnicas u otras.
Cuarta Análisis de los resultados. A partir de los datos extraidos se tratara de ver su coherencia y se buscaran evidencias, similitudes, excepciones, etc, que puedan servir al especialista o al usuario que haya encargado el estudio para extraer conclusiones que pueda utilizar para mejorar algún aspecto de su empresa, compañía, administración u organización en general.

Volver al Inicio


Conclusiones sobre esta nueva tecnica de recuperacion y organizacion de la informacion


La minería de textos es una tecnología recuperacion y organizacion de la informacion que aunque todavía es emergente y necesita ser mejor desarrollada, nos sirve para obtener un tipo de información muy útil en cualquier tipo de organización publica o privada.
Económicamente es una técnica que puede utilizarse para ahorrar dinero y abrir oportunidades de negocio a las empresas.
En cualquier organización, las conclusiones a las que se puede llegar a través del text mining pueden ser utilizadas para la toma de decisiones.
Y todo esto es consecuencia del desarrollo tan abrumador que la sociedad de la información a supuesto en cuanto a la generación de información y nuestra capacidad para almacenarla. Cada vez es mas fácil recabar datos y guardarlos adecuadamente. El reto es saber aprovechar el potencial de conocimiento escondido en ellos. Gracias a técnicas de apoyo como el Text Mining se ha podido ver mas allá de lo que a simple vista ofrecen los documentos. Con esta y otras tecnicas de recuperacion y organizacion de la informacion se ha podido explorar, analizar, comprender y aplicar el conocimiento encerrado en los textos.
En el ámbito comercial, resulta interesante encontrar patrones ocultos de consumo de los clientes para poder explorar nuevos horizontes. Saber que un vehículo deportivo corre un riesgo de accidente casi igual al de un vehículo normal cuando su dueño tiene un segundo vehículo en casa ayuda a crear nuevas estrategias comerciales para ese grupo de clientes. Asimismo, predecir el comportamiento de un futuro cliente, basándose en los datos históricos de clientes que presentaron el mismo perfil, ayuda a poder retenerlo durante el mayor tiempo posible.
El campo de la minería de textos, text mining y data mining ofrece importantes expectativas profesionales para los documentalistas y los expertos en el campo de la información y las nuevas tecnologías. Su aplicación no siempre es sencilla y las organizaciones o administraciones que necesitan de estos estudios necesitaran consultar a expertos en el área para llevar a cabo estos estudios. Explicándole los objetivos el experto sabrá cual es la mejor manera de llevar a cabo el análisis de esos textos.

Volver al Inicio


Recursos sobre recuperacion y organizacion de la informacion consultados para la elaboracion de esta página, especialmente los relacioandos con la Mineria de Textos o Text Mining:


Data mining: torturando a los datos hasta que confiesen
Luis Carlos Molina Félix
Coordinador del programa de Data mining (UOC)
lmolinaf@uoc.edu

Minería de textos
Rocío Rodríguez Nuño
Estrella Fernández Machado
Text mining From Wikipedia
Wikipedia
National Centre for Text Mining (NaCTeM)
(NaCTeM)
Aplicaciones informáticas para el procesamiento del lenguaje natural
Mª del Carmen Gertrudis Casado
Asistentes Virtuales
Amaia Ibáñez
Bases de datos nativas en Internet y sistemas para almacenar y recuperar documentos HTML, RDF y XML
Olaia Arnedo Palomares
Buscadores semánticos
Guiomar Pérez López
Buscado res y posicionamiento para Intranets y CMS
Patricia Calderón Bonilla
Corrección ortográfica automática
Laura Alonso Ambrona
e-recruitment
Ana Sierra Pérez
Extracción de entidades de nombre
Eduardo Gay Guerrero
Evaluación de Buscadores Web
Jesús López Pérez
Factores indirectos, credibilidad y contenido
M.José Domínguez Martín
HCI: : Human Computer Interaction
Carlos Alberto Sousa Carballal
Identificación de autoría de un recurso
Nelda González López
Internet Invisible1
Internet Invisible2
Mª Pilar Álvarez Julvez
Monica Garrido Machuca
Lenguajes de recuperación para la Web
Noelia Fernández Marin
Modelos de búsqueda
Fernando Betancor Pérez
Motores de recuperación de documentos XML/RDF
Francisco Silvestre Tamarit
Plagio. Algoritmos para detectarlo
Mª Concepción Antolín Vega

Procesam iento del Lenguaje Natural para recuperación de información
Angela Herrero Izquierdo
Rosa Ana Sánchez Díez
Recuperación de audio
Ana Fonfría Solabarrieta
Recuperación de imágenes y videos
Mª del Carmen Villalvilla López

Resumen automático
Miriam Recio Montoya
Laura Mora Aprile
Sentiment Analisys, Opinion mining. Análisis de Blogs
Marta López Chinarro
SEM (Search Engine Management) y SEO
Ángeles Fernández Menéndez
Sistemas de Question-Answering
Asunción Maestro Pegenaute

Usabilidad Web
Mª Luisa Gómez Sarabia
Inmaculada Mateo Celaya
Usabilidad de la Web Semántica
Julio Bullido Aranda
Usabilidad y Accesibilidad en el posicionamiento y en la recuperación de información
Mª Rosario Narvaez Ternero
Vigilancia tecnológica
Rosario Domínguez Reyes

Web 2.0
Cristina Triviño Galán
Mª Jesús Matias Iglesias
Web 3.0
Lucia Orviz Loredo
Web Semántica
Rafael Ávila Alonso
Productos tecnolingüísticos aplicados al euskera
Maite Serna Martinez
Identificacion de autoria
Juan Cardenas Garcia

Volver al Inicio