Objetivos
La minería de textos es el proceso de analizar información por medio de la identificación de patrones o correlacionesentre los términos. Lo que permite encontrar información que no está explícita dentro del texto. El curso experto en Minería de Texto con Python fue pensado para ofrecer los conocimientos y herramientas necesariaspara poder aplicar efectivamente esta disciplina en el mundo real.Las posibilidades que ofrece esta disciplina son realmente amplias por ejemplo te mencionaremos algunos de los trabajosen la siguiente lista: Traducción Asistida/Automática,Reconocimiento de habla, Corrección ortográfica, Detección detópicos, Generación automática de resúmenes, Extracción de información, Sentiment Analysis, Chatbots, Etc
Pre-requisitos del curso
El nivel de programación con el que el estudiante cuente no es un impedimento en el momento de considerar el curso.La idea es comenzar desde lo más básico e ir acompañándolos con ejemplos prácticos para que puedan ir avanzando a suritmo y llegar al final con los conocimientos buscados.
Programa analítico
Unidad 1: Introducción a la minería de textos y al Procesamiento de Lenguaje Natural (PLN)
- ¿Por qué Python?.
- Minería de Textos y PLN.
- Recursos y herramientas del Text Mining para textos en español.
- Ejemplos de aplicación de Text Mining en el ámbito empresarial y académico.
- Librerías para el manejo de textos en Python.
- Funciones básicas de procesamiento de texto en Python.
Unidad 2: Creación de un corpus
- El concepto del corpus en PLN.
- Consolidación de un corpus a partir de archivos locales.
- Conceptos de HTML y CSS.
- Librerías de Web Scraping en Python.
- Ejemplo de aplicación de Web Scraping en Python.
- Conexión a APIs.
- Ejemplo de aplicación de armado de corpus desde API de Twitter.
Unidad 3: Limpieza y preparación del corpus
- Importancia del preprocesamiento del texto.
- Tokenizadores, N-Gramas y Stop Words.
- Etiquetadores de partes de la oración (POS taggers).
- Corpus Lingüísticos.
- Lematización y stemming.
- Ejemplos de aplicación en Python.
Unidad 4: Expresiones regulares
- Definición y uso de las Expresiones Regulares.
- Componentes de las Expresiones Regulares.
- Expresiones Regulares en Python.
- Práctica de aplicación en casos reales.
Unidad 5: Clasificación automática de textos
- Vectorización de textos.
- Algoritmo Tf-idf.
- Algoritmo de clasificación Bayesiano.
- Implementación en Python.
- Ejemplo de aplicación: clasificación de sentimiento de opiniones de usuarios.
Unidad 6: Identificación automática de tópicos
- Nociones de clasificación no supervisada.
- Modelado de tópicos.
- Algoritmo BoW y creación de Nube de Palabras.
- Implementación del algoritmo LDA para textos en español.
- Ejemplo de aplicación: identificación de tópicos en críticas de películas.
Recursos ofrecidos
- Clases teóricas en vivo: 1 x semana
- Clases prácticas en vivo: 1 x semana
- Material teórico para estudiar
- Ejercicios resueltos
- Corrección de ejercicios
- Autoevaluaciones
Cronograma de la cursada
Lunes y Miércoles 20.00 Horas