Objetivos
La Diplomatura de Ciencias de Datos (Data Science) está pensado como un primer escalón en la formación de científicos de datos. Pueden hacerla tanto los que persigan una carrera de tipo gerencial y quieran conocer las posibilidades de las herramientas como los que quieran utilizarlas con sus propias manos.
Con la Diplomatura de Ciencia de Datos aprenderás los principales algoritmos de aprendizaje supervisado como árboles de decisión, redes neuronales, reglas de asociación, bayes ingenuo, bosques aleatorios, y no supervisado como agrupamiento.
Además descubrirás cómo usar series temporales, el método de Montecarlo, los algoritmos genéticos, y las técnicas de regresión, minería de textos y Big Data.
Las aplicaciones podrás utilizarlas en múltiples campos, como negocios, salud, recursos humanos, cobranzas, finanzas, publicidad, marketing, procesos de servicios y de producción, urbanismo, políticas públicas, etc.
Programa Analítico
Introducción a Ciencia de Datos
- Introducción a la Ciencia de Datos
- Niveles a los que opera la ciencia de datos
- Introducción a Data Warehouse
- Introducción a Data Mining
- Introducción a Knowledge Discovery
- Introducción a Herramientas OLAP y Tableros de comando
- Repaso de herramientas disponibles
- Taxonomía de las competencias de un científico de datos
- Primeros pasos en R
- Instalando y cargando paquetes en R
Diseño y construcción de un DW
- Diferencias entre los DW y los OLTP
- Tipos de datos y soportes
- Dimensiones y jerarquías
- Estimación de recursos y tiempos según tipos de datos
- Ejemplos de staging
- Interacción entre equipos (DB-ETL-Soporte-FrontEnd-Usuarios)
- Ejercicios de diseño de DW
Tests básicos
- Repaso de conceptos de probabilidad y estadística
- Test de Hipótesis
- Correlaciones AB Test
- Cálculo de correlaciones en R con cor
- Funciones de distribución en R
- Histogramas en R
- Gráficos de líneas en R
- Gráficos de áreas en R
Regresiones
- Regresión Lineal
- Regresión polinómica
- Regresión exponencial y logarítmica
- Regresión de dos variables
- Cálculo de regresiones en R con lm
- Cálculo de regresiones logísticas en R con glm
Árboles de decisión
- Algoritmo básico en Excel
- División en entrenamiento y prueba
- Uso de Rpart y cp
- Predicción y valoración de la solución
- Uso de Party
- Aplicación al problema del call center
Clusters
- Algoritmo básico en Excel
- Uso de kmeans
- Ejemplo de aplicación real
- Otros algoritmos de agrupamiento en R
- Ejercicio de aplicación de agrupamiento de mascotas
Reglas de Asociación
- Algoritmo básico en Access
- División en entrenamiento y prueba
- Uso de arules en R
- Ejemplo de una aplicación real votación de reglas
- Ejemplo de una aplicación real a datos de ventas en supermercados
Redes Neuronales
- Algoritmo básico en Excel
- División en entrenamiento y prueba
- Uso de neuralnet
- Predicción y valoración de la solución
- Discusión del problema de legibilidad de los resultados desde el negocio
- Competencia entre árboles y redes en un caso concreto
Algoritmos genéticos
- Algoritmo básico en Excel
- Discusión del tipo de problemas en los que se aplica
- Discusión de otros mecanismos de optimización
- Implementación en R del uso de algoritmos genéticos como Valores reales
- Binarios Permutaciones
Series temporales
- Taxonomía
- Separación de componentes
- Predicciones
- ARIMA implementado en R
- Predicción en series con un único período
- Predicción en series con múltiples períodos
- Predicción en series con períodos variables: renormalización
Método de Simulación de Montecarlo
- Algoritmo básico en Excel
- Discusión de la utilidad del método
- Comparación con el análisis de escenarios
- Ejemplo de una aplicación real
- Ejemplo simple implementado en R
Minería de textos
- Clasificación supervisada de piezas de texto
- Construcción de una red semántica
- Discusión de las posibilidades de reconocimiento de voz
- Ejemplos de aplicación real del algoritmo de clasificación
- Aplicación a la detección de sentimientos
Diseño y construcción de ETL
- Procesos ETL: generalidades, buenas prácticas, esquemas de ETL
- Detalles de cada etapa: extracción, limpieza, normalización, transformación, carga
- Estrategias de update
- Ejercicios de diseño de ETL para la carga inicial
- Ejercicios de diseño de ETL para la actualización
- Licencia, descarga e instalación de Open Refine
- Uso general como herramienta de limpieza de datos Pre-procesado de los datos
- Casos de interés y ejemplos
- Licencias, descarga e instalación de Pentaho-Kettle
- Pentaho Kettle: funciones, características, utilización Auditoría y documentación
- Ejemplos de uso
Bayes Ingenuo
- Implementación en Excel
- Ejemplo de aplicación en R
- Comparación de 4 algoritmos predictivos (Bayes ingenuo, árboles, redes neuronales y regression logística)
Random Forest
- Descripción conceptual del método
- Paquete randomForest
- Ejemplo de aplicación
- Comparación con otras técnicas
Métodos bayesianos avanzados
- Descripción conceptual del método: Regresión lineal bayesiana
- Regresión logística bayesiana
- Inferencia bayesiana
- Red bayesiana
- Ejemplos de aplicación
- Paquete BAS
- Paquete brms
- Paquete arm
- Paquete bnlearnd
- Comparación con otras técnicas
Máquina de soporte vectorial
- Descripción conceptual del método
- Paquete e1071
- Ejemplo de aplicación
- Comparación con otras técnicas
Big Data
- ¿Qué es Big Data?
- ¿Cuándo usar Big Data?
- ¿Cómo armar una infraestructura para Hadoop?
- Ejemplo de una aplicación de Map Reduce: wordcount
- Como evitar Hadoop
- Pig Hive
- Cassandra
Modalidad de cursado
- Diplomatura en Ciencia de Datos Modalidad a distancia de forma Online.
- Dos clases semanales por videoconferencias interactivas, una teórica y una práctica. La duración de cada clase es de 30 a 60 minutos dependiendo del tema, la cantidad de participantes y el nivel de intervenciones conseguido.
- El estudiante tiene actividad complementaria con material de soporte de las clases, material teórico para estudiar, ejercicios resueltos y para resolver, corrección de ejercicios y autoevaluaciones.
- La dedicación recomendada a estas actividades es de ocho horas semanales.
- Soporte docente por Grupo de WhatsApp, email y foro.
Fechas y horarios
Primeras dos semanas (introducción): Lunes y Jueves a las 19 horas. (2 clases semanales)
A partir de la tercer semana (horario fijo): Lunes y Viernes a las 20.15 horas. (2 clases semanales)