Objetivos
Aprenderás los principales algoritmos de aprendizaje supervisado y no supervisado.
Entre los algoritmos supervisados verás:
- Árboles de decisión,
- Redes neuronales
- Reglas de asociación
- Bayes ingenuo
- Bosques aleatorios.
- Y no supervisado como agrupamiento.
Descubrirás además cómo usar series las temporales, el método de Montecarlo, los algoritmos genéticos, y las técnicas de regresión, minería de textos y Big Data.
Estas aplicaciones podrás utilizarlas en múltiples campos como:
- Negocios
- Salud
- Recursos humanos
- Cobranzas
- Finanzas
- Publicidad
- Marketing
- Procesos de servicios y de producción
- Urbanismo
- Políticas públicas, etc.
Que los alumnos:
- Entiendan los conceptos del campo
- Manejen los principales algoritmos para crear modelos predictivos
- Utilicen las herramientas de aprendizaje no supervisado
- Sepan medir con criterio del negocio los resultados de sus modelos
- Participen de las experiencias aportadas por los instructores
Modalidad de cursado
Diplomatura en Ciencia de Datos Modalidad a distancia de forma Online.
- Dos clases semanales por videoconferencias interactivas, una teórica y una práctica. La duración de cada clase es de 30 a 60 minutos dependiendo del tema, la cantidad de participantes y el nivel de intervenciones conseguido.
- El estudiante tiene actividad complementaria con material de soporte de las clases, material teórico para estudiar, ejercicios resueltos y para resolver, corrección de ejercicios y autoevaluaciones.
- La dedicación recomendada a estas actividades es de ocho horas semanales.
- Soporte docente por Grupo de WhatsApp, email y foro.
Fechas y horarios
Primeras dos semanas de cursada:
Lunes a Viernes a las 19 horas (5 clases semanales)
A partir de la tercer semana de cursada:
Lunes y Viernes 20.15 horas y Martes 19 horas (3 clases semanales)
Definiciones de Ciencia de DatosIntroducción a la Ciencia de Datos Niveles a los que opera la ciencia de datos Introducción a Data Warehouse Introducción a Data Mining Introducción a Knowledge Discovery Introducción a Herramientas OLAP y Tableros de comando Repaso de herramientas disponibles Taxonomía de las competencias de un científico de datos Primeros pasos en R Instalando y cargando paquetes en R | Introducción a RVariables, vectores y matrices Dataframes Paquetes y librerías Manejo de archivos csv Conversiones de tipos Conexión a bases de datos Ejecución condicional Bucles Funciones en R Medidas estadísticas Correlaciones Funciones estadísticas |
Introducción a PythonDescarga e instalación Principales librerías Variables y tipos de datos Listas, tuplas y diccionarios Ejecución condicional Ciclos definidos e indefinidos Manejo de Excepciones Funciones y Generadores Clases y objetos Manejo de archivos y directorios Conexión a archivos planos Conexión a Excel Conexión a Bases de Datos | Tests básicosRepaso de conceptos de probabilidad y estadística Test de Hipótesis Correlaciones AB Test Cálculo de correlaciones en R con cor Funciones de distribución en R Histogramas en R Gráficos de líneas en R Gráficos de áreas en R Uso de NumPy Uso de Pandas Uso de MatPlotLib Módulo matplotlib Módulo math Módulo numpy Módulo yt Módulo mayavi |
RegresionesRegresión Lineal Regresión polinómica Regresión exponencial y logarítmica Regresión de dos variables Cálculo de regresiones en R con lm Cálculo de regresiones logísticas en R con glm Regresiones en Python Regresión logística en Python | Arboles de decisiónAlgoritmo básico en Excel División en entrenamiento y prueba Uso de Rpart y cp Predicción y valoración de la solución Uso de Party Aplicación al problema del call center Instalación y uso del paquete en Python Ejemplo en Python Principales parámetros de ajuste y control |
ClustersAlgoritmo básico en Excel Uso de kmeans en R Ejemplo de aplicación real en R Otros algoritmos de agrupamiento en R Ejercicio de aplicación de agrupamiento de mascotas Uso de Scikit-Learn en Python Análisis de componentes principales en Python K-Medias en Python Clustering jerárquico en Python | Reglas de AsociaciónAlgoritmo básico en Access División en entrenamiento y prueba en R Uso de arules en R Ejemplo de una aplicación real votación de reglas en R Ejemplo de una aplicación real a datos de ventas en supermercados en R Instalación y uso del paquete en Python Ejemplo en Python Principales parámetros de ajuste y control Esquema de votación de reglas en Python |
Redes NeuronalesAlgoritmo básico en Excel División en entrenamiento y prueba en R Uso de neuralnet Predicción y valoración de la solución en R Discusión del problema de legibilidad de los resultados desde el negocio Competencia entre árboles y redes en un caso concreto en R Instalación y uso del paquete en Python Ejemplo en Python Principales parámetros de ajuste y control en Python Problema concreto en Python | Algoritmos genéticosAlgoritmo básico en Excel Discusión del tipo de problemas en los que se aplica Discusión de otros mecanismos de optimización Implementación en R del uso de algoritmos genéticos como Valores reales Binarios Permutaciones Implementación en Python |
Series temporalesTaxonomía Separación de componentes Predicciones ARIMA implementado en R Predicción en series con un único período Predicción en series con múltiples períodos Predicción en series con períodos variables: renormalización Implementación en Python | Método de Simulación de MontecarloAlgoritmo básico en Excel Discusión de la utilidad del método Comparación con el análisis de escenarios Ejemplo de una aplicación real Ejemplo simple implementado en R Ejemplo simple implementación en Python |
Minería de textosClasificación supervisada de piezas de texto Construcción de una red semántica Discusión de las posibilidades de reconocimiento de voz Ejemplos de aplicación real del algoritmo de clasificación Aplicación a la detección de sentimientos Ejemplo de implementación en Python | Vecinos Cercanos (Knn)Instalación y uso del paquete en R Ejemplo conceptual en Excel Ejemplo en R Instalación y uso del paquete en Python Ejemplo en Python Principales parámetros de ajuste y control. |
Bayes IngenuoImplementación en Excel Ejemplo de aplicación en R Comparación de 4 algoritmos predictivos (Bayes ingenuo, árboles, redes neuronales y regression logística) Ejemplo de aplicación en Python | Random ForestBootstrap y bagging Descripción conceptual del método random forest Paquete randomForest para R Ejemplo de aplicación Comparación con otras técnicas Implementación en Python |
Métodos bayesianos avanzadosDescripción conceptual del método: Regresión lineal bayesiana Regresión logística bayesiana Inferencia bayesiana Red bayesiana Ejemplos de aplicación en R Paquete BAS Paquete brms Paquete arm Paquete bnlearnd Comparación con otras técnicas Ejemplos de aplicación en Python | Máquina de soporte vectorialDescripción conceptual del método Paquete e1071 para R Ejemplo de aplicación en R Ejemplo de aplicación en Python Comparación con otras técnicas |
Discriminante lineal y cuadráticoInstalación y uso del paquete Ejemplo conceptual en Excel Ejemplo en R Ejemplo en Python Principales parámetros de ajuste y control en R Principales parámetros de ajuste y control en Python Problema concreto | Análisis de FourierDescripción conceptual Ejemplo conceptual en Excel Instalación y uso del paquete en R Instalación y uso del paquete en Python Ejemplo en R Ejemplo en Python |
Herramientas geográficasDistancias Implementación en R Paquete sf Paquete nngeo Aplicación práctica en R Implementación en Python Aplicación práctica en Python | Bases de datos documentalesInstalación de MongoDB Conexión a R Conexión a Python Aplicación práctica en R Aplicación práctica en Python |
Diseño de DatawarehousesDiferencias entre los DW y los OLTP Tipos de datos y soportes Dimensiones y jerarquías Estimación de recursos y tiempos según tipos de datos Ejemplos de staging Interacción entre equipos (DB-ETL-Soporte-FrontEnd-Usuarios) Ejercicios de diseño de DW | Diseño y construcción de ETLProcesos ETL: generalidades, buenas prácticas, esquemas de ETL Detalles de cada etapa: extracción, limpieza, normalización, transformación, carga Estrategias de update Ejercicios de diseño de ETL para la carga inicial Ejercicios de diseño de ETL para la actualización Licencia, descarga e instalación de Open Refine Uso general como herramienta de limpieza de datos Pre-procesado de los datos Casos de interés y ejemplos Licencias, descarga e instalación de Pentaho-Kettle Pentaho Kettle: funciones, características, utilización Auditoría y documentación Ejemplos de uso |
Big Data¿Qué es Big Data? ¿Cuándo usar Big Data? ¿Cómo armar una infraestructura para Hadoop? Ejemplo de una aplicación de Map Reduce: wordcount Como evitar Hadoop |
Instancias de evaluación
Examen final.
Requisitos de aprobación
Mínimo 60 % de respuestas correctas.