Objetivos
La Diplomatura en Big data está orientada a enseñar a procesar, con aplicaciones informáticas no tradicionales grandes y complejos conjuntos de datos, estructurados y no estructurados, para extraer valor de los datos almacenados.
El objetivo es formular predicciones a través de los patrones observados. Las aplicaciones permiten crear informes estadísticos y modelos predictivos utilizados en muchísimas áreas temáticas.
Veremos que es y que no es Big Data, cuando nos conviene usar los métodos de procesamiento en paralelo al tiempo que la pasamos revista al ecosistema de hadoop. Cubriremos los criterios para diseñar un cluster de hadoop distinguiendo entre los nodos maestros, esclavos y de borde.
Recorreremos el uso de herramientas específicas como Spark, Cassandra, Pig, Hive, Google Cloud Sql y Google Big Table.
Modalidad de cursado
Diplomatura en Big Data a distancia de forma Online.
- Dos clases semanales por videoconferencias interactivas, una teórica y una práctica. La duración de cada clase es de 30 a 60 minutos dependiendo del tema, la cantidad de participantes y el nivel de intervenciones conseguido.
- El estudiante tiene actividad complementaria con material de soporte de las clases, material teórico para estudiar, ejercicios resueltos y para resolver, corrección de ejercicios y autoevaluaciones.
- La dedicación recomendada a estas actividades es de ocho horas semanales.
- Soporte docente por Grupo de WhatsApp, email y foro.
Programa analítico
Unidad 1: ¿Qué es y que no es Big Data?
- Definiciones
- La producción de datos a lo largo del tiempo
- El problema del sentido de los datos
- La evolución del límite de Big Data a largo del tiempo
- La estrategia de los motores relacionales para hacerse “amigables con big data”
- Ecosistema de Hadoop
Unidad 2: ¿Cuándo usar técnicas de Big Data?
- Concepto de paralelización
- Ley de Amdhal
- Concepto del costo computacional
- Concepto de muestra aleatoria
- Problemas muestreables y no muestreables
- Ventajas y desventajas de Big Data
Unidad 3: Infraestructura de Big Data
- Diferentes nodos en Hadoop
- Arquitectura de los nodos maestros (Procesadores, Memoria, Discos y Placas de Red)
- Arquitectura de los nodos esclavos (Procesadores, Memoria, Discos y Placas de Red)
- Arquitectura de los nodos de borde (Procesadores, Memoria, Discos y Placas de Red)
- Arquitectura de red (Switches TOR y Distribuidores)
- Desventajas de los recursos compartidos para Big Data (virtualización blades y dockers)
- Modos de funcionamiento (stand alone,pseudodistribuido, completamente distribuido)
- Herramientas de benchmarking
Unidad 4: Sistema operativo Linux
- Instalación
- Comandos para el sistema de archivos
- Administración de la seguridad
- Mantenimiento y copias de seguridad
Unidad 5: Máquina virtual de Hortonworks
- Descarga e instalación de VirtualBox
- Descarga e instalación de la máquina virtual
- Configuración de la máquina virtual
- Consideraciones de performance
- Copias de seguridad
Unidad 6: Ecosistema de Big Data
- Map reduce
- Configuración de un cluster
- Zookeeper
- Ambari
- Hive en profundidad
- Ejemplos de punta a punta
- Datalakes: ingesta y extracción
- Calidad de los big datos
Unidad 7: Introducción a NoSQL
- Teoría Concepto de NoSQL.
- Modelo Relacional vs estructuras No Relacionales.
- Criterio de selección entre ambos modelos.
- Relación con los volúmenes de datos y de consultas.
- ACID en NoSQL.
- Tecnología MySQL
Unidad 8: Modelos de NoSQL
- Teoría Distintos modelos NoSQL.
- Implementación y funcionamiento de cada uno de ellos.
- Comparación de las distintas soluciones.
- Tecnología MongoDB, Cassandra, Redis
Unidad 9: Administración de bases NoSQL
- Teoría Administración y recuperación desde fuentes de datos no estructurados.
- Interfaces de administración.
- Técnicas de acceso.
- Distribución de datos.
- Escalamiento Horizontal.
- Tecnología MongoDB, Cassandra, Redis
Unidad 10: Replicación y particionamiento
- Teoría Replicación y particionamiento.
- Teorema CAP.
- Modelos de replicación: Master-Slave; Master-SlaveMaster; peer to peer;
- Criterios de aprisionamiento. Distintos tipos de consistencia: eventual, por quorum, plena de escritura, plena de lectura.
- Tecnología MongoDB, Cassandra, Redis
Unidad 11: Criterios de diseño NoSQL
- Teoría Acceso a estructura NoSQL desde una aplicación.
- Creación de tablas.
- Diseño de base de datos.
- Operaciones CRUD.
- Tecnología MongoDB, Cassandra, Redis
Unidad 12: Integración NoSQL.
- Teoría Manejo de grandes volúmenes de datos.
- Integración de estructuras NoSQL en Data Marts.
- Comparación de rendimientos con estructuras relacionales.
- Tecnología MongoDB, Cassandra, Redis
Instancias de evaluación
Examen final.
Requisitos de aprobación
Mínimo 60 % de respuestas correctas.
Equipo docente de la Diplomatura en Big Data
- Ignacio Urteaga
- Laura Siri
- Susana Sarmiento
- Guillermo Garofalo