CONTENIDO
MODULO 1: INTRODUCCIÓN A BIG DATA
- Conceptos Básicos
- Soluciones Disponibles
- Necesidad de un nuevo enfoque
- Qué es Hadoop
MODULO 2: LA ARQUITECTURA DE HADOOP
- El sistema distribuido de ficheros (HDFS)
- El paradigma MapReduce
- Estructura de un cluster de Hadoop
- Instalación y configuración de Hadoop
MODULO 3: GESTIÓN DEL SISTEMA DE ARCHIVOS HDFS
- Comandos Básicos
- Carga de Archivos
- Files View
MODULO 4: GESTIÓN DE DATOS CON HIVE
- Creando Tablas
- Cargando Datos a Tablas
- Creando Consultas
- Configuración del Motor de Ejecución
MODULO 5: USANDO APACHE SPARK
- Arquitectura de Spark
- Componentes de Spark
- Inicio de cluster de Apache Spark
MODULO 6: SPARK SQL
- Introducción a Spark SQL
- Spark Dataframes
- Joins, Union
- Sentencias de agrupamiento Group By
MODULO 7: PROCESANDO STREAMING CON KAFKA
- Introducción a Kafka
- Instalación de Kafka
- Streaming con Kafka
- Tópicos y subscriptores
MODULO 8: SPARK STREAMING Y KAFKA
- Introducción a Spark Streaming
- Integración de Spark y Kafka
- Programación de Streaming con pyspark
MODULO 9: SPARK MACHINE LEARNING
- Introducción a Machine Learning
- Algoritmos de Machines Learning
- Usando Spark MLlib
- Algoritmos de ML y pyspark
BI BIG DATA CON HADOOP
La transformación digital o la evolución de las nuevas tecnologías y su calado en la sociedad empresarial tiene como resultado nuevos modelos de negocio adaptados a técnicas y procesos actuales que facilitan la toma de decisiones basadas en datos. Este curso presenta un enfoque práctico sobre las tecnologías: Big Data que se centra en la captura y procesamiento de los datos, y lo que es el Business Analytics como el Business Intelligence que nos permiten examinar esta información y posteriormente utilizarla con el fin de optimizar las decisiones.
Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre. Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Hadoop se inspiró en los documentos Google para MapReduce y Google File System (GFS).
Hadoop es un proyecto de alto nivel Apache que está siendo construido y usado por una comunidad global de contribuyentes, mediante el lenguaje de programación Java. Yahoo! ha sido el mayor contribuyente al proyecto, y usa Hadoop extensivamente en su negocio.