top of page

CONTENIDO

MODULO 1: INTRODUCCIÓN A BIG DATA

Conceptos Básicos
Soluciones Disponibles
Necesidad de un nuevo enfoque
Qué es Hadoop

MODULO 2: LA ARQUITECTURA DE HADOOP

El sistema distribuido de ficheros (HDFS)
El paradigma MapReduce
Estructura de un cluster de Hadoop
Instalación y configuración de Hadoop

MODULO 3: GESTIÓN DEL SISTEMA DE ARCHIVOS HDFS

Comandos Básicos
Carga de Archivos
Files View

MODULO 4: GESTIÓN DE DATOS CON HIVE

Creando Tablas
Cargando Datos a Tablas
Creando Consultas
Configuración del Motor de Ejecución

MODULO 5: USANDO APACHE SPARK

Arquitectura de Spark
Componentes de Spark
Inicio de cluster de Apache Spark

MODULO 6: SPARK SQL

Introducción a Spark SQL
Spark Dataframes
Joins, Union
Sentencias de agrupamiento Group By

MODULO 7: PROCESANDO STREAMING CON KAFKA

Introducción a Kafka
Instalación de Kafka
Streaming con Kafka
Tópicos y subscriptores

MODULO 8: SPARK STREAMING Y KAFKA

Introducción a Spark Streaming
Integración de Spark y Kafka
Programación de Streaming con pyspark

MODULO 9: SPARK MACHINE LEARNING

Introducción a Machine Learning
Algoritmos de Machines Learning
Usando Spark MLlib
Algoritmos de ML y pyspark

BI BIG DATA CON HADOOP

La transformación digital o la evolución de las nuevas tecnologías y su calado en la sociedad empresarial tiene como resultado nuevos modelos de negocio adaptados a técnicas y procesos actuales que facilitan la toma de decisiones basadas en datos. Este curso presenta un enfoque práctico sobre las tecnologías: Big Data que se centra en la captura y procesamiento de los datos, y lo que es el Business Analytics como el Business Intelligence que nos permiten examinar esta información y posteriormente utilizarla con el fin de optimizar las decisiones.

Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre. Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Hadoop se inspiró en los documentos Google para MapReduce y Google File System (GFS).

Hadoop es un proyecto de alto nivel Apache que está siendo construido y usado por una comunidad global de contribuyentes, mediante el lenguaje de programación Java. Yahoo! ha sido el mayor contribuyente al proyecto, y usa Hadoop extensivamente en su negocio.
Capacitar al participante en los conceptos básicos de Big Data

Reconocer las herramientas y técnicas en un proyecto de Big Data

Capacitar al participante en la gestión y explotación de grandes volúmenes de datos con Apache Hadoop
Conocimiento de base de datos relacionales y/o no relacionales, de algún sistema operativo como Windows o Linux.

• Requerido Conocimiento del lenguaje de programación Python.

bottom of page