top of page

CONTENIDO

 

MODULO 1: INTRODUCCIÓN A BIG DATA

  1. Conceptos Básicos
  2. Soluciones Disponibles
  3. Necesidad de un nuevo enfoque
  4. Qué es Hadoop


MODULO 2: LA ARQUITECTURA DE HADOOP

  1. El sistema distribuido de ficheros (HDFS)
  2. El paradigma MapReduce
  3. Estructura de un cluster de Hadoop
  4. Instalación y configuración de Hadoop

 

MODULO 3: GESTIÓN DEL SISTEMA DE ARCHIVOS HDFS

  1. Comandos Básicos
  2. Carga de Archivos
  3. Files View

 

MODULO 4: GESTIÓN DE DATOS CON HIVE

  1. Creando Tablas
  2. Cargando Datos a Tablas
  3. Creando Consultas
  4. Configuración del Motor de Ejecución

 

MODULO 5: USANDO APACHE SPARK

  1. Arquitectura de Spark
  2. Componentes de Spark
  3. Inicio de cluster de Apache Spark

 

MODULO 6: SPARK SQL

  1. Introducción a Spark SQL
  2. Spark Dataframes
  3. Joins, Union
  4. Sentencias de agrupamiento Group By

 

MODULO 7: PROCESANDO STREAMING CON KAFKA

  1. Introducción a Kafka
  2. Instalación de Kafka
  3. Streaming con Kafka
  4. Tópicos y subscriptores

 

MODULO 8: SPARK STREAMING Y KAFKA

  1. Introducción a Spark Streaming
  2. Integración de Spark y Kafka
  3. Programación de Streaming con pyspark

 

MODULO 9: SPARK MACHINE LEARNING

  1. Introducción a Machine Learning
  2. Algoritmos de Machines Learning
  3. Usando Spark MLlib
  4. Algoritmos de ML y pyspark

 

BI BIG DATA CON HADOOP

  • La transformación digital o la evolución de las nuevas tecnologías y su calado en la sociedad empresarial tiene como resultado nuevos modelos de negocio adaptados a técnicas y procesos actuales que facilitan la toma de decisiones basadas en datos. Este curso presenta un enfoque práctico sobre las tecnologías: Big Data que se centra en la captura y procesamiento de los datos, y lo que es el Business Analytics como el Business Intelligence que nos permiten examinar esta información y posteriormente utilizarla con el fin de optimizar las decisiones.

    Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre. Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Hadoop se inspiró en los documentos Google para MapReduce y Google File System (GFS).

    Hadoop es un proyecto de alto nivel Apache que está siendo construido y usado por una comunidad global de contribuyentes, mediante el lenguaje de programación Java. Yahoo! ha sido el mayor contribuyente al proyecto, y usa Hadoop extensivamente en su negocio.

bottom of page