Spark: Big Data y Spark SQL-Spark Streaming [Curso de 8 hs]

CamilaP · 20 Ene 2017

Precios especiales para empresa. Pregunte por nuestros Cursos personalizados.

RESERVE SU PLAZA

Sesiones:

7 de marzo de 2017, 17:00 - 21:00 CET

8 de marzo de 2017, 17:00 - 21:00 CET

Al inscribirse al curso, tiene acceso a la grabación del mismo durante un año.

Dirigido a:

El curso va dirigido a personas con un perfil de programación, por lo que se desea unos conocimientos mínimos de algún lenguaje de programación, al ser posible Python. También es recomendable, aunque no obligatorio que tengan conocimientos sobre HDFS y MapReduce.

SESIÓN I

Introducción al mundo del Big Data. Centrándonos en una distribución de referencia como es Hortonworks. En esta sesión se explicarán brevemente la mayoría de herramientas que ofrece la distribución Hortonworks, pero nos centraremos en el framework Spark.

La sesión comenzará hablando en términos generales sobre cómo ha surgido la necesidad de las tecnologías Big Data en el mundo empresarial y como ha sido su evolución desde los clásicos sistemas distribuidos a las actuales distribuciones basadas en el ecosistema hadoop.

Tras esta breve introducción citaremos brevemente la funcionalidad de las diversas herramientas Big Data que pueden resultar de gran interés en el desarrollo de proyectos Big Data. Ejemplos: sqoop, oozie, hive, storm, flume, Kafka, etc..

Y por último incidiremos en la parte fundamental del curso que será Apache Spark. Comenzando con una breve explicación de cómo funciona sobre la arquitectura yarn, pasando después a la sección dedicada a explicar Spark Core RDD a través de ejemplos prácticos con el lenguaje Python.

Temario

• Introducción de Big Data

o Casos reales

• Hadoop

o HDFS

o MapReduce

• Hortonworks

o Recorrido por sus principales herramientas BigData: sqoop, hive, flume, kafka, storm, etc.

• Spark

o Arquitectura Yarn

o Spark RDD

 Ejercicios

Casos prácticos

Hablaremos sobre proyectos reales de Big Data.

Trataremos de explicar la utilidad de cada una de las herramientas en casos reales.

Realizaremos ejercicios practicos de Spark RDD con lenguaje Python

SESIÓN II

La sesión comenzará con un repaso de Apache Spark Core RDD, para a continuación incidir en Spark SQL y Spark Streaming. Antes de ver Spark Streaming explicaremos dos herramientas básicas en los proyectos de Big Data que contienen flujos de datos en tiempo real como son Kafka y Flume. Por último, veremos la integración de Kafka con Spark Streaming.

Esta segunda sesión trata de ampliar los conocimientos en el Framework Apache Spark de los alumnos que ya conozcan la parte de Spark Core RDD, para que entiendan y comiencen a desarrollar con Spark SQL y Spark Streaming. En el curso también aprenderán el funcionamiento de las herramientas Flume y Kafka.

La integración de Kafka y Spark Streaming también será una pieza clave en el curso. Siendo los ejercicios prácticos la herramienta didáctica más utilizada para entender la utilidad de Spark en proyectos reales.

Temario

• Introducción a Spark

• Repaso rápido a Spark RDD (Se profundiza en el curso Spark I)

• Spark Sql

o Ejercicios Spark Sql

o Integración con Hive

o Ejercicios Hive-Spark Sql

• Kafka y Flume

o Ejercicio Flume

o Ejercicio Kafka

o Ejercicio Kafka-Flume

• Spark Streaming

o Ejercicios Spark Streaming

o Integración con Kafka

o Ejercicios Integración Kafka

Casos prácticos

Realizaremos ejercicios prácticos de Spark SQL y Spark Streaming con lenguaje Python.

Integración con Kafka. Hablando de la gran utilidad que supone está integración en casos reales de proyectos de Big Data.

PARA INSCRIBIRSE HAGA PINCHE AQUI

Spark: Big Data y Spark SQL-Spark Streaming [Curso de 8 hs]

CamilaP

Élite