Ref: SIHA001

Data Analyst - Analyse de données en environnement Hadoop

Présentiel - 21h

Objectifs

Cette formation Data Analyst – Analyse de données en environnement Hadoop vous permettra de :

  • Identifier le fonctionnement d'Hadoop Distributed File System (HDFS) et YARN/MapReduce 
  • Explorer HDFS
  • Suivre l'exécution d'une application YARN
  • Définir le fonctionnent et utiliser les différents outils de manipulation de la donnée :
  • Hue : Utilisation de l'interface unifiée
  • Hive, Pig : Les générateurs de MapReduce
  • Tez : L'optimisation des générateurs de MapReduce
  • Sqoop : Comment importer les données de l'entreprise dans un cluster Hadoop?
  • Oozie : Comment organiser les exécutions des différentes applications ?

Syllabus

Introduction

  • Présentation générale d'Hadoop
  • Exemples d'utilisation dans différents secteurs
  • Historique et chiffres clés : Quand parle-t-on de Big Data ?

L'écosystème d'Hadoop

  • Le système de fichier HDFS
  • Le paradigme MapReduce et l'utilisation à travers YARN

Manipulation des données dans un cluster Hadoop

  • Hue : Comment fonctionne cette interface web ?
  • Hive : Pourquoi Hive n'est pas une base de données ?
  • Requête sur Hive
  • Utilisation de HCatalog
  • Utilisation avancée sur Hive
  • Utilisation de fonctions utilisateurs
  • Paramétrage de requête
  • Pig : Fonctionnement de Pig
  • Programmation avec Pig Latin
  • Utilisation du mode Local
  • Utilisation de fonctions utilisateurs
  • Tez : Qu'est-ce que Tez ?
  • Comment et quand l'utiliser ?
  • Oozie : Fonctionnement de Oozie
  • Création de Workflows avec Oozie
  • Manipulation des Workflows
  • Ajout d'éléments d'exploitation dans les Workflows
  • Ajout de conditions d'exécution
  • Paramétrage des Workflows
  • Sqoop : A quoi sert Sqoop ?
  • Chargement des données depuis une base de données relationnelle
  • Chargement des données depuis Hadoop
  • Utilisation et paramétrage avancée
  • Les particularités des distributions : Impala, Hawq
  • Quelles sont les bonnes pratiques d'utilisation des différents outils ?

Comment ?

Méthodes pédagogiques

1 poste et 1 support par stagiaire

8 à 10 stagiaires par salle

Remise d'une documentation pédagogique papier ou numérique pendant le stage

La formation est constituée d'apports théoriques, d'exercices pratiques, de réflexions et de retours d'expérience

Évaluation

Auto-évaluation des acquis par le stagiaire via un questionnaire en ligne

Attestation de fin de stage remise au stagiaire

Participez à la prochaine session !

S'inscrire

Admission

A qui s’adresse cette formation

Cette formation Data Analyst - Analyse de données en environnement Hadoop est destinée aux personnes qui devront manipuler les données dans un cluster Apache Hadoop.

Prérequis

Cette formation Data Analyst - Analyse de données en environnement Hadoop nécessite d'avoir une expérience dans la manipulation de données. Une connaissance préliminaire d'Hadoop n'est pas exigée.

Coût de la formation

Frais pédagogiques

2400€ HT

Tarif Inter-entreprise par personne

Aides au financement

Des dispositifs variés et aides au fnancement existent. N’hésitez pas à nous constulter pour en savoir plus.

En savoir plus sur les dispositifs de financement.

Le Pont Learning