Formation Pig, Hive et Impala

Public : techniciens et spécialistes des bases de données, responsables, analystes métier et professionnels BI, souhaitant utiliser les technologies Big Data dans leur entreprise

Durée : 4 jour(s)

Syllabus de la formation Pig, Hive et Impala

Pré-requis : Connaissances fondamentales des bases de données et de SQL sont un atout majeur

Objectifs : - Manipuler des ensembles de données complexes stockés dans Hadoop sans avoir à écrire de code complexe avec Java - Automatiser le transfert des données dans le stockage Hadoop avec Flume et Sqoop - Filtrer les données avec les opérations Extract-Transform-Load (ETL) avec Pig - Interroger plusieurs ensembles de données pour une analyse avec Pig et Hive

Sanction : Attestation de fin de formation mentionnant le résultat des acquis

Référence : BUS100295-F

Accessibilité : Si vous êtes en situation de handicap, nous sommes en mesure de vous accueillir, n'hésitez pas à nous contacter à referenthandicap@dawan.fr, nous étudierons ensemble vos besoins

Contact : commercial@dawan.fr

Télécharger le programme

INTER INTRA DISTANCE TUTORAT

2 760,00 € HT

Tarif plein :

Paiement à 60 jours
Report possible à J-3
3 tickets d'assistance

2 208,00 € HT

Tarif remisé :

Voir les dates
Paiement à 30 jours
Report sans frais à J-21

Contacter Dawan

Programme de Formation Pig, Hive et Impala

Introduction

Vue d'ensemble de Hadoop
Analyser les composants Hadoop
Définir l'architecture Hadoop

Stocker les données dans HDFS

Réaliser un stockage fiable et sécurisé
Surveiller les mesures du stockage
Contrôler HDFS à partir de la ligne de commande

Traitement parallèle avec MapReduce

Détailler l'approche MapReduce
Transférer les algorithmes et non les données
Décomposer les étapes clés d'une tâche MapReduce

Automatiser le transfert des données

Faciliter l'entrée et la sortie des données
Agréger les données avec Flume
Configurer le fan in et le fan out des données
Déplacer les données relationnelles avec Sqoop

Décrire les caractéristiques d'Apache Pig

Exposer les différences entre Pig et MapReduce
Identifier les cas d'utilisation de Pig
Identifier les configurations clés de Pig

Structurer les données non structurées

Représenter les données dans le modèle de données de Pig
Exécuter les commandes Pig Latin au Grunt Shell
Exprimer les transformations dans la syntaxe Pig Latin
Appeler les fonctions de chargement et de stockage

Transformer les données avec les opérateurs relationnels

Créer des nouvelles relations avec des jointures
Réduire la taille des données par échantillonnage
Exploiter Pig et les fonctions définies par l'utilisateur

Filtrer les données avec Pig

Consolider les ensembles de données avec les unions
Partitionner les ensembles de données avec les splits
Ajouter des paramètres dans des scripts Pig

Exploiter les avantages métier de Hive

Factoriser Hive en composants
Imposer la structure sur les données avec Hive

Organiser les données dans Hive

Créer des bases de données et des tables Hive
Exposer les différences entre les types de données dans Hive
Charger et stocker les données efficacement avec SerDes

Concevoir la disposition des données pour la performance

Remplir les tables à partir de requêtes
Partitionner les tables de Hive pour des requêtes optimales
Composer des requêtes HiveQL

Réaliser des jointures sur des données non structurées

Distinguer les jointures disponibles dans Hive
Optimiser la structure des jointures pour les performances

Repousser les limites de HiveQL

Trier, répartir et regrouper des données
Réduire la complexité des requêtes avec les vues
Améliorer la performance des requêtes avec les index

Déployer Hive en production

Concevoir les schémas de Hive
Établir la compression des données
Déboguer les scripts de Hive

Rationaliser la gestion du stockage avec HCatalog

Unifier la vue des données avec HCatalog
Exploiter HCatalog pour accéder au metastore Hive
Communiquer via les interfaces HCatalog
Remplir une table Hive à partir de Pig

Traitement parallèle avec Impala

Décomposer les composants fondamentaux d'Impala
Soumettre des requêtes à Impala
Accéder aux données Hive à partir d'Impala

Lancer le framework Spark

Réduire le temps d'accès aux données avec Spark-SQL
Interroger les données Hive avec Spark-SQL

Délai d'accès :Le délai d’accès à la formation certifiante est de 7 jours après validation du dossier. Dans le cas d’un financement via votre CPF, la validation de votre dossier devra être réalisée 11 jours ouvrés avant le début de formation

Modalités d’évaluation : Les évaluation en cours de formations sont réalisées par les ateliers de mise en pratique et les échanges avec les formateurs

Un support et les exercices du cours pour chaque stagiaire
Un formateur expert ayant suivi une formation à la pédagogie et ayant au minimum 3 année d'expériences dans le domaine visé
Boissons offertes pendant les pauses en inter-entreprises
Salles lumineuses et locaux facilement accessibles
Méthodologie basée sur l'Active Learning : 75% de pratique minimum
Matériel pour les formations présentielles informatiques : un PC par participant
Positionnement à l'entrée et à la sortie de la formation
Certification CPF quand formation éligible
Délai d’accès : D'une à trois semaines en fonction des sessions ouvertes

Suite de parcours et formations associées

Pour suivre une session à distance depuis l'un de nos centres, contactez-nous.

Aucune date de programmée actuellement. Pour plus d'information sur les prochaines sessions, nous vous invitons à joindre le service commercial par téléphone au 09 72 37 73 73 (prix d'un appel local) ou depuis notre formulaire de contact.

Nos centres de formation

Bordeaux

Bât Ravezies - 2e étage 250 avenue Emile Counord

33300 Bordeaux

Liaison directe de la gare Bordeaux Saint-Jean via le tram C
Bruxelles

Rue de la Loi, 23

1040 Bruxelles
Distance

32 Boulevard Vincent Gâche

44000 Nantes
Genève

c/o CCI France Suisse Route de Jussy 35 Case postale 6298

CH-1211 Thônex - Genève
Lille

46 rue des Canonniers - 2è étage

59800 Lille

Proche des deux gares
Luxembourg

5 Rue Goethe

L-1637 Luxembourg
Lyon

62 rue de Bonnel - 1er étage Ascenseur à droite de l'entrée

69003 Lyon
Marseille

38/40 rue de la République Escalier A, 1er étage

13001 Marseille

A proximité du vieux port
Montpellier

26 Allée de Mycènes Le Thèbes, Bât. A, 3è étage

34000 Montpellier

Quartier Antigone
Nantes

32 Boulevard Vincent Gâche 5 ème étage

44200 Nantes
Nice

455 promenade des Anglais Bât Arenice, 7è étage

06200 Nice
Paris

11 rue Antoine Bourdelle

75015 Paris

dans le 15e arrondissement
Rennes

3 place du Général Giraud

35000 Rennes
Strasbourg

4 rue de Sarrelouis - 4è étage

67000 Strasbourg
Toulouse

1 place Occitane Bât. Le Sully - 4è étage

31000 Toulouse

Proche de Jean-Jaurès et du Capitole

Formation Pig, Hive et Impala

Syllabus de la formation Pig, Hive et Impala

Tarif plein :

Tarif remisé :

Programme de Formation Pig, Hive et Impala

Introduction

Stocker les données dans HDFS

Traitement parallèle avec MapReduce

Automatiser le transfert des données

Décrire les caractéristiques d'Apache Pig

Structurer les données non structurées

Transformer les données avec les opérateurs relationnels

Filtrer les données avec Pig

Exploiter les avantages métier de Hive

Organiser les données dans Hive

Concevoir la disposition des données pour la performance

Réaliser des jointures sur des données non structurées

Repousser les limites de HiveQL

Déployer Hive en production

Rationaliser la gestion du stockage avec HCatalog

Traitement parallèle avec Impala

Lancer le framework Spark

Suite de parcours et formations associées

Nos centres de formation

Bordeaux

Bruxelles

Distance

Genève

Lille

Luxembourg

Lyon

Marseille

Montpellier

Nantes

Nice

Paris

Rennes

Strasbourg

Toulouse

Nous traitons vos données personnelles pour :