Formation Apache Spark

Public : Développeurs, architectes système et responsables techniques qui veulent déployer des solutions Spark dans leur entreprise

Durée : 4 jour(s)

Syllabus de la formation Apache Spark

Pré-requis : Maîtrise de la programmation orientée objet en Java ou en C#

Objectifs : - Développer des applications avec Spark - Utiliser les bibliothèques pour SQL, les flux de données et l'apprentissage automatique - Retranscrire des difficultés rencontrées sur le terrain dans des algorithmes parallèles - Développer des applications métier qui s'intègrent à Spark

Sanction : Attestation de fin de formation mentionnant le résultat des acquis

Référence : BUS100299-F

Accessibilité : Si vous êtes en situation de handicap, nous sommes en mesure de vous accueillir, n'hésitez pas à nous contacter à referenthandicap@dawan.fr, nous étudierons ensemble vos besoins

Contact : commercial@dawan.fr

Télécharger le programme

INTER INTRA DISTANCE TUTORAT

2 760,00 € HT

Tarif plein :

Paiement à 60 jours
Report possible à J-3
3 tickets d'assistance

2 208,00 € HT

Tarif remisé :

Voir les dates
Paiement à 30 jours
Report sans frais à J-21

Contacter Dawan

Programme de Formation Apache Spark

Introduction

Définition du Big Data et des calculs
À quoi sert Spark
Quels sont les avantages de Spark

Applications évolutives

Identifier les limites de performances des CPU modernes
Développer les modèles de traitement en parallèle traditionnels

Créer des algorithmes parallèles

Utiliser la programmation fonctionnelle pour l'exécution des programmes en parallèles
Retranscrire des difficultés rencontrées sur le terrain dans des algorithmes parallèles

Structures de données parallèles

Répartir les données dans le cluster avec les RDD (Resilient Distributed Datasets) et les DataFrames
Répartir l'exécution des tâches entre plusieurs nœuds
Lancer les applications avec le modèle d'exécution de Spark

Structure des clusters Spark

Créer des clusters résilients et résistants aux pannes
Mettre en place un système de stockage distribué évolutif

Gestion du cluster

Surveillance et administration des applications Spark
Afficher les plans d'exécution et les résultats

Choisir l'environnement de développement

Réaliser une analyse exploratoire avec le shell Spark
Créer des applications Spark autonomes

Utiliser les API Spark

Programmation avec Scala et d'autres langages compatibles
Créer des applications avec les API de base
Enrichir les applications avec les bibliothèques intégrées

Interroger des données structurées

Traiter les requêtes avec les DataFrames et le code SQL embarqué
Développer SQL avec les fonctions définies par l'utilisateur (UDF)
Utiliser les ensembles de données aux formats JSON et Parquet

Intégration à des systèmes externes

Connexion aux bases de données avec JDBC
Lancer des requêtes Hive sur des applications externes

Qu'appelle-t-on flux de données ?

Utiliser des fenêtres glissantes
Déterminer l'état d'un flux de données continu
Traiter des flux de données simultanés
Améliorer les performances et la fiabilité

Traiter les flux des sources de données

Traiter les flux des sources intégrées (fichiers journaux, sockets Twitter, Kinesis, Kafka)
Développer des récepteurs personnalisés
Traiter les données avec l'API Streaming et Spark SQL

Classer les observations

Prévoir les résultats avec l'apprentissage supervisé
Créer un élément de classification pour l'arbre de décision

Identifier les schémas récurrents

Regrouper les données avec l'apprentissage non supervisé
Créer un cluster avec la méthode k-means

Développer des applications métier avec Spark

Mise à disposition de Spark via un service Web RESTful
Générer des tableaux de bord avec Spark

Utiliser Spark sous forme de service

Service cloud vs. sur site
Choisir un fournisseur de services (AWS, Azure, Databricks, etc.)

Développer Spark pour les clusters de grande taille
Améliorer la sécurité des clusters multifournisseurs
Suivi du développement continu de produits Spark sur le marché
Projet Tungsten : repousser les performances à la limite des capacités des équipements modernes
Utiliser les projets développés avec Spark
Revoir l'architecture de Spark pour les plateformes mobiles

Délai d'accès :Le délai d’accès à la formation certifiante est de 7 jours après validation du dossier. Dans le cas d’un financement via votre CPF, la validation de votre dossier devra être réalisée 11 jours ouvrés avant le début de formation

Modalités d’évaluation : Les évaluation en cours de formations sont réalisées par les ateliers de mise en pratique et les échanges avec les formateurs

Un support et les exercices du cours pour chaque stagiaire
Un formateur expert ayant suivi une formation à la pédagogie et ayant au minimum 3 année d'expériences dans le domaine visé
Boissons offertes pendant les pauses en inter-entreprises
Salles lumineuses et locaux facilement accessibles
Méthodologie basée sur l'Active Learning : 75% de pratique minimum
Matériel pour les formations présentielles informatiques : un PC par participant
Positionnement à l'entrée et à la sortie de la formation
Certification CPF quand formation éligible
Délai d’accès : D'une à trois semaines en fonction des sessions ouvertes

Suite de parcours et formations associées

Pour suivre une session à distance depuis l'un de nos centres, contactez-nous.

Aucune date de programmée actuellement. Pour plus d'information sur les prochaines sessions, nous vous invitons à joindre le service commercial par téléphone au 09 72 37 73 73 (prix d'un appel local) ou depuis notre formulaire de contact.

Nos centres de formation

Bordeaux

Bât Ravezies - 2e étage 250 avenue Emile Counord

33300 Bordeaux

Liaison directe de la gare Bordeaux Saint-Jean via le tram C
Bruxelles

Rue de la Loi, 23

1040 Bruxelles
Distance

32 Boulevard Vincent Gâche

44000 Nantes
Genève

c/o CCI France Suisse Route de Jussy 35 Case postale 6298

CH-1211 Thônex - Genève
Lille

46 rue des Canonniers - 2è étage

59800 Lille

Proche des deux gares
Luxembourg

5 Rue Goethe

L-1637 Luxembourg
Lyon

62 rue de Bonnel - 1er étage Ascenseur à droite de l'entrée

69003 Lyon
Marseille

38/40 rue de la République Escalier A, 1er étage

13001 Marseille

A proximité du vieux port
Montpellier

26 Allée de Mycènes Le Thèbes, Bât. A, 3è étage

34000 Montpellier

Quartier Antigone
Nantes

32 Boulevard Vincent Gâche 5 ème étage

44200 Nantes
Nice

455 promenade des Anglais Bât Arenice, 7è étage

06200 Nice
Paris

11 rue Antoine Bourdelle

75015 Paris

dans le 15e arrondissement
Rennes

3 place du Général Giraud

35000 Rennes
Strasbourg

4 rue de Sarrelouis - 4è étage

67000 Strasbourg
Toulouse

1 place Occitane Bât. Le Sully - 4è étage

31000 Toulouse

Proche de Jean-Jaurès et du Capitole

Formation Apache Spark

Syllabus de la formation Apache Spark

Tarif plein :

Tarif remisé :

Programme de Formation Apache Spark

Introduction

Applications évolutives

Créer des algorithmes parallèles

Structures de données parallèles

Structure des clusters Spark

Gestion du cluster

Choisir l'environnement de développement

Utiliser les API Spark

Interroger des données structurées

Intégration à des systèmes externes

Qu'appelle-t-on flux de données ?

Traiter les flux des sources de données

Classer les observations

Identifier les schémas récurrents

Développer des applications métier avec Spark

Utiliser Spark sous forme de service

Suite de parcours et formations associées

Nos centres de formation

Bordeaux

Bruxelles

Distance

Genève

Lille

Luxembourg

Lyon

Marseille

Montpellier

Nantes

Nice

Paris

Rennes

Strasbourg

Toulouse

Nous traitons vos données personnelles pour :