L’importance de l’utilisation des données n’étant plus à prouver, les entreprises se trouvent désormais face à un défi de taille : traiter plus de données, plus rapidement et à moindre coût. Comment sont gérés actuellement les projets d’accès aux données et comment faire pour améliorer cette gestion au quotidien ?
Le cours « Architecture Big Data» permet d’acquérir des connaissances de bases pour comprendre l’environnement dans sa complexité. L’objectif est de comprendre les concepts sous-jacents à la réalisation d'un environnement de Big Data et les différents outils disponibles et nécessaires dans cet univers. Les parties théoriques permettront de comprendre l’architecture des différents composants. Les travaux pratiques permettront de se familiariser avec cet environnement.
Les différentes technologies qui seront utilisées : Hadoop, spark, hive, Kubernetes, ans, gcp, introduction à la plateforme Dataiku.
A travers des cours théoriques et des travaux pratiques les élèves seront capables de :
- Comprendre les différents composants d’un projet big data et comment ils interagissent ensemble
- Comprendre les architectures distribuées
- Appréhender le paradigme big data et le mécanisme de gouvernance de données
- Utiliser les principales technologies associées : Hadoop, Spark, hive, docker, kubernetes
- Mettre un projet en production et réussir à monitorer les ressources utilisées
- Apprendre à utiliser l'environnement GCP (créer une instance, créer une bucket pour stocker de la donnée, lancer des jobs sur cloud run)
- Maîtriser les principaux concepts de Dataiku
- Utiliser DSS pour automatiser le calcul d’un modèle de prédiction