Passer au contenu principal
FUN CAMPUS
  • Mon compte
  • Nous contacter
  • Cours
  • Etablissements
  • Vous êtes ici:
  • FUN Campus - Des formations pour enrichir les cursus
  • Cours
  • Introduction au BIG DATA

Introduction au BIG DATA

Réf. 187050
CatégorieMasterCatégorieSciences, IngénierieCatégorieInformatique
L’apprentissage pratique des principaux outils de Big Data.
  • Durée : 15 semaines
  • Effort : 31 heures
  • Rythme: ~2 heures/semaine
  • Langues: NA
image de couverture du cours

Vous êtes enseignant et souhaitez utiliser ce cours avec vos étudiants ?

Nous contacter

Ce que vous allez apprendre

À la fin de ce cours, vous saurez :

  • Comprendre ce qui se cache derrière le mot BIG DATA.
  • Expliquer l’intérêt et les enjeux du BIG DATA.
  • Expliquer le terme NoSQL.
  • Identifier les principales familles  et caractéristiques des bases de données NoSQL.
  • Comprendre les différentes architectures  de bases de données.
  • Choisir la technologie NoSQL adaptée à un contexte.
  • Acquérir une expertise sur les technologies MongoDB, Redis et Neo4J.
  • Comprendre l’intérêt des plateformes de traitements parallélisés (Hadoop, Spark).
  • Comprendre l’écosystème Hadoop.
  • Développer des traitements parallélisés sous forme de batch et de micro-batch avec SPARK.

Description

Dans ce module, nous présenterons l’évolution des bases de données pour comprendre les enjeux du BIG DATA et le besoin couvert par ces nouvelles technologies dites de BIG DATA. Des solutions capables de traiter de grande quantité de données  tout en conciliant efficacité et coût. Depuis les années 2000, c’est tout un écosystème qui est né autour de cette mouvance avec de nouveaux Systèmes de Gestion de Bases De Données dit NOSQL et de nouvelles plateformes de traitement.

Avec plus de 255 SGBD NOSQL existants, nous ferons un focus sur les différentes familles qui existent pour se familiariser avec les SGBD NOSQL les plus répandus.

Dans cette folie à la course à la donnée, nous aborderons par la suite des plateformes de traitement de données avec une volonté de déplacer le traitement des données au plus près de la données avec tout un écosystème riche et varié .

Format

On entend souvent parlé de BIG DATA sans forcément en comprendre le sens et non, ce n’est pas uniquement un BUZZ word comme certains le pensent. Pour bien comprendre, les défis relevés par ce domaine, il est important de comprendre le contexte et le besoin à l’origine de cette émergence.  En consacrant 2h par semaine  sur un total de 16 semaines, vous ouvrirez les portes d’un nouveau monde ou tout est possible. Un monde que vous pourrez reproduire sur votre ordinateur à l’aide des technologies de containerisation et des cas d’utilisation sous forme de Notebook pour faciliter votre apprentissage.

Prérequis

Le cours aborde une première partie sur les bases de données NoSQL sur laquelle de nombreuses comparaisons sont faites avec les bases de données relationnelles. Il est donc fortement conseillé d’avoir une connaissance solide sur les bases de données relationnelles. Pour la seconde partie du module, relatif aux plateformes de traitements parallélisés, des connaissances en programmation sont recommandées. Des TP nécessiteront de programmer en python : la connaissance du langage python n’est pas indispensable mais serait un plus. Le niveau de programmation est relativement simple mais nécessite d’avoir des bonnes bases en programmation. 

Les environnements de TP se baseront sur un noyau UNIX, les commandes d’usage lié à ce noyau serait un plus.

Evaluation et Certification

L’évaluation des étudiants s’appuiera sur des devoirs maisons à réaliser individuellement.

Plan de cours

    • Comprendre ce qui se cache derrière le mot BIG DATA.
    • L’intérêt et les enjeux du BIG DATA.
    • Mise en place de l’environnement de travail et des conteneurs.
    • Cypher et modélisation dans un graphe.
    • Modélisation dans MongoDB et cardinalités dans les BD documents.
    • Étude de la base de données Redis.
    • Hadoop et le paradigme MapReduce.
    • Spark, les RDD et les dataframes.

Équipe pédagogique

Osman AIDEL

Catégories

Responsable base de données au CNRS Lyon.

Établissements

Projet THEME

Des formations pour enrichir les cursus

FacebookTwitterLinkedin

En savoir plus

  • Qui sommes-nous ?
  • A propos de Fun Campus
  • Mentions légales
  • Charte utilisateur
  • Politique de confidentialité
  • Conditions d'utilisation
  • Aide et contact
Propulsé par Richie