Certification Data Science
Formez-vous à la Data et obtenez votre certificat de Concepteur-Développeur en Science des données enregistré au RNCP et reconnu par l'Etat.
La Science des Données (ou Data Science en anglais) est devenue au cours de ces dernières années un élément indispensable pour permettre aux entreprises d’innover et de se différencier et l’Intelligence Artificielle un outil de performance indispensable. Les directions de tous secteurs confondus utilisent déjà ces dernières innovations. Cette tendance est amenée à augmenter exponentiellement au cours des prochaines années. L’objectif visé en créant le titre "Concepteur Développeur en Science des Données " est de former des spécialistes en science des données ayant la capacité d’avoir une vision globale des projets de Science de Données, capables de les concevoir et de les diriger dans leur ensemble, ainsi que d'intervenir à un point précis de ces derniers.
En effet, la certification confère au candidat les compétences pour exercer le métier de “Concepteur - Développeur en Science des Données”, à la fois technique et transverse. L'ensemble de ces compétences, décrites dans le référentiel, lui permet de créer des infrastructures de gestion de données robustes et adaptées, de les alimenter, de développer des algorithmes d’intelligence artificielle, de les mettre en production mais aussi de collaborer avec les différentes équipes-métiers d'une organisation pour évaluer et adapter les besoins Data. Il lui est donc possible de diriger des projets de gestion de données de bout en bout, d'en rendre compte, d'être force de proposition et de les adapter aux besoins de son environnement professionnel.
Le candidat certifié aura acquis l’ensemble des compétences requises pour exercer et être opérationnel rapidement.
Le "Concepteur-Développeur en Science des données" est à la fois :
- Un technicien : il peut créer des infrastructures de gestion de données robustes, développe des algorithmes d’intelligence artificielle et les met en production.
- Un manager : il collabore avec des équipes-métiers, évalue et adapte les besoins Data en fonction de l’organisation et de son coeur de métier. Il mène ainsi des projets de gestion de données de bout en bout.
Il est partout :
- Des cadres d'exercices divers : salarié en entreprises spécialisées, pour des organisations utilisatrices d’IA, en indépendant, membre d'une équipe Data, référent Data d'une structure, manager, chef d'entreprise, formateur
- Son travail d'analyse se retrouve à la base de l’élaboration de stratégies générales : il est indispensable dans la majorité des secteurs professionnels, la santé, la finance, la recherche & développement, l’administration, la logistique, la sécurité, etc.
- Des fonctions techniques comme managériales différentes dans le domaine de la donnée.
Le cycle de vie d'un projet Data
Le certificat de "Concepteur - Développeur en Sciences des données" se décompose dans les 6 blocs suivants. Chacune des formations de Jedha valide différents bloc :
- La formation Data Essentials valide le bloc 6 valable 5 ans : Direction de projets de gestion de données.
- La formation Data Fullstack valide quant à lui l'entièreté de la certification (les 6 blocs) "Concepteur - Développeur en Science des données" valable pour lui à vie.
- La formation Data Lead valide le bloc 1 valable 5 ans : Construction et alimentation d'une infrastructure de gestion de données
Modalités générales d'acquisition de la certification
La certification est valable à vie. En cas de validation partielle des blocs, la durée de validité de chaque bloc de compétences est de 5 ans. La validation de la totalité des 6 blocs de compétences est obligatoire pour l'obtention de la certification. La validation partielle d’un bloc n’est pas possible. Les candidats n’ayant validé que certains des 6 blocs de compétences du référentiel « Concepteur Développeur en Science des Données » se voient remettre un certificat de compétences attestant de la validation partielle de la certification professionnelle, et nommant les blocs concernés.
La certification s'acquiert par capitalisation des blocs de compétences et par équivalence. Des équivalences d'obtention de cette certification sont également possibles, la liste complète des organismes délivrant une formation équivalente se trouve sur cette page, sous la rubrique "Liens avec d'autres certifications professionnelles, certifications, ou habilitations".
Procédure VAE
Dans le cas où une personne estime avoir les compétences décrites dans les blocs ci-dessous, celle-ci peut demander à passer par la procédure VAE (Validation des Acquis par l'Expérience) pour obtenir le certificat (complet ou partiel) de "Concepteur-Développeur en Sciences des données" de Jedha. Les informations exhaustives concernant cette procédure sont décrites dans cette page-ci.
- Concevoir une architecture de données robuste et adaptée en créant des lacs de données (Data Lake en anglais) et des entrepôts de données (Data Warehouse en anglais), pour répondre aux besoins de stockage, d'utilisation, de sécurité et de protection de l'organisation
- Intégrer la dimension de stockage et de calcul distribué à l'infrastructure de données via l'utilisation d'outils comme Spark ou AWS Redshift afin de l'adapter à des besoins de gestion de données massives (Big Data en anglais)
- Collecter des données provenant de différentes sources (Web, Logiciels internes de type Sage / Excel ou externes de type Google Analytics) via des librairies de programmation de type Scrapy ou Beautifulsoup pour alimenter le Data Lake afin d'affiner le résultat d'analyses futures.
- Nettoyer et organiser les données dans l'entrepôt de données (Data Warehouse en anglais) en écrivant des processus d'extraction, transformation et chargements (ETL en anglais) afin de rendre ces données disponibles et compréhensibles pour les autres équipes métiers.
- L'évaluation : Une étude de cas sur des données réelles
- Thème d'évaluation : Construction d'une infrastructure Cloud accueillant des données Big Data (collecte de données web, intégration des données dans un Data Lake, nettoyage et chargement des données dans une base de données type AWS Redshift par traitement parallélisé si nécessaire via la construction d'un processus ETL).
- Traiter des bases de données grâce à des analyses statistiques descriptives et inférentielles via des librairies de programmation comme Numpy ou Pandas, pour les organiser et les nettoyer afin de les normaliser par rapport à la population étudiée.
- Effectuer des analyses univariées et multivariées sur des bases de données structurées afin de préciser des relations entre plusieurs variables et d'établir des liens statistiques entre elles.
- Optimiser les analyses statistiques grâce au traitement parallélisé via l'utilisation d'outils comme Spark pour accélérer le temps de calcul d'un ordinateur afin de pouvoir analyser des volumes de données massifs (Big Data)
- Présenter le résultat d'une analyse statistique de données structurées, massives ou non, grâce à des librairies de programmation comme Plotly ou Matplotlib pour synthétiser ce résultat devant un public profane afin de faciliter la prise de décisions et appuyer leurs déclinaisons opérationnelles.
- L'évaluation : Deux études de cas sur des données réelles
- Thème d'évaluation :
- Gestion de valeurs manquantes et aberrantes d'une base de données non-massives puis analyse pour déterminer et présenter des tendances par le biais de graphiques.
- Analyse d'une base de données massives déstructurées (Utilisation de Spark) adaptée à une problématique définie.
- Traiter des données structurées en créant un pipeline de traitement grâce à des librairies de programmation comme Scikit-Learn pour encoder, normaliser et découper des données afin de les rendre interprétables par un algorithme d'apprentissage automatique (Machine Learning en anglais)
- Effectuer des analyses prédictives sur un jeu de données structurées grâce à des algorithmes d'apprentissage automatique supervisés adaptés afin d'automatiser des tâches liées aux résultats des prédictions de ces algorithmes
- Élaborer un algorithme d'apprentissage automatique non-supervisé pour segmenter une base de données en différents groupes homogènes ou réduire la dimension de cette dernière afin de pouvoir comprendre des observations de manière granulaire et permettre leur visualisation
- Évaluer la performance prédictive des algorithmes d'apprentissage automatique en déterminant l'influence des différentes variables pour pouvoir l'améliorer afin de démontrer son utilité aux directions métiers, par rapport aux processus déjà établis dans l'organisation.
- L'évaluation : trois études de cas pratiques tirées de cas réels
- Thème d'évaluation :
- Optimisation des processus marketing de qualification de prospect par le biais d'algorithmes d'apprentissage supervisés
- Optimisation d'algorithmes d'apprentissage automatique supervisé sur des bases de données déséquilibrées
- Localisation de zones de densité géographique par l'élaboration d'algorithmes d'apprentissage automatique non-supervisé
- Traiter des données non-structurées (image, texte, audio) par la création de fonction de traitements via l'utilisation de librairies de programmation comme TensorFlow ou Numpy pour les transformer en matrices afin de les rendre interprétables par un algorithme d'apprentissage automatique profond (Deep learning en anglais)
- Elaborer des réseaux de neurones adaptés (classiques, convolutifs ou recursifs) en superposant des couches neuronales via des librairies de programmation comme TensorFlow pour analyser des données non-structurées afin de détecter des signaux sur ces dernières
- Créer un algorithme robuste et précis en configurant un réseau de neurones pré-entrainé profond afin de répondre à des problématiques de prédiction sur des volumes de données massifs
- Créer des données non-structurées en élaborant des réseaux de neurones adverses afin de construire de nouvelles bases d'entrainement pour des applications d'intelligence artificielle
- Évaluer la performance d'un algorithme d'apprentissage automatique profond en évaluant des indicateurs sur des données d'entrainement et de validation afin d'industrialiser son utilisation
- L'évaluation : une étude de cas pratique sur des données non-structurées
- Thème d'évaluation : Analyse de sentiment, par l'élaboration d'un algorithme permettant de déterminer le sentiment d'un utilisateur à l'égard d'un produit (avec possibilité de créer de la nouvelle données pour agrémenter la base).
- Standardiser la construction et l'environnement informatique d'un algorithme d'apprentissage automatique grâce des outils de production comme MLflow et Docker afin de faciliter la mise en production de projets d'intelligence artificielle sur tous types de plateformes
- Créer une interface de programmation applicative grâce à des outils comme AWS SageMaker afin de donner un accès à échelle aux prédictions des algorithmes d'apprentissage automatique à l'ensemble des équipes métiers concernées
- Déployer une application web intégrant des algorithmes de statistiques prédictives (Machine Learning et Deep Learning) grâce à des outils comme Flask, Heroku ou AWS Sagemaker pour les rendre utilisables par l'ensemble des équipes métiers afin d'automatiser leur processus de décision
- L'évaluation : étude de cas pratique sur le déploiement d'un algorithme d'apprentissage automatique
- Thème d'évaluation : Tableau de bord web (dashboard), construction et mise en production d'une application web d'intelligence artificielle
- Traduire les enjeux métiers en problématiques mathématiques/data grâce à une compréhension des besoins propres à chaque projet data afin de pouvoir répondre aux objectifs de l'organisation
- Maîtriser les technologies les plus récentes et adaptées du marché grâce à de la veille technologique et de la pratique constante pour développer une expertise. L'objectif est d'être à même de proposer aux directions métiers les solutions les plus adaptées actuellement à une problématique et l'amélioration constante des process de gestion de données déjà en place
- Définir un cahier des charges, un retroplanning et un budget afin de défendre et détailler aux directions métier un projet data répondant aux besoins de l'organisation
- Gérer un projet d'analyse et de gestion de données (analyse statistique descriptive, Machine Learning, Deep Learning, Big Data ou non) grâce à l'élaboration d'indicateurs adaptés et de tableaux de bords, afin de faire le suivi et le bilan de l’action, ainsi que de la déclinaison opérationnelle de ses résultats
- Transmettre aux directions-métiers le process d'extraction d'informations et d'analyse de données en le vulgarisant afin de soutenir la mise en place d'une stratégie et d'actions futures.
- Diriger un projet de gestion de données, allant de sa conception à la mise en place de solutions, afin de le mener jusqu'à son terme, d'être la personne clé disposant de toutes les informations sur le projet à tout moment, et d'accompagner d'autres services de l'organisation dans l'ensemble des activités relatives à celui-ci
- L'évaluation : projet data conçu de A à Z.
- Thème d'évaluation : libre. Les apprenants peuvent préparer le projet data de leur choix. Celui-ci peut être personnel, développé par le candidat dans le cadre de son activité professionnelle, ou défini par une entreprise partenaire.
Taux de réussite
Le taux de réussite de la certification "Concepteur-Développeur en Science des Données" est calculé sur la base des élèves présents à leur session de certification. Nous distinguons le taux de réussite global incluant les candidats ayant réussi partiellement la certification, de la réussite totale qui inclue uniquement les candidats ayant validé tous les blocs de la certification :
Taux de réussite global 2022
95%
Taux de réussite total 2022
79%
Taux d'insertion professionnelle
Le taux d’insertion général des titulaires « Concepteur Développeur en Science des Données » sur le marché de l’emploi sont les suivants pour une insertion à 6 mois, 1 an et 2 ans :
- 71%, dont 58% dans le métier visé à 6 mois de la diplomation
- 83%, dont 63% dans le métier visé à 1 an de la diplomation
- 95%, dont 84% dans le métier visé à 2 ans de la diplomation
La rémunération d'entrée dans le métier visé est en moyenne de 45 230€ bruts / an ou équivalent.
L’impact de Jedha sur la carrière de nos apprenants
Impact de la formation Fullstack sur la carrière des certifiés
55%
Impact escompté
18%
Impact plus important que prévu
26%
Pas d’impact
Se sont-ils complètement réorienté après la formation ?
54%
Oui
46%
Non
La majorité des titulaires "Concepteur Développeur en science des données" de Jedha (55%) ont déclaré que la formation avait déjà eu un impact direct sur leur carrière professionnelle ; 18% d’entre eux déclarant que cet impact fut plus important que ce qu’ils avaient escompté.
53.6 % de ces titulaires ont déclaré que la formation et la certification "Concepteur Développeur en Science des Données" leur avait permis une réorientation complète de carrière.
La majorité des apprenants (78 %) commence la formation avec pour objectif de trouver un emploi dans la data.
D'autres objectifs sont également cités : se lancer en Freelance (16 %), créer une entreprise (12 %), monter en interne dans l'organisation où l'apprenant exerce actuellement (17 %).
Objectifs des apprenants en début de formation
78%
Trouver un emploi dans la Data
16%
Se lancer en freelance
12%
Evolution professionnel interne à l'entreprise
12%
Monter son entreprise Tech
2%
Autre
Nos apprenants : qui sont-ils?
Nos apprenants viennent de secteurs, ont des niveau d'études et des situation très divers en début de formation
Niveau d’étude des apprenants en début de formation
Secteurs professionnels des apprenants en début de formation
Statuts des apprenants en début de formation
La grande majorité des apprenants sont déjà titulaires d’un diplôme de niveau Master (Bac + 4 à 6 : 71.7 %). Parmi les autres, 13.3 % sont docteurs (Bac + 8) et 13.3 % viennent d'une formation Bac + 3 ou inférieure.
En début de formation, la majorité des apprenants sont en recherche d’emploi (26.5 %) ou déjà salariés (46.9 %). Les 20 % restants sont étudiants, auto-entrepreneurs et entrepreneurs.
La majorité des apprenants ont déclaré avoir déjà travaillé dans l’IT ou dans le domaine des nouvelles technologies au début de leur formation (36 %). Le marketing et la vente est également un secteur prépondérant duquel viennent les futurs certifiés "Concepteur Développeur en Science des Données" (22 %). Les 42 % d'apprenants restants viennent cependant de domaines de plus en plus divers, déjà très ouverts à la pratique de la Science des Données, mais dont les besoins sont toujours en croissance : la finance, l’administration, la recherche, la santé et la logistique notamment.).