Monter en compétences

Tout le lexique & jargon Data dont vous avez besoin

Sommaire

Vous lisez un article de blog, regardez une vidéo relatif à l'univers de la Data, s'il y a un mot que vous ne comprenez pas, référencez vous à ce glossaire !

API

Une API (ou Application Programming Interface) est un moyen pour des développeurs d’appeler via des requêtes HTTP un programme externe pouvant être incorporé dans une application web. En d'autres termes, cela permet de requêter des données à une application. Par exemple, vous pouvez demander à Twitter des données sur les derniers tweets postés sur la plateforme. Vous pouvez aussi connecter des applications entre elles où vous pourriez par exemple requêter des données de votre CRM pour les utiliser dans Google Spreadsheet.
‍

Si vous souhaitez voir des cas d'applications sans coder, n'hésitez pas à regarder 👉👉 Zapier.com

Big Data

Le Big Data est un terme utilisé pour désigner un volume de données extrêmement important, qui devra être traité par plusieurs machine à la fois (ou clusters) via un système de calcul distribué comme Spark ou Hadoop.

Gartner ajoute également deux dimensions dans le Big Data à savoir la variété (i.e le fait que les données sont aujourd'hui de différentes nature) et de vélocité (i.e le fait que les flux de données sont de plus en plus rapides).

‍

Back-End

Le Back-End désigne le développement de la partie serveur d’une application web. Cette application communique très souvent avec une base de données qu’on va pouvoir exploiter selon les besoins de l’utilisateur.

Le Back-End est souvent écrit en Python

Cloud computing

Le cloud computing, ou l’informatique en nuage, désigne le procédé d’exploitation de la puissance de calcul ou de stockage de serveurs informatiques distants par l'intermédiaire d'un réseau, généralement Internet. Les serveurs sont loués à la demande par tranche d'utilisation selon des critères techniques.

Les principaux services disponibles en cloud computing sont le SaaS (Software as a Service), le PaaS (Platform as a Service) et le IaaS (Infrastructure as a Service). En fonction du service, les systèmes d'exploitation, les logiciels d'infrastructure et les logiciels applicatifs seront de la responsabilité soit du fournisseur soit du client. On retrouve parmi les grands acteurs de ces services AWS (les services Cloud d'Amazon)

Cluster

Un cluster est un ensemble de serveurs communiquant entre eux via un serveur maître qui distribue des tâches au nombre de serveurs présents dans le cluster.

‍

Deep Learning

L’apprentissage automatique profond ou Deep Learning est un sous-domaine de l’apprentissage automatique. Il utilise des algorithmes de structures plus complexes, se nourrissant d’un volume plus grand de données. Ces algorithmes ont une structure en réseaux de neurones artificiels permettant d’ajuster les prédictions de manière extrêmement précise. Ceci est à la base du développement en intelligence artificielle.

‍

Data Architect

Le Data Architect est le professionnel chargé de créer et maintenir l’architecture permettant la collecte, le nettoyage et l’analyse de données.

Data Engineer

Le Data Engineer est le professionnel chargé d’optimiser les algorithmes, les processus de collectes ou de nettoyage des données.

Data Lake

Le Data Lake (ou lac de données en français) est une base de données flexible pouvant accueillir tous types de données, volumineuse ou non. C’est un endroit où les données se retrouveront déversées sans être organisées.

Data Science

La Data Science ou science des données désigne l’ensemble des études et analyses visant à apporter une compréhension et de la valeur aux données collectées par une organisation. Ce domaine regroupe trois domaines de compétences clés : les statistiques, la programmation et la connaissance métier.

Echantillonnage (Sampling)

Un échantillonnage désigne l’action de délimiter un sous-groupe d’individus dans une population pour étudier l’ensemble de celle-ci. Cet échantillonnage doit être considéré comme représentatif afin de pouvoir extrapoler les résultats d’analyses statistiques à la population entière.

Framework

Le cadre d’applications ou framework désigne un ensemble de classes d’objet utilisables pour créer des applications informatiques. Il fournit au développeur des objets d’interface (bouton, menu, fenêtres, boîtes de dialogue), des objets de service (collections, conteneurs) et des objets de persistance (accès aux fichiers et aux bases de données) prêts à l’emploi. Le développeur peut donc s’appuyer sur ces objets et se concentrer sur les aspects métier de son application.

Front-End

Le Front-End est un terme utilisé en développement web pour désigner le développement de la partie interface d’une application. Ceci implique le design, la structure et les animations de l’application.

HTTP

HyperText Transfer Protocol, littéralement « protocole de transfert hypertexte » est un protocole de communication client-serveur. Les clients HTTP les plus connus sont les navigateurs Web permettant à un utilisateur d'accéder à un serveur contenant les Données.

‍

Intelligence Artificielle

L’intelligence Artificielle désigne tout processus automatisé par un ordinateur dont la structure mime le système de fonctionnement du cerveau humain.

Librairie

Dans le domaine de la programmation, une librairie désigne un entrepôt de code pré-construit utilisable par un public de programmeurs. Ces librairies ont pour but de faciliter le processus de programmation et d’accélérer le développement.

‍

Machine Learning

L’apprentissage automatique ou Machine Learning est un terme utilisé pour désigner la capacité d’algorithmes statistiques entraînés à accomplir une tâche de manière répétitive grâce à des données d’apprentissage. Cette tâche est souvent à caractère prédictif, comme par exemple la prédiction de comportements d’achat, de revenus etc.

NoSQL

Acronyme de "Not only SQL", il désigne les bases de données de nouvelle génération qui se démarquent des bases de données relationnelles et qui ne sont plus interrogeables en SQL. Et non, ce n'est pas "not SQL".

Réseau de neurones

Un réseau de neurones (parfois appelé aussi réseau de neurones artificiels) est un type d’algorithme fondé sur une combinaison de fonctions mathématiques permettant la prédiction de phénomènes complexes. Il est utilisé dans le Deep Learning et nécessite un grand volume de données pour fonctionner.

‍

Réseau de neurones récursif

Un réseau de neurones récursif est un sous-type de réseau de neurones dont la particularité est de prendre en compte la dimension temporelle d’un jeu de données. Celui-ci garde en mémoire des actions passées afin de pouvoir prédire les actions à venir.

‍

Réseau de neurones convolutionnel

Le réseau de neurones convolutionnel est un sous-type de réseau de neurones très utilisé dans le traitement de l’image puisqu’il arrive à condenser l’information contenue dans une image et à l’utiliser pour effectuer des prédictions.

Réseau de neurones adverse

Le réseau de neurones adverse (GAN en anglais) est un sous-type de réseau de neurones dont le but est de créer du contenu (images ou texte). Celui-ci fonctionne par la création d’un réseau de neurones créateur et d’un réseau de neurones discriminant dont l’objectif est respectivement de créer du contenu et de distinguer le contenu créé du contenu réel.

RGPD

Le Règlement général sur la protection des données (RGPD) est le nouveau texte de référence européen en matière de protection des données à caractère personnel. Il renforce et unifie la protection des données pour les individus au sein de l'Union Européenne (Source Wikipédia).

Scraping

Le scraping désigne la collecte des données sur le web. Les techniques de scraping utilisent des librairies adaptées pour pouvoir collecter puis mettre en forme ces données directement dans des tableaux.

SGBD

Un Système de Gestion de Base de Données est un logiciel système destiné à stocker et à partager des informations dans une base de données, en garantissant la qualité, la pérennité et la confidentialité des informations, tout en cachant la complexité des informations.

SQL

Le Structured Query Language désigne le langage de requêtes utilisé pour manipuler les données dans une base de données relationnelles. Il est basé sur les règles de l’algèbre relationnelle.

Si vous souhaitez acquérir les compétences en Data recherchées des recruteurs, n'hésitez pas à regarder la formation en Data Engineering proposée par Jedha.

Après avoir travaillé dans l'armée, Richard a suivi l'un de nos Bootcamps pour se reconvertir dans la Data. Riche de son expérience d'élève chez Jedha, il a décidé de rejoindre l'équipe pour gérer les opérations et a été notre General Manager de 2020 à 2022. Depuis, il est devenu Responsable Pédagogique chez Sup de Vinci.