Quelles différences entre régression logistique & linéaire ?
Prédire la probabilité qu'un évènement se produise, c'est possible avec la régression logistique ! Apprenez le Machine Learning avec notre formation Data.
En Data Science et en Data Analysis, l'outil statistique nommé le théorème central limite est plus qu'indispensable pour tout Data Scientist ou Data Analyst, notamment car il permet d'améliorer le Machine Learning dans le cadre du renforcement de l'intelligence artificielle. Après avoir étudié le fameux procédé Feature engineering de Machine Learning, consistant à transformer des données brutes en fonctionnalités utilisables, voyons ensemble en quoi consiste ce théorème. En suivant une formation statistique en Data avec Jedha Bootcamp, vous parviendrez à maîtriser la totalité du pipeline Data. Initiation à la Data Visualisation, pratiques des requêtes SQL, Cloud Reporting, analyses poussées avec Python et Web Analytics, de nombreuses compétences en Data sont à acquérir !
Aussi appelé théorème de la limite centrée, le théorème central limite (TCL) fait partie des théories statistiques fondamentales en étude inférentielle et en distribution de probabilités. Quelle est l'histoire du théorème central limite ? Depuis sa première démonstration en 1809 par Laplace, il a grandement facilité l'analyse des phénomènes aléatoires en les ramenant à la plus connue des lois de la probabilité : la loi gaussienne. Avec ce théorème, il est facile, sous certaines conditions, de se rendre compte que l'addition d'un nombre élevé de variables aléatoires indépendantes donne naissance à un phénomène statistique convergeant vers une loi normale.
En science des données, il est très utilisé pour faire de la simulation et améliorer la création des modèles d'analyse descriptive et prédictive. C'est l'une des méthodes de Machine Learning les plus utilisées. Cet article parle de cet outil statistique très important en Data Science et en Data Analysis.
Le théorème de limite centrée permet principalement de déterminer l'espérance qu'un phénomène se produise si l'on répète un nombre élevé de fois une expérience aléatoire donnée. Il fait partie des nombreuses approches statistiques qui peuvent améliorer le Machine Learning dans le cadre du renforcement de l'intelligence artificielle. Il s'agit de permettre progressivement à l'ordinateur de se familiariser avec de nouveaux types de données afin d'en dégager plus facilement les tendances statistiques utiles à la prise de décisions. Plus précisément, l'ordinateur doit acquérir une réelle "capacité à apprendre des données" afin de traiter plus rapidement et avec fluidité des tâches pour lesquelles il n'a pas spécifiquement été programmé.
En Data Analysis, le théorème central limite est largement utilisé pour initier les apprenants à la réalisation de simulations probabilistes. En effet, malgré son énoncé qui peut paraitre à première vue très abstrait, cette théorie statistique est en pratique très facile à appliquer à tous les phénomènes aléatoires indépendants identiquement distribués. Que ce soit dans le domaine de la santé, de la finance, de l'entrepreneuriat, de la démographie, ou de l'économie, le TCL aide à maitriser le fonctionnement de plusieurs variables aléatoires faiblement liées qui sont mises ensemble.
Tout ceci est possible grâce à l'approximation par la loi normale centrée réduite dont la manipulation est très aisée. De plus, une simulation basée sur le TCL possède le minimum de complexité informatique requis pour l'amélioration significative de l'apprentissage statistique de la machine. Techniquement, on peut simuler une expérience aléatoire ou plutôt une loi de probabilité. Dans le premier cas, l'algorithme écrit permet de décrire le modèle probabiliste de l'expérience réalisée. Dans le second cas où la loi de probabilité est déjà connue, l'algorithme détermine l'ensemble des valeurs distribuées selon ladite loi. On se sert principalement d'un générateur pseudo-aléatoire pour engendrer une suite d'appels au comportement aléatoire.
Selon la loi étudiée, il faudra une dizaine, une centaine ou un millier d'itérations Random pour obtenir une bonne approximation normale. Les meilleurs résultats de simulation sont obtenus avec des issues aléatoires régies par une loi statistique à forte symétrie, la loi uniforme d'espérance nulle et de variance 1 par exemple. Pour un grand nombre de boucles réalisé, le TCL permet d'estimer la précision du résultat auquel il faut s'attendre le plus à chaque passage : l'espérance. Une fois que le modèle d'apprentissage probabiliste est construit, entrainé, évalué et optimisé, il pourra éventuellement utiliser de nouvelles données en entrée à des fins prédictives.
En tant que Data Analyst, il est important de maitriser soi-même ce véritable pilier des travaux statistiques, ainsi que le cross validation par exemple. Car faut-il le rappeler, la statistique demeure la plus puissante arme quand il s'agit d'interroger les données et d'en tirer des enseignements. Le TCL est à la base de plusieurs propriétés statistiques et s'applique à la description d'une grande partie des phénomènes de la vie réelle. Pour ce type de professionnel, ne pas se l'approprier serait donc contre-productif.
Les formations de type bootcamp en Data Analysis et en Data Science sont désormais un mode d'apprentissage assez répandu. Avec un niveau initial correct en mathématiques, cette formation intensive est à la portée de tout profil d'étudiant. De plus, elle se déroule sur la période la plus courte possible tout en offrant au bénéficiaire le choix de ses horaires de cours, du lieu de formation et du mode d'apprentissage qui lui convient. La formation Data Analysis de Jedha accompagne l'apprenant de l'analyse pure de la donnée jusqu'à la création de ses premiers algorithmes. La formation en Machine Learning aide également à maitriser la totalité du pipeline Data.
Pour donner de bonnes bases en analyse de données, l'apprenant est d'abord initié à la visualisation de données pour une meilleure restitution des résultats d'étude. Pratique des requêtes SQL, cloud reporting, maitrise des librairies Numpy et Pandas, analyses statistiques poussées avec Python, Web Analytics & A/B Testing sont autant de connaissances de Data Analysis à maitriser. La formation en Machine Learning aborde en profondeur les diverses applications du théorème central limite en ce qui concerne la construction des modèles de classification et régression en Python, des arbres de décision, des forêts d'arbres aléatoires basés sur des jeux de données complexes.
Pour mieux comprendre le TCL, les encadreurs mettent l'accent sur la pratique ponctuée d'un nombre élevé de use cases à étudier (la théorie du portefeuille, distribution des salaires suivant plusieurs départements, analyse de la performance des actifs d'une entreprise…). Suivre une formation statistique dispensée par Jedha engage l'intéressé dans un projet de Data Science adapté et sérieux. Dans une grande communauté de spécialistes de la donnée, ce dernier pourra s'épanouir grâce aux excellentes relations professionnelles à créer et aux ressources pédagogiques de grande qualité qui sont mises à sa disposition. Étant reconnue par l'État, la formation Machine Learning de Jedha est éligible au CPF, ce qui peut permettre de bénéficier de financements.
Soit X1, X2,…, Xn (n élément de N*), une suite de variables aléatoires réelles définies sur le même espace de probabilité, indépendantes et identiquement distribuées suivant la même loi A. On pose que l'espérance μ et la variance σ² de A existent et sont finis avec σ ≠ 0.
Soit la somme
Sn = X1 + X2 + … + Xn.
Parce que les Xi sont indépendantes, l'espérance E(Sn)= E(X1) +E(X2) +...+E(Xn)= nμ.
De plus, la variance V(Sn) = V(X1) +V(X2) +...+V(Xn) = nσ².
Quand n est suffisamment grand, on dira que Sn suit une loi normale de paramètres nμ et nσ². Cela signifie que plus le nombre de variables aléatoires indépendantes choisies est grand, plus les valeurs obtenues pour la variable agrégée Sn auront tendance à converger vers nμ avec un écart moyen proportionnel à l'écart-type σ√n.
Pour tout n élément de N*, on pose désormais une variable Zn qui représente la valeur moyenne de Sn qui a été centrée et réduite grâce aux paramètres de sa propre loi (nμ et σ√n).
Le théorème central limite stipule que lorsque n tend vers l'infini, la suite de variables aléatoires Z1, Z2, …, Zn converge en loi vers la variable aléatoire Z, définie sur le même espace probabilisé, et de loi normale centrée réduite ( espérance nulle et variance égale à 1).
Cela veut dire que si l'on construit un histogramme des valeurs obtenues grâce à un nombre significativement élevé de simulations de Zn, le graphique qui s'affichera aura à peu près l'allure de la courbe de la loi normale centrée réduite. Il s'agit de la fameuse courbe gaussienne en cloche qui se définit symétriquement de part et d'autre l'axe des ordonnées.
Le théorème central limite permet d'estimer efficacement la moyenne μ d'une population en se basant sur l'une ou plusieurs moyennes d'échantillonnages. Si les échantillons sont identiquement distribués (même espérance μ et même variance σ) et si nous sommes en présence d'un nombre élevé d'observations indépendantes, alors la distribution des moyennes d'échantillonnage tendra vers la distribution de la loi normale. Peu importe la population, il est possible de vérifier que la représentation de chaque moyenne d'échantillon dans un histogramme donne clairement une configuration gaussienne (courbe en cloche concentrée au milieu).
Selon le TCL, plus la taille de l'échantillon est grande, plus la moyenne empirique de ses mesures aléatoires se rapprochera de l'espérance μ de la population de référence. Afin de préciser la valeur de l'espérance de la population générale, le théorème central limite fait intervenir la notion d'intervalle de confiance. Soit y la moyenne empirique. Pour n assez grand, la probabilité est de 99, 73% que μ soit compris entre y-3σ/√n et y+3σ/√n. Quand les moyens d'investigation ne sont pas aussi importants, appliquer le théorème de limite central peut ainsi permettre de réaliser une bonne inférence statistique en enregistrant des économies de temps et d'argent.
Le théorème de limite centrale s'applique à la plupart des lois probabilistes : loi géométrique, loi binomiale, loi de poisson, loi exponentielle... Même s'il est possible, le calcul de probabilités pour ces lois est très fastidieux quand un nombre assez grand d'itérations est concerné. Pourvu que les conditions soient réunies, il est possible de réaliser une approximation par la loi normale pour une expérience aléatoire impliquant des variables suivant une même loi de probabilité. Cela est bien évidemment plus simple. Il faudra alors utiliser la table de loi normale pour déterminer les différentes probabilités pour que la variable aléatoire d'intérêt prenne des valeurs données.
Le théorème central limite fait partie des instruments de statistique que le Data Analyst et le Data Scientist doivent absolument maitriser. Lorsque des variables aléatoires faiblement liées et en nombre élevé sont additionnées, la distribution statistique de leur somme s'apparente généralement à celle de la loi normale. Pour le Machine Learning, on peut ainsi estimer la moyenne générale d'une population de plusieurs échantillons ou encore élaborer des modèles probabilistes à des fins prédictives.
Si vous souhaitez acquérir les compétences et maîtriser tout le pipeline Data, n'hésitez pas à regarder les formations en Data Science et en Data Analysis que Jedha propose.