Big Data : définition, applications et limites
Le Big Data est au coeur de nos vies. Mais de quoi s'agit-il ? Découvrez son utilité, les exemples d'applications et comment se former aux métiers de la Big Data.
Depuis quelques années, la cote de l'Open Data ne cesse de monter. Cette pratique de publication sous licence ouverte permet aux utilisateurs d'accéder librement aux données numériques sans condition technique, financière ou juridique.
Dans une approche culturelle, l'Open Data est basé sur la philosophie du partage de connaissances avec le plus grand nombre de personnes. Cet article expose la définition de l'Open Data, son principe de fonctionnement, ses bénéfices ainsi que des exemples concrets d'utilisation des données ouvertes. Il montre également la manière d'effectuer une formation en Data analysis afin de maîtriser cette technologie.
Le concept d'Open Data fait référence aux données numériques qui sont accessibles à n'importe qui et que tout le monde peut exploiter ou partager à sa guise. Trois critères essentiels servent de fondements aux données ouvertes qui peuvent être privées comme publics.
Il existe plusieurs types de données. Le premier caractère des données ouvertes est qu'elles sont pleinement accessibles au public, gratuitement ou moyennant un prix de reproduction assez raisonnable. De préférence, les données de l'Open Data se consultent ou se téléchargent librement via internet. Quant à la forme des données, elle est confortable et modifiable à souhait.
Les Open Data ne fournissent aucune information sur des individus, en raison des questions liées à la vie privée. En d'autres termes, les données personnelles n'entrent pas dans le champ des Open Data.
Les données sont fournies dans des conditions qui permettent et facilitent leur réutilisation par les utilisateurs. De même, elles peuvent faire l'objet de redistribution par les personnes qui y ont accès. Cela suppose également qu'on peut opérer un mélange avec d'autres ensembles de données.
Ce caractère de l'Open Data signifie que les données sont mises à la disposition de tout le monde, sans aucune distinction. Toute personne peut accéder et utiliser les données indépendamment de son origine, de son appartenance ou de son genre. De plus, les utilisateurs des données ouvertes peuvent les réutiliser ou les redistribuer sans aucune limite.
À titre illustratif, l'Open Data n'admet pas les restrictions non commerciales qui rendent impossible l'utilisation publicitaire.
Il en est de même pour les restrictions d'usage à certains secteurs ou domaines. Ces trois critères constituent l'essence même de l'Open Data. Ceux-ci favorisent l'interopérabilité qui désigne la capacité de différentes entreprises ou systèmes à coopérer.
On ne saurait répondre à la question du fonctionnement de l'Open Data sans aborder les personnes qui gèrent ces données. De même, la variété des informations disponibles et l'aspect de l'ouverture légale et technique sont primordiaux pour mieux appréhender cette technologie de notre ère.
L'expression Open Data s'applique aux informations qui proviennent des sources privées et surtout publiques. En effet, les données peuvent être produites par une collectivité ou un établissement public. Les informations portent sur de nombreux sujets et des secteurs variés pour que le public en tire un avantage précis.
En général, les données ouvertes ou Open Data sont l'œuvre du gouvernement et du secteur public. Les informations mises sous licence ouverte peuvent être des budgets, des cartes ou des résultats issus des études scientifiques sur un sujet ou une thématique d'ordre général. Les entreprises, les universités, les startups, les fondations caritatives, les ONG ou les individus peuvent aussi proposer des données ouvertes.
Les Open Data couvrent pratiquement tous les domaines de la vie, qu'il s'agisse de la science, de l'éducation ou de l'environnement. La culture, le développement, les affaires, le design, la finance, l'économie, la politique, la cartographie sont aussi des secteurs dans lesquels des informations ouvertes sont disponibles. Tous les secteurs et domaines sont concernés par les données ouvertes. L'objectif est de fournir des informations riches, fiables et utiles aux personnes qui consultent ces données.
D'après l'Open Definition, les informations de l'Open Data sont ouvertes de manière légale et technique. L'ouverture légale des Open Data laisse comprendre que l'accès aux données est autorisé. Il en est de même pour ce qui est de l'exploitation, du partage et de la modification de ces informations sous licence ouverte.
L'ouverture technique suggère qu'il ne peut exister aucune barrière au libre accès des données. Concrètement, les Open Data doivent être entièrement accessibles à partir des supports numériques. La lisibilité de ces données doit être aussi assurée et surtout de grande qualité. Peu importe l'utilisateur et le lieu où il réside, les données doivent être faciles d'accès à n'importe quel moment. L'une des caractéristiques fondamentales des données ouvertes est qu'elles sont téléchargeables sur le net et sans aucune charge financière.
Il faut suivre une formation en Data Analysis pour apprendre à résoudre des problématiques complexes. Cela permet de devenir expert en gestion des jeux de données et de générer des Open Data pour les administrations publiques, les organisations caritatives ou les entreprises privées. À la fin de la formation, l'apprenant sera en mesure de gérer des jeux de données importants comme ceux que l'on retrouve dans les Open Data. Les modules dispensés par des professionnels de la Data, la cybersécurité et divers métiers permettent d'avoir de solides savoirs dans les domaines suivants :
Pour maîtriser l'exploitation de l'Open Data, il est donc conseillé d'effectuer une formation en Data analysis dans un établissement reconnu.
Les bénéfices de l'Open Data sont multiples et variés. Cela justifie à quel point les gouvernements et les individus s'y intéressent.
Les données ouvertes favorisent la transparence dans la gestion et la prise de décision des autorités étatiques. Elles permettent aux citoyens de vérifier et de connaître à quoi les impôts et taxes collectés par le gouvernement sont consacrés.
Par exemple, les projets tels que le « Tax Tree » finlandais et le « Where does my money go ? » britannique ont permis aux populations de comprendre la manière dont le gouvernement gère ou utilise les taxes.
Au Canada, les informations ouvertes ont permis d'éviter un large réseau de fraude fiscale qui aurait pu causer des préjudices de près de 3,2 milliards de dollars. De plus, des sites Open Data comme folketsing.dk (plateforme web danoise) permettent aux citoyens de suivre les activités des députés et les mécanismes de création des lois. De ce fait, les populations peuvent apprécier le rôle et l'impact de leurs élus au niveau du parlement. Les Open Data sont donc des outils importants pour renforcer la transparence et la bonne gestion des ressources publiques.
Les Open Data ont une forte influencent sur nos sociétés et les personnes qui y vivent. Elles aident les citoyens à prendre des décisions et à devenir plus actifs au sein de leurs communautés.
Par exemple, au Danemark, une femme a créé la plateforme de données ouvertes findtoilet.dk. Celle-ci dresse un catalogue des toilettes publiques danoises. Les personnes qui souhaitent se rendre dans une toilette peuvent ainsi facilement s'orienter et trouver satisfaction.
Aux Pays-Bas, le site vervuilingsalam.nl envoie des messages aux utilisateurs pour les informer de la qualité de l'air dans un quartier ou une région du pays. Dans la ville de New York aux États-Unis, les personnes ayant adopté un chien peuvent se voir proposer des endroits où promener leur animal de compagnie. En Allemagne et au Royaume-Uni, les services tels que mapumental ou mapnificent aident les voyageurs à trouver un lieu où séjourner en fonction de leurs besoins.
La mise à disposition des données ouvertes impacte grandement l'économie. D'après la Commission européenne, les bénéfices économiques totaux liés à l'Open Data peuvent atteindre les 40 milliards par an.
Contrairement à ce que l'on pourrait croire, le potentiel économique de cette technologie ne se limite pas uniquement dans la réutilisation d'informations du secteur public pour développer de nouveaux produits ou services.
En effet, les gains d'efficacité dans les services publics sont de nature à accroître l'économie des pays qui s'investissent dans les Open Data. Si l'on prend le cas de la Belgique, le bénéfice net potentiel issu de la mise à disposition des données publiques serait de l'ordre de 900 millions d'euros.
L'Open Data est un formidable outil de diffusion des richesses culturelles et cultuelles d'un pays ou d'une région. Elle a le mérite de donner plus de visibilité à des œuvres d'art confidentielles ou peu connues du grand public. C'est également un instrument par excellence pour faire la promotion des artistes ou des institutions à qui ces œuvres appartiennent.
À titre illustratif, le musée départemental Albert-Khan a profité de l'ouverture du portail Open Data des Hauts-de-Seine pour promouvoir les œuvres rares dont il dispose. Plusieurs milliers de personnes ont ainsi pu découvrir une riche collection d'autochromes du début du XXe siècle.
L'une des plus grandes forces de l'Open Data est sa capacité à diffuser facilement une grande quantité d'informations utiles pour diverses applications. Ceci étant, les données ouvertes aident les chercheurs, les étudiants et les innovateurs à générer de la valeur scientifique.
Par exemple, en France, la ville de Paris a créé des Open Data pour diffuser toutes les mesures générées par les capteurs installés au niveau de la place de la Nation. Ces informations offrent de nombreuses pistes d'étude aux chercheurs et aux apprenants. Ces derniers peuvent chercher à comprendre le lien qui existe entre le trafic urbain et les pollutions (atmosphériques ou sonores). De même, les urbanistes et les entrepreneurs peuvent exploiter ces informations qui évoluent en temps réel pour proposer des solutions pour améliorer la qualité de vie des usagers. Il peut s'agir par exemple de réaménager la place tout en développant un modèle qui pourrait s'appliquer à d'autres lieux de la ville.
L'Open Data occupe une place de choix dans les politiques publiques. C'est pour cela que la majorité des gouvernements et des organisations à but non lucratif s'emploient à mettre des données à disposition du grand public. Voici une sélection de trois sites de référence qui démocratisent l'accès à des données et ressources.
Data.gov est le site qui regroupe les données ouvertes du gouvernement américain. Il contient plus de 300 000 jeux de données libres d'accès. On y trouve un catalogue et des outils de recherche très performants. Basé sur la technologie open source CKAN, Data.gov propose des jeux de données aux formats variés (Excel, HTML, Json, cSv, XML…). Ces Open Data traitent de sujets très intéressants et variés (climat, énergie, santé des personnes âgées, océan, résilience alimentaire, santé humaine…).
Les utilisateurs peuvent accéder à des données fédérales et locales pour leurs différents besoins. Les données, outils et ressources disponibles sur Data.gov sont utiles pour réaliser des études, visualiser des données de conception, mais aussi développer des applications mobiles ou web.
Cette plateforme officielle Open Data du gouvernement français est composée de plus de 38 000 jeux de données. Les sujets qui y sont abordés sont aussi divers qu'intéressants. Les données proviennent non seulement du gouvernement, mais également d'autres sources telles que l'INSEE et la Poste. Les utilisateurs peuvent avoir accès aux jeux de données provenant des régions ou de la Data locale.
Ce site comporte environ 80 000 jeux de données ouvertes sur des thématiques multiples. Gérées par le gouvernement canadien, la majorité des informations diffusées (plus de 65 000) ont un lien avec les ressources naturelles du Canada. Dotée d'un outil de recherche, la plateforme permet aux utilisateurs de vite trouver les informations dont ils ont besoin. Pour les personnes qui font des recherches sur les spécificités ou l'exploitation des ressources minières canadiennes, ces données peuvent leur être utiles pour valoriser leurs travaux. Entre les statistiques, les images, les graphes ou les tableaux, ces jeux de données permettront aux chercheurs et étudiants de donner une valeur ajoutée à leurs études scientifiques.
L'Open Data est donc une technologie très prisée par les pouvoirs publics, mais aussi par les utilisateurs d'internet. Pour mieux en maîtriser les contours, il est recommandé d'effectuer une formation en Data analysis. Ceci permettra aux apprenants de donner une définition claire de l'Open Data.