De plus en plus demandés par les recruteurs de tous types d’entreprises, les Data Scientists ont pris une importance considérable dans leurs processus de décision. Romain, Data Scientist dans l’Edtech nous fait le plaisir de répondre à toutes vos questions sur le métier, les méthodes à adopter, et surtout des compétences requises pour devenir Data Scientist.

Retrouvez l’intégralité de la session AMA sur Youtube, toutes les questions posées sont dans la description. Aussi, les slides sur Slideshare.

QUELS ÉTAIENT LES BESOINS EN DATA SCIENCE QUAND YES’N’YOU T’AS RECRUTÉ ?

YES’N’YOU est une EdTech spécialisée dans la formation digitale. Nos plus gros challenges en Data sont des applications de NLP (Natural Language Processing) ainsi que de la génération automatique de contenu en fonction de ce que nos apprenants font. Nous avons une plateforme d’apprentissage en ligne, nos apprenants interagissent avec, et notre rôle est de prédire, prévoir et générer les contenus les plus adaptés à leurs interactions.

PAR OÙ COMMENCER POUR APPRENDRE ?

Il y a une grande diversité de métiers dans la Data et des applications très concrètes et dans absolument tous les secteurs. Les compétences clés pour devenir Data Scientist : les langages de programmation, librairies de données et système de bases de données, la Data Visualisation, les statistiques & probabilités, et surtout le Machine Learning.

Pour apprendre tout cela, il y a des plateformes en lignes pour vous initier au code et aux statistiques, comme DataQuest, DataQuant, Udemy et Stanford (pour des connaissances plus statistiques), Codcademy.  On a aussi des formations en présentiel avec des Bootcamps qui peuvent vous donner de très larges connaissances sur ce qui se fait en Data Science.

MON CONSEIL
Le tout est surtout de pratiquer. Pour cela, Kaggle est la plateforme de Data Scientists mondiale. Sur cette plateforme, vous trouvez des jeux de données tout faits, sur lesquels vous pouvez d’ores et déjà appliquer des algorithmes. Cette communauté de Data Scientists vous permet aussi de partager votre code avec d’autres personnes qui vont conseilleront : tout ceci peut stimuler votre enthousiasme dans l’apprentissage ! En somme avec un portfolio de projets Kaggle et de bonnes connaissances métiers, il est tout à fait possible de se poster face à des diplômés d’école d’informatique ou d’ingénieur.

IL Y A T’IL UNE DIFFÉRENCE DANS LE MÉTIER ENTRE LES PME ET LES GRANDS GROUPES ?

La différence est énorme. Quand j’étais chez Disneyland Paris, les équipes Data étaient déjà énormes et structurées. Pour l’infrastructure et la mise en place de services, les outils et licences étaient déjà achetées, et la majorité du travail en amont est déjà réalisé par des prestataires ou d’autres services internes. Finalement, la marge de manœuvre en tant que Data Scientist là bas était très réduite. Chez Yes’N’You, c’est toute la chaîne qui est à créer.

La journée type du Data Scientist en est radicalement changée.

MON CONSEIL pour les débutants en Data est de ne pas commencer en start-up. Le métier de Data Scientist y est très transverse, il vous demandera beaucoup en termes de développement, de mise en place, et sera peut-être trop exigeant pour un début.

QUELLE EST TA JOURNÉE TYPE ?

La majorité de mon temps est passé à nettoyer les données, d’agencer de jeux de données plus facilement exploitables. Chez Disneyland, la majorité de mon temps était allouée à l’application de modèle de Machine Learning et de l’optimisation de modèles. On travaille donc en collaboration avec l’équipe produit qui fait le développement sur notre plateforme. On segmente après toutes ces missions entre l’équipe Dev et Data. 70% de mon travail tourne autour du développement et la création d’API : beaucoup de code !

LES PLUS GROS CHALLENGES QUAND ON SE FORME ?

Ce secteur très large étant toujours en renouveau, il y a toujours des éléments que l’on ne maîtrise pas.  L’important est aussi de se donner du temps car ce sont des compétences qui peuvent prendre énormément de temps à être acquéries : que ce soit le code qui ne fonctionne pas, avoir du mal à accéder des ressources pertinentes (accessible sur TensorFlow), les challenges sont nombreux.

QUELS SONT LES OUTILS QUE TU UTILISES POUR RESTER EN VEILLE TECHNOLOGIQUE ?

J’utilise l’application Feedly notamment. On a aussi de beaucoup de blogs spécialisés dans la Data qui sont très bien. Il a aussi Facebook Research qui donne tous les nouveaux algorithmes ou libraires. Google aussi publie régulièrement leurs papiers et leurs solutions pour la Data Science. Je regarde aussi souvent sur GitHub les nouvelles libraires Python qui sortent.

Y-A-T-IL AUSSI DES ALGORITHMES SIMPLES QUI ONT DES UTILITÉS BUSINESS OU FAUT-IL ABSOLUMENT PASSER PAR DES ALGORITHMES PLUS COMPLEXES ?

D’abord, il y a beaucoup d’entreprises dont les services Data et leurs outils ne sont pas à jour. Même des modèles simples peuvent leur être très utiles, que ce soit en termes de CA, ou de prévision (Business Intelligence). Tout ceci peut aider à certaines décisions.

Dès lors que l’entreprise à des gros volumes de données, on peut vite aller dans le Deep Learning, reconnaissance d’images, de vidéos etc.

DE PLUS EN PLUS D’OUTILS D’AUTOMATISATION VOIENT LE JOUR, COMMENT VOIS-TU LE MÉTIER DE DATA SCIENTIST DANS 5 ANS ?

Il y a effectivement des innovations incroyables en termes d’automatisation : auto-génération de code, de texte, auto-création de site web. Mon avis est qu’il y aura toujours une conception de contrôle et de conceptualisation qui doit être faite par l’homme et qui pourra réellement répondre aux besoins de l’entreprise. Egalement, l’interaction humaine dans la force de proposition du Data Scientist va perdurer, du moins à court et moyen terme.