Dataiku : une approche collaborative au cœur des projets data

Dataiku : une approche collaborative au cœur des projets data

Dataiku : une approche collaborative au cœur des projets data

Episode 1 – #DataAnalyticsTools

Outil tout-en-un permettant de développer un projet de bout en bout, de la préparation au déploiement, Dataiku DSS (Data Science Studio) vient une nouvelle fois d’être consacrée par Gartner, dans son Magic Quadrant 2020 sur les plateformes de Data Science et Machine Learning. Reconnu pour sa facilité d’utilisation et sa capacité à favoriser la collaboration entre plusieurs types d’utilisateurs, Dataiku DSS est désormais considérée comme une « plateforme mature » dont les capacités en matière d’élasticité, de gouvernance des données et de ML augmenté ne sont plus à démontrer. Gartner estime même que l’éditeur français aurait, depuis l’an dernier, pris une longueur d’avance sur Google, IBM et Microsoft…

Si on pose la question à des équipes data sur ce qui distingue Dataiku DSS de ses concurrents, elles vous répondront : son approche collaborative et son environnement tout en un ! Développée en 2014 par la société française Dataiku, la plateforme offre aux spécialistes des données la possibilité de préparer, mélanger, confronter et modéliser les données, de les visualiser et de fournir des insights sur demande. En faisant coexister tous les standards de technologies Big Data et les différents langages de programmation, l’éditeur réussit, au fil des mises à jour, le tour de force de répondre à presque tous les cas d’usage.

Avec cette facilité de convertir les données en prédictions, la plateforme aujourd’hui est utilisée dans des secteurs d’activité aussi divers que celui de la santé, le retail, la banque, l’automobile, les médias…Et même celui des jeux vidéo. En étant capable de détecter les fraudes, de faire de la maintenance prédictive, de générer des analyses marketing, spatiales ou encore CRM, Dataiku DSS est un outil dont les capacités analytiques peuvent séduire les directions marketing, RH, logistique, ventes, business intelligence.

Aujourd’hui, Dataiku c’est plus de 300 clients dans le monde qui utilisent la plateforme pour industrialiser leurs projets d’intelligence artificielle. Preuve de son succès, Capital G, le fonds d’investissement et filiale d’Alphabet (Google), a investi 1,4 milliard de dollars dans l’éditeur après la sortie de la dernière version de la plateforme.

Le point de vue des consultants

Dataiku DSS est destinée à toute personne intervenant dans un projet data. Qu’il s’agisse de Data Analyst, de Data Scientist, d’un membre de l’équipe IT, ou encore de Business Analyst. Elle permet aux équipes data de collaborer au sein d’un même environnement afin de traiter les données, les analyser, et de développer et déployer des solutions d’analyse packagées.

Notre métier de Data Scientist, à l’intersection de celui de Data Analyst et de Data Engineer, nous amène à devoir travailler en étroite collaboration avec ces derniers afin d’assurer la fluidité et le bon déroulement d’un projet data. Grâce à Dataiku DSS, il est possible pour nous, sur la même plateforme, d’explorer, prototyper, construire et déployer nos propres solutions d’analyse et de modélisation de données de manière efficace. Collaborer au sein d’un même environnement nous simplifie donc le quotidien.

Quels sont les avantages d’utiliser Dataiku DSS ?

Dotée d’une interface visuelle interactive, la plateforme permet de construire un flux de transformation, de modélisation et d’analyse de données grâce à du « pointer, cliquer » de briques visuelles (drag and drop), et d’utiliser des langages comme R, Python ou SQL.

Dataiku DSS offre une grande flexibilité dans le développement d’un projet data et se démarque grâce aux avantages qu’elle propose sur les axes suivants : la collaboration, le déploiement et la modélisation & Machine Learning.

La collaboration

Dataiku propose une documentation intégrée et un partage des connaissances fluidifié entre les différents intervenants sur le projet.

Chaque action dans le système est « versionnée » et enregistrée dans un répertoire Git intégré, ce qui permet de suivre chaque action dans le temps et aussi facilement revenir aux versions précédentes si besoin. De plus, des tableaux de bord permettent de garder un œil sur les projets en cours et de suivre leur évolution en temps réel.

Déploiement

Le nettoyage, la préparation, l’enrichissement des données, ainsi que la modélisation, sont regroupés dans un même workflow et sont ainsi faciles à déployer. Il est possible de déployer sur le cloud grâce à Kubernetes, ou sous forme d’APIs des modèles Python ou R personnalisés.

Dataiku DSS permet de gérer de grandes quantités de calculs en temps réel avec mise en file d’attente, parallélisme et équilibrage des charges, et la mise à l’échelle élastique automatique permet de gérer les pics de trafic inattendus.

Les modèles déployés sont versionnés, ce qui permet aux utilisateurs de déployer de nouvelles versions, de les comparer entre elles et de revenir en arrière à tout moment pour vérifier que les performances du modèle ne dérivent pas avec le temps.

De la même manière, il est possible d’exécuter plusieurs versions du même modèle en même temps pour des A/B test automatisés et le suivi de l’évolution des données.

Modélisation & Machine Learning

Avec Dataiku DSS, il est possible d’optimiser les hyper-paramètres des modèles de Machine Learning en utilisant les diverses stratégies de cross-validation disponibles et de comparer les résultats de multiples algorithmes supervisés et non supervisés.

Il est également possible d’obtenir un aperçu visuel, instantané, de chaque modèle (importance des variables, corrélation entre variables etc..), d’évaluer ses performances grâce à des mesures détaillées, de définir une architecture adaptée au modèle et de personnaliser les paramètres d’entrainement.

Pour les modèles de Deep learning, Dataiku DSS prend en compte Keras, le backend Tensorflow, l’intégration avec Tensorboard et permet d’optimiser l’entrainement des modèles en utilisant le GPU. Ainsi, dès que le modèle est construit et évalué, il peut être directement déployé comme un service, et ce en temps réel (API REST).

Dataiku DSS offre tous les outils nécessaires pour gérer facilement le cycle de vie d’un modèle : déploiement de nouvelles versions, recyclage des versions précédentes et retour à n’importe quelle version antérieure et sécurisée en un seul clic, tout en contrôlant les performances du modèle dans le temps.

Dataiku propose aujourd’hui une plateforme collaborative complète, flexible et facile à utiliser. Ses concepteurs ont réussi à faire de la collaboration entre les différentes expertises la clé de réussite d’un projet data. Elle démontre ainsi que, bien mené, un projet Data est à la fois rentable et une source de croissance et donc un formidable indicateur de succès pour une entreprise Data Driven.

Sara Zoubir, Consultante Data et Dominique Cozzi, Journaliste Consultante.

En réagissant à cet article, vous nous permettez d'affiner les contenus que nous publions ici !

  • Awesome (8)
  • Interesting (4)
  • Useful (2)
  • Boring (2)
  • Sucks (1)

Si cet article vous a plu, n’hésitez pas à le partager via