Contact
Contact

6 défis de la data science et comment y faire face

31 août 2023
Auteur :
Data science challenges-s

Les données sont devenues le nouveau carburant des entreprises. Elles font désormais partie intégrante de tous les processus de prise de décision. Aujourd'hui, la plupart des industries recourent aux données et à l'analytics pour souligner la position de leur marque sur le marché et augmenter leur revenu.

À mesure que l'adoption de méthodes analytiques comme la science des données et l'analyse de Big Data a augmenté, ainsi que les défis de la data science qui l'accompagnent. La plupart des problèmes de DS (data science) ne sont pas spécifiques à une entreprise. Ces défis peuvent inclure la recherche du bon talent, la résolution de problèmes basiques liés à l'organisation des données brutes, des vulnérabilités de sécurité inconnues, et plus encore.

Dans ce billet de blog, nous discuterons de certains des principaux challenges de la data science en 2023 et des solutions pour y répondre.

1. sources de données multiples

Les entreprises ont commencé à utiliser divers logiciels et applications mobiles tels que les ERP et les CRM pour collecter et gérer des informations relatives à leurs clients, ventes ou employés. La consolidation des données provenant d'informations disparates, non structurées ou semi-structurées peut être un processus complexe. Cela conduit à des formats non uniformes, chaque outil collectant les informations à sa manière. De plus, cela signifie également qu'il existe une variété de sources à traiter et à extraire.

Les sources hétérogènes rendent souvent difficile pour les data scientists de comprendre et d'extraire des informations significatives. Ils finissent donc par passer plus de temps à les filtrer, ce qui mène à des erreurs et à des décisions peu fiables. Dans de tels cas, il est crucial de normaliser les données pour une analyse précise. Pour comprendre quel format utiliser pour le DS, vous devez avoir une vision des fondamentaux de la Big Data. Il est donc important de connaître les 4 V du big data:

  • Volume : les gens demandent souvent : la Big Data est-elle un problème ? Non. Même avec l’échange de données qui croît de façon exponentielle, on peut la gérer grâce à la technologie. Il suffit de trouver le bon fournisseur tech pour vous aider à y faire face.
  • Vélocité : avec le volume, la vitesse à laquelle l’information est transférée compte aussi. L’échange se fait en temps réel. Ainsi, il est essentiel d’analyser ces ensembles de données en temps réel également.
  • Variété : La data existe sous toutes ses formes. Elle peut être structurée, non structurée ou semi-structurée. Comme indiqué ci-dessus, définir un format standardisé est un moyen idéal pour gérer la variété de la data.
  • Véracité : les gens demandent dans quelle mesure vos données sont fiables ? Avant de lancer une grande analyse, il est crucial de choisir les données pertinentes pour votre cas business.

En plus de cela, une autre solution à ce problème consiste à lister les sources de data utilisées par une entreprise et à rechercher une plateforme centralisée permettant d'intégrer la data provenant de ces sources. L'étape suivante est de créer une stratégie de data et un plan de gestion de la qualité, car la data collectée à partir de ces sources sera dynamique. Prioriser et intégrer les jeux de data dans un système centralisé fait gagner du temps et des efforts, tout en aidant à agréger la data en un seul point en temps réel. Cela contribue finalement à exécuter les algorithmes efficacement.

Examinons l'application de la data science par Walmart pour le business. data science pour le business. Walmart fonctionne selon le principe « Everyday low cost » et s'appuie fortement sur son département de data science et d'analytique, Walmart Labs, pour la recherche et le développement. Walmart possède le plus grand cloud privé au monde, capable de gérer 2,5 pétaoctets de données par heure, analysées au « Data Café » ultramoderne de Bentonville, Arkansas.

Walmart's case

Source : Unsplash

Grâce à leur approche efficace pour intégrer les données en priorisant et intégrant les ensembles de données dans un système centralisé, Walmart a contribué à l'expérience d'achat personnalisée, à l'approvisionnement des commandes et à la promesse de livraison à temps, ainsi qu'à l'optimisation de l'emballage.

Nous pouvons voir que, grâce à une approche judicieuse de l'importante quantité de données, ils ont réussi à éviter le problème de data science mentionné ci-dessus. En tant que plus grand détaillant mondial, Walmart connaît une croissance digitale significative et utilise les avancées de la Big Data et de la data science pour améliorer et personnaliser l'expérience d'achat de ses clients.

2. sécurité des données

Data science en entreprise est utilisé pour identifier des opportunités commerciales, améliorer la performance globale de l'entreprise et favoriser une prise de décision avisée. Cependant, la sécurité des données reste l'un des principaux enjeux pour entreprises de data science partout dans le monde. La sécurité des données est un terme fourre-tout qui inclut toutes les mesures et tous les outils de sécurité appliqués aux analytics et aux processus de data. Quelques-unes des violations de sécurité des données concernent :

  • Attaque sur les systèmes de données
  • Ransomware
  • Vol.

Le vol d'informations est la préoccupation de sécurité des données la plus courante, en particulier pour les organisations ayant accès à des données sensibles telles que les informations financières ou les données personnelles des clients. Avec l'augmentation du volume d'informations échangées sur Internet, la menace pesant sur les données transitant sur le réseau a augmenté de manière exponentielle. Par conséquent, les entreprises doivent suivre les trois fondamentaux de la sécurité des données :

  • Confidentialité
  • Intégrité
  • Accessibilité

data security

Source : Unsplash

L'utilisation de systèmes sécurisés pour accéder et stocker les données est la première étape pour garantir la| confidentialité des informations accumulées. Avec des méthodes telles que les tests de pénétration des données, le chiffrement et la pseudonymisation des données ainsi que des politiques de confidentialité, les entreprises peuvent s'assurer que leurs informations restent protégées. Les services DS ne sont pas conçus pour un accès granulé. Cela signifie que seuls le personnel ou l'équipe requis doivent avoir accès aux informations sensibles, tandis que l'objectif des données doit être déterminé.

Récemment, LinkedIn, une plateforme de médias sociaux permettant aux professionnels de se connecter et de réseauter, a été victime d'une violation de données. Cette violation a exposé les informations personnelles de 165 millions de comptes utilisateurs aux pirates, qui ont ensuite tenté de vendre ces données sur le marché du dark web. La violation a coûté cher à LinkedIn, l'entreprise ayant dépensé plus de trois millions de livres pour atténuer ses effets.

Les investigations sur la faille ont révélé que des mots de passe faibles et l'absence de « salage » (processus de renforcement des mots de passe chiffrés) étaient des facteurs contributifs. Ces conclusions soulignent l'importance de mots de passe robustes et de techniques de chiffrement avancées pour garantir la sécurité des données.

En réponse à cet incident, LinkedIn a pris des mesures pour mettre en place des mesures de sécurité renforcées. Par exemple, la plateforme chiffre désormais les données en transit, ce qui signifie qu'elles sont protégées contre tout accès non autorisé lors de leur transmission. De plus, certaines informations sensibles, telles que les données de carte de crédit et les mots de passe, sont maintenant chiffrées au repos, ce qui renforce encore la sécurité.

Linkedin's case

Source : Unsplash

Ces mesures sont conçues pour prévenir la fraude et protéger contre les fuites potentielles de données, assurant ainsi aux utilisateurs de LinkedIn qu'ils peuvent avoir confiance dans la sécurité de leurs informations personnelles. L'incident sert de rappel sur l'importance de maintenir des pratiques de sécurité des données solides dans le paysage numérique en constante évolution.

3. Manque de clarté sur le problème métier

Tout d'abord, il convient d'étudier le défi commercial pour lequel vous souhaitez mettre en œuvre solutions de data science. Choisir l'approche mécanique consistant à identifier des jeux de données et à effectuer une analyse avant d'avoir une vision claire du problème métier à résoudre s'avère moins efficace. Cela est particulièrement peu judicieux lorsque vous appliquez la science des données pour une prise de décision efficace. De plus, même avec un objectif clair en tête, si votre attente d' implémentation de la science des données si cela n'est pas aligné avec les objectifs finaux, les efforts sont vains.

Stratégiser un flux de travail sans faille est une solution gagnante pour identifier le bon cas d'usage à résoudre. Pour créer un flux de travail, il est important de collaborer avec tous les départements et de concevoir une liste de contrôle qui améliore l'identification des problèmes. Cela aide à identifier un problème commercial et ses effets dans un environnement multidisciplinaire.

Voyons comment la stratégie d'utilisation de la science des données a aidé Uber à devenir une plateforme qui facilite environ 14 millions de trajets Chaque jour. Cet exploit impressionnant a été rendu possible grâce à l'application de la data analytics et des technologies basées sur la Big Data. L'équipe de data science d'Uber explore en continu des technologies futuristes pour améliorer la qualité du service client.

Uber's case

Source : Unsplash

L'un des produits clés développés par l'équipe de data science de Uber est un modèle de tarification dynamique utilisé pour les hausses de prix et la prévision de la demande. Pendant les heures de pointe, la stratégie tarifaire de Uber change en réponse à la demande des clients.

La tarification dynamique est utilisée pour encourager davantage de conducteurs à s'inscrire auprès de l'entreprise et répondre à la demande accrue des passagers. Le conducteur et le passager sont avertis lorsque la tarification dynamique est en vigueur, Uber s'appuyant sur un modèle prédictif connu sous le nom de 'Geosurge' (breveté) pour déterminer le niveau optimal de tarification dynamique en fonction de la localisation et de la demande pour la course. Ainsi, l'approche judicieuse de l'exploitation de la Data Science a contribué à la mise en œuvre réussie du modèle de tarification d'Uber, évitant les problèmes de Data Science liés à la clarté des objectifs commerciaux.

4. KPI et métriques non définis

Les data scientists peuvent concevoir modèles de machine learning et obtenir des résultats précis grâce à celui-ci. Cependant, il est possible que les métriques utilisées ne servent pas l'objectif de mise en œuvre de la data science. Apprendre la data science ne consiste pas seulement à maîtriser le développement d'algorithmes, mais exige également une compréhension approfondie d'autres pratiques. Cela comprend un ensemble de métriques et de KPI qui stimulent la croissance de l'entreprise.

undefined kpis and metrics

Source : Unsplash

Certaines des méthodes pour identifier les métriques clés sont :

  • Objectif et vision clairs : un objectif réaliste, suffisamment articulé pour assurer le succès du projet. L’objectif doit être quantifiable et permettre de suivre la progression du projet. Cela aide les spécialistes à corriger les erreurs avant qu’il ne soit trop tard.
  • Artifacts réutilisables : reusability is a boon. It helps  improve the overall productivity of the DS-based project. Also, if you leverage reusable artifacts, you save a lot of time and gain lucrative benefits. Few of the artifacts that can be re-used include frameworks, open-source software, artificial intelligence models, etc.
  • Nombre de déploiements en production : after experimenting and creating the proof of concept, you'd want to deploy your ML models into production. If the models do not perform as expected, there are multiple iterations and modifications required to be done to ensure you get the desired results.  It's okay if you make small changes in production. This will help you gain insights into the bottlenecks at the end-process in the early stages of production.
  • Fournir des insights exploitables : un projet réussi basé sur la DS vous aide à obtenir des insights actionnables, notamment l’amélioration de processus tels que l’inventaire, les ventes, la production, etc. Ils doivent vous guider et permettre de prendre des décisions factuelles qui atteignent l’objectif final.
  • Retour sur investissement (ROI) : lorsque vous investissez dans des projets DS, vous voulez savoir si les résultats maximiseront votre ROI ou au moins minimiseront la perte. Si les retours de la mise en œuvre de votre module DS n’excèdent pas ou n’atteignent pas vos investissements (temps et coûts), il est préférable de réévaluer l’ensemble du processus.

Netflix sait à quel point les bonnes métriques sont bénéfiques lorsqu'il s'agit de relever les défis de l'analyse de données. La force motrice derrière la croissance immense et la popularité de Netflix est son utilisation avancée de l'analyse de données et des systèmes de recommandation, qui fournissent des recommandations de contenu personnalisées et pertinentes aux utilisateurs. La plateforme collecte des données de plus de 500 milliards d'événements par jour pour accomplir cet exploit.

Le système de recommandation personnalisé de Netflix est un exemple clé de la manière dont la Data Science est appliquée à la plateforme. Utilisant plus de 1 300 clusters de recommandations basés sur les préférences de visionnage des consommateurs, Netflix offre une expérience personnalisée à chaque utilisateur. Les métriques de données collectées par Netflix incluent le temps de visionnage, les recherches de mots-clés sur la plateforme, et les métadonnées liées à l'abandon de contenu, telles que le temps de pause, les retours en arrière et les re-visions.

Avec ces données, Netflix peut prédire ce qu’un spectateur est susceptible de regarder et créer une watchlist personnalisée pour l’utilisateur. La plateforme utilise plusieurs algorithmes, notamment Personalized Video Ranking, Trending Now Ranker et Continue Watching Now Ranker, pour alimenter son système de recommandation. Cela a permis de résoudre efficacement les problématiques d’analytics de données en déterminant les métriques et en construisant l’une des plateformes de streaming les plus puissantes.

5. Difficulté à trouver des data scientists qualifiés

La pénurie de talents est un autre problème auquel les entreprises sont confrontées dans la data science. Les entreprises ont souvent du mal à trouver la bonne équipe de données avec des connaissances approfondies et une expertise sectorielle. En plus d'une compréhension approfondie des algorithmes ML et IA, les spécialistes doivent également connaître la perspective métier de la DS. Finalement, un projet DS réussit lorsqu'il permet aux organisations de raconter leur histoire métier à travers leurs données. Ainsi, une compétence importante à rechercher chez les analystes et les scientifiques est l'art de raconter des histoires à travers les données, ainsi que la capacité à résoudre des problèmes.

Bien que tous les départements ne comprennent pas le language of data, l'équipe d'experts doit être capable de communiquer avec les autres équipes et de le faire efficacement. Comme chaque équipe a des priorités et workflows différents, il est important que tous soient sur la même page. Les professionnels doivent pouvoir expliquer les complexités techniques de manière compréhensible, pour que les dirigeants puissent les saisir facilement. Cependant, trouver une telle équipe est difficile. Faire appel à un|e entreprise de data science est une option viable car elles disposent non seulement de l'expertise technique requise, mais comprennent également l'aspect business du projet et sont prêtes à s'y engager.

6. Tirer de la valeur de la data science

Les experts en données estiment que pour soutenir une entreprise, le processus d'analyse des données doit être plus agile et en phase avec l'entreprise pendant le processus de prise de décision. La mise en œuvre de la Data Science permet de créer une culture de collaboration parmi les membres de l'équipe et, surtout, donne à vos employés le pouvoir de prendre de meilleures décisions.

Getting Value Out of Data Science

Source : Unsplash

Le DS peut être utilisé à diverses fins telles que :

  • Comprendre les clients
  • Cibler les bons clients
  • Améliorer la qualité des produits
  • Rendre les équipes plus efficaces

En fonction du cas d'usage, des ensembles de données appropriés ainsi que des modèles robustes de ML et d'IA, vous pouvez tirer une grande valeur de votre projet de DS.

Avec 489 millions d'utilisateurs mensuels, environ 4 milliards de playlists et 5 millions de podcasts, Spotify a dépassé d'autres plateformes de streaming comme Apple Music, Wynk, Songza, et Amazon Music. Le succès de Spotify peut être attribué à son utilisation sophistiquée de l'analyse de données. En analysant de grandes quantités de données des auditeurs, Spotify fournit des services en temps réel et personnalisés à ses utilisateurs. La majorité des revenus de Spotify provient des abonnements premium payants.

Spotify exploite les données des utilisateurs pour améliorer les recommandations de chansons personnalisées, les campagnes publicitaires ciblées et les recommandations de services personnalisés pour ses utilisateurs. Spotify utilise des modèles d'apprentissage automatique pour analyser le comportement des auditeurs et les regrouper en fonction des préférences musicales, de l'âge, du sexe, de l'ethnie, et d'autres facteurs. Ces informations permettent à Spotify de créer des campagnes publicitaires pour un public cible spécifique. Ainsi, Spotify analyse les données pour atteindre les objectifs mentionnés ci-dessus : comprendre les auditeurs, cibler les bons auditeurs et améliorer la qualité de la plateforme.

Conclusion

Dans cette ère de digitalisation et de compétition autour de la Big Data, il devient nécessaire pour les entreprises de s'adapter aux besoins changeants du marché et développer une stratégie de data science conformément aux besoins business. Lors de la poursuite de vos objectifs analytiques, les professionnels peuvent être confrontés à divers types de défis DS qui entravent votre progression. Si vous suivez un workflow bien planifié vous permettant de stratégiquer vos capacités business, analytiques et technologiques, ces problèmes peuvent être traités efficacement. Vous trouverez ci-dessous les solutions résumées qui peuvent vous aider à réussir l'implémentation DS :

  • Créer une liste d'initiatives possibles avec des objectifs clairs
  • Sélectionner un cas d'usage métier à résoudre
  • Analyser les capacités internes
  • Faites une liste des exigences techniques
  • Rechercher une expertise tierce
  • Préparer un calendrier réaliste.

Un plan complet vous aide à surmonter les difficultés liées à la data science. De plus, consulter des experts en data science vous permet d'obtenir des insights menant à une mise en œuvre réussie du projet.

Biographie de l'auteur :

Omar Khalil est le propriétaire de Softweb Solutions Inc – Une société Avnet. Fort d'une solide expérience dans l'introduction des dernières technologies au Midwest, il sensibilise désormais à l'importance de l'IoT, du Deep-learning, de l'IA, de l'analyse avancée des données et des expériences numériques à travers les États-Unis.

Renforcez votre projet avec équipe de data science compétente

Besoin d'étendre votre équipe interne avec des data scientists expérimentés, ou à la recherche d'une équipe engagée pour prendre en charge votre projet ? Contactez-nous à info@datasqueeze.fr.