Précision de la prédiction de la durée de projet améliorée de 50 % à 60 %.

Précision de la prédiction de la durée de projet améliorée à 50-60 %.
Le Client développe un système de gestion de projet pour mille entreprises (principalement d'Amérique du Nord) couvrant divers secteurs d'activité : IT, marketing, éducation, santé, etc. En 10 ans, le produit est devenu extrêmement réussi et a accumulé une quantité substantielle de données sur les projets réalisés.
Le Client vise à l'amélioration continue de la performance du produit pour répondre aux besoins des utilisateurs. Afin d'améliorer la qualité du système de gestion de projet, le Client a eu l'idée d'exploiter la puissance des données et appliquer l'apprentissage automatique.
Les gens se trompent souvent dans leurs estimations, mais deux fois plus souvent, les employés échouent à suivre l'état réel des tâches dans le système de gestion de projet. Par conséquent, la direction générale rencontre des difficultés importantes pour prédire la date de fin du projet et savoir si un projet sera ou non terminé à temps.
Un système capable de fournir une estimation plus précise de la date de fin effective du projet serait utile aux gestionnaires et augmenterait l'efficacité globale des processus de gestion de projet dans le système du Client.
Le travail de l'équipe DataSqueeze a été divisé en plusieurs étapes :
L'équipe DataSqueeze a mené des recherches sur certaines améliorations populaires dans les outils de gestion de projet. Pour répondre aux besoins des utilisateurs et aux demandes du marché, la liste des fonctionnalités produit inclut les éléments suivants :
Le Client a choisi la prévision de la durée du projet comme la fonctionnalité la plus utile à développer.
Le processus global de développement comprend 4 étapes.
| Étape | Portée du travail |
| 1. compréhension et validation des données | Acquérir, traiter et valider les données du Client. |
| 2. Ingénierie des caractéristiques | Conversion des données brutes du projet en fonctionnalités. |
| 3. Modélisation | Entraîner le modèle sur l'ensemble de données préparé. |
| 4. Déploiement | Livraison et déploiement du modèle ; fournir au client une interface conviviale pour accéder au modèle entraîné. |
La « feuille de route » de la solution est présentée dans la Figure 1.

Figure 1. La « feuille de route » de la solution
Le choix du modèle de gradient boosting était dû au volume (suffisant pour abandonner les modèles linéaires mais insuffisant pour les réseaux neuronaux) et à la nature hétérogène des données.
Ainsi, l'équipe DataSqueeze a livré le modèle capable de prédire efficacement le nombre de jours calendaires restants avant la fin de projet prévue.
Le service fourni par DataSqueeze donne accès à l'API, via laquelle il est possible d'évaluer efficacement la durée d'un projet. Les prédictions peuvent être générées lors de la phase de planification ou à n'importe quel jour du processus de développement.
La qualité du modèle a été évaluée en utilisant le Métrique SMAPE. La performance du modèle est supérieure de 50 à 60 % en termes de précision par rapport aux estimations indiquées explicitement par les gestionnaires.
Pour les projets qui n'avaient pas d'estimations par les gestionnaires, les repères ont été calculés (une méthode simple pour estimer la variable cible). La qualité du modèle dépasse celle des modèles de référence jusqu'à 15% (selon le segment).
La comparaison détaillée se trouve dans la Figure 2.

Figure 2. La comparaison au stade de la planification du projet
Le modèle est intégré avec succès dans le système de gestion de projet du Client et permet aux utilisateurs de recevoir des prédictions en temps réel.
La direction reçoit un outil puissant de suivi de la « santé » d'un projet. Le modèle offre également la possibilité d'évaluer plus efficacement l'avancement d'un projet ou d'anticiper les risques potentiels.