#3 - OCTOBRE 2024
La data, une charge mentale pour l’entreprise
L’Intelligence artificielle générative (IAG) fait naître la crainte d’un déclassement, de l’homme par rapport à la technologie. Pour dissiper les craintes, les entreprises s’organisent. De façon plus ou moins formelle, elles éduquent leurs collaborateurs à l’IA. Une façon de (re) placer l’homme au cœur de l’IAG.

Mehdi Labassi
Chief Technology Officer, Carrefour
SKEMA ALUMNI

Bernardo Pagnoncelli
Professeur-chercheur d’analytique et de science des données, SKEMA Business School
Nous vivons à l’ère de la data, des données, et il ne se passe pas un mois sans que l’on apprenne l’apparition d’un nouvel outil d’intelligence artificielle (IA) ou d’une nouvelle application de la data science. Les organisations tirent de plus en plus parti de ces avancées en intégrant à leurs opérations principales des produits de données (data products) tels que des solutions d’analyse, des modèles de machine learning et même de grands modèles de langage (LLM). Un aspect essentiel, mais souvent négligé de la gestion des produits de données est pourtant la nécessité d’une maintenance continue, et donc considérable, après leur déploiement. Bien que leur code reste inchangé et qu’ils fassent l’objet de tests et de validations poussés au cours de la phase de développement, leurs performances ont tendance à se dégrader au fil du temps. Une étude récente du MIT publiée dans Nature (Daniel Vela & al., 2022) révèle que cette usure touche 91 % des modèles d’apprentissage automatique évalués. Plusieurs facteurs peuvent influencer ce déclin, connu dans la littérature scientifique sous le nom de « détérioration » ou « vieillissement ».
RATTRAPER LE PRÉSENT
Le data drift, par exemple, implique des variations dans les propriétés statistiques des données d’entrée dues à des changements de comportement des utilisateurs, à une évolution des tendances du marché ou à d’autres facteurs externes. Un système de recommandation pour le e-commerce peut perdre de sa pertinence au fur et à mesure que les préférences des consommateurs évoluent de façon saisonnière. De même, le concept de drift se produit lorsque la relation entre les caractéristiques d’entrée et la variable de sortie change, comme on peut le constater dans les modèles de détection de fraude qui échouent à reconnaître de nouveaux types d’activités frauduleuses. Les connaissances obsolètes contribuent également au vieillissement des produits de données. Les modèles qui n’intègrent pas les informations ou les tendances les plus récentes peuvent être dépassés. Par exemple, les conseils de santé prodigués par les LLM peuvent devenir moins précis s’ils ne sont pas mis à jour avec les dernières directives médicales. En outre, la qualité des résultats et des métriques peut diminuer de manière significative si celle des données d’entrée se détériore. La précision d’un modèle de prévision météorologique, par exemple, peut diminuer si la fiabilité des données des capteurs sur lesquels celui-ci s’appuie est compromise.
Plusieurs stratégies proactives peuvent être adoptées pour garantir la performance et la précision des produits de données une fois ceux-ci déployés en production. La surveillance continue et les alertes jouent un rôle fondamental dans le suivi des métriques et l’identification des anomalies. Un recalibrage et des mises à jour régulières des modèles sont nécessaires pour intégrer de nouvelles données et maintenir leur « L’intelligence artificielle est un outil qu’on nourrit, mais dont l’alimentation – en données fraîches – peut avoir un effet restructurant sur l’entreprise. » pertinence. Une gestion efficace de la qualité des données implique une validation rigoureuse afin de garantir l’intégrité des données d’entrée. La mise en œuvre de pratiques et d’outils d’observabilité des données peut résoudre ces problèmes, et la gestion des changements par le contrôle des versions et des contrats de données est également indispensable. Ces efforts de maintenance nécessitent avant tout une planification et un budget adéquats. L’engagement financier pour un produit de données se poursuit bien au-delà de son développement initial et nécessite un changement de gouvernance financière pour soutenir les opérations continues.
Au fur et à mesure que les produits de données deviennent centraux dans la stratégie commerciale de nombreuses organisations, il est impératif de s’éloigner de l’approche « fire and forget » typique du déploiement traditionnel de logiciels. Une approche proactive pour comprendre et atténuer le vieillissement des produits de données est cruciale pour garantir leur pertinence et leur efficacité à long terme.