Comment préparer ses données pour l’IA générative

Cognizant Blog

Dans cet article, nous explorons les nouveaux enjeux que pose l’IA générative en matière de qualité des données et livrons quelques réflexions pour accompagner les entreprises dans l’optimisation des données en vue d’un traitement avec un LLM.

De l’euphorie créée par ChatGPT à son adoption (ou plutôt sa transcription) dans les entreprises, l’accélération initiale connaît un ralentissement mais ce n’est que pour mieux adopter l’IA générative. Depuis le lancement de la solution d’OpenAI, les attentes des dirigeants ne cessent en effet de croître autour des Intelligences Artificielles génératives (GenAI), nourrissant un terreau de nouvelles offres et de nouveaux acteurs. Soucieuses de prendre de l’avance (ou de ne pas se laisser distancer), les entreprises s’emparent des modèles textuels de type Large Language Models (LLMs) pour accélérer leurs processus internes ou tenter de proposer des services innovants. La question de la stratégie d’entreprise concernant l’IA générative devient plus pressante que jamais.

Problème : la plupart des entreprises oublient de concentrer leur attention sur l’ingrédient majeur d’une stratégie de GenAI réussie… le niveau de préparation de la donnée. Dans une étude que nous avons conduite en septembre 2023 auprès de décideurs IT et métiers¹, 74 % d’entre eux déclaraient ne pas savoir comment intégrer les données dans une perspective d’IA générative, ni comment gérer ces IA au cœur de leurs systèmes hérités (legacy) et de leurs environnements multiclouds.

Dans cet article, les équipes de Cognizant vont tenter d’éclairer ces dirigeants dans la structuration de leur patrimoine data, en expliquant pourquoi il est si fondamental de s’appuyer sur de « bonnes » données quand il s’agit d’IA générative et ce que l’on entend vraiment derrière la notion de « bonne donnée » dans cette optique-là. A la clé : une mise en qualité de toutes les données qui participent à la stratégie de GenAI et une exploitation maximale des capacités transformatrices de l’IA.

Pourquoi l’IA générative renforce le besoin de qualité des données

Cela fait déjà plusieurs années (voire des décennies) que les experts annoncent un bouleversement du monde du travail occasionné par l’IA. Mais, jusqu’à présent, le discours a toujours porté sur l’automatisation des tâches les plus répétitives et sur une complémentarité entre l’homme et la machine.

Lorsque des modèles comme ChatGPT et DALL-E ont fait irruption sur le marché, c’est la capacité créative de ces outils qui a interpellé les prophètes de la tech : devant la fluidité rédactionnelle de certains textes ou la force évocatrice de certaines images, certains ont pu croire au remplacement inéluctable de l’homme par l’IA, y compris sur des tâches créatives.

¹ Étude conduite aux États-Unis et au Royaume-Uni, parue en septembre 2023

L’intelligence artificielle ne remplacera pas l’intelligence humaine aussi créative soit-elle, elles s’entrainent l’une l’autre.

Or, la réalité n’est pas si simple. Après six mois de pratique et d’entraînement sur ces modèles, les entreprises se rendent aujourd’hui bien compte de l’effort important que ces LLMs représentent s’agissant de contributions et de suivi par l’Homme. Le mythe de la machine qui générerait automatiquement des œuvres créatives par une simple activation de prompt a vécu : désormais, les entreprises ont conscience que leur stratégie de GenAI ne peut se résumer à l’obtention d’une licence pour un logiciel ou à la création d’un de ces modèles en interne. Il leur faut nourrir le modèle avec de vastes quantités de données, et surveiller son évolution ; et, pour que l’IA générative fournisse des résultats ciblés et pertinents pour l’entreprise, il faut que ces données soient particulièrement sélectionnées. Autrement dit : qu’elles soient propriétaires.

Dans notre étude parue en septembre 2023, les dirigeants ne s’y étaient pas trompés : alors qu’on leur demandait quel jeu de données était le plus pertinent pour l’exploitation des modèles d’IA, une large majorité d’entre eux répondaient « les jeux de données propriétaires / internes » (72 %), bien devant les données externes (45 % ont mentionné les données provenant d’une marque reconnue et 43 % les third party data).

Selon 72% des dirigeants, les données internes sont prioritaires pour exploiter les modèles d’IA.

Deux stratégies d’intégration de données

Dès lors, tout l’enjeu pour ces entreprises consiste à intégrer ces jeux de données de la façon la plus efficace dans l’exploitation du modèle d’IA. Et d’après notre expérience, deux approches semblent se dessiner, chacune avec ses avantages et ses inconvénients :

l’approche sur mesure ou « Custom LLM »,
et l’approche sur étagère ou « LLM plus RAG ».

Cela se joue donc entre sur mesure ou sur étagère, comme souvent c’est le cas dans l’adoption de technologies. L’arbitrage se fait toujours de façon comparable. Voici dans le cas des LLM avec une exception de taille, la flexibilité.

1. L’approche sur mesure ou « Custom LLM »

L’approche la plus ambitieuse consiste à utiliser un modèle générique de LLM (appelé Foundational Model ou FM) et à le raffiner avec des données propriétaires jusqu’à créer un modèle LLM entièrement nouveau et/ou des outils d’IA adaptés à des besoins métier spécifiques. La difficulté tient au fait que le processus de raffinement requiert un engagement humain assez fort qui peut être chronophage, particulièrement lorsqu’il s’agit de techniques de raffinement de type Reinforcement Learning from Human Feedback ou RLHF (en français : « Apprentissage par renforcement à partir de la réponse humaine »).

De plus, une fois le modèle abouti, les outils ainsi créés devront être soumis à une phase de stabilisation, incluant le suivi, le raffinement et la maintenance du modèle. Cette option est donc consommatrice en efforts mais, pour des entreprises adressant des problématiques de niche et qui ont une capacité d’investissement à plus long terme, elle peut s’avérer particulièrement audacieuse et payante.

L’approche sur-mesure est chronophage et sophistiquée, mais pour les entreprises audacieuses focalisées sur des problématiques de niches, elle représente un investissement gagnant.

L’approche ultime : utiliser les données pour créer un LLM sur mesure

2. L’approche sur étagère ou « LLM plus RAG »

Une solution plus rapide et moins chère consiste à utiliser un LLM existant et à lui donner accès aux données propriétaires via un processus nommé Retrieval Augmented Generation ou RAG (en français : Génération Augmentée de Récupération). Dans cette approche, le modèle conserve ses processus génériques de base mais il enrichit ses résultats avec des informations récupérées à la volée dans les bases de données propriétaires. Outre la rapidité de déploiement et l’économie de coûts, le bénéfice évident d’une approche RAG par rapport à l’approche sur mesure tient dans la flexibilité du modèle puisque ses résultats intègrent immédiatement tout changement qui aurait pu se produire dans les données, sans avoir à ré-entraîner l’intégralité du modèle.

L’approche sur étagère, plus rapide et moins chère est dans le cas des LLM également flexible puisque les données peuvent être enrichies à la volée.

Simple et efficace : utiliser des LLMs existants avec enrichissement RAG

Cependant, même dans ce cas, la qualité du résultat obtenu et la qualité du processus global seront contraintes par la qualité et l’accessibilité des données avec lesquelles le modèle devra travailler.

Cinq critères essentiels pour une architecture prête à l’emploi

On le voit : quelle que soit l’approche choisie, les chances de succès de la stratégie de GenAI seront étroitement corrélées à la performance de l’architecture de données existante. Parmi les critères à valider, cinq apparaissent particulièrement critiques :

L’indexation des données et la création de métadonnées
La fiabilité des données
La sécurité des données
L’élasticité des systèmes
La capacité de refaire travailler les jeux de données

1. L’indexation des données et la création de métadonnées

Même aux yeux d’un réseau de neurones performant et précis comme un LLM moderne, la donnée en elle-même ne veut rien dire si elle n’est pas proprement identifiée et indexée. La première étape dans la préparation de la donnée consiste donc à localiser celle-ci dans un répertoire centralisé, où des métadonnées complètes décriront sa source, sa structure, son contenu et, idéalement, sa signification. Si, comme on l’espère, les LLMs évoluent jusqu’à devenir des assistants pour les utilisateurs humains, ils devront non seulement accéder à toutes les données pertinentes pour une requête adressée en langage naturel, mais aussi à toutes les informations qui permettent de situer le contexte et la signification de la donnée. Sans cet effort de précision dans la gestion des métadonnées, les LLM seront privés de toute capacité opérationnelle.

2. La fiabilité des données

Autre critère essentiel : la fiabilité des données – d’autant plus si l’entraînement des modèles d’IA générative reposent sur celles-ci, comme c’est le cas avec l’approche de LLM customisé. C’est pourquoi, avant de se lancer dans une stratégie de GenAI, les entreprises devraient déjà faire le point sur le niveau de confiance que les équipes attribuent à leurs systèmes d’analytique, de reporting et de Business Intelligence (BI). Si le sentiment qui prédomine est plutôt le doute ou la méfiance, les dirigeants seront plus avisés d’engager des investissements pour résoudre ces problèmes que de mobiliser des ressources pour entraîner les modèles LLMs sur des données de qualité insuffisante.

3. La sécurité des données

L’enjeu de sécurité est un pilier fondamental de toute stratégie de données moderne. Mais, avec l’IA générative, les risques de voir son système de défense rapidement mis à nu, et ses points faibles exposés au grand jour, seront amplifiés et accélérés. En cause : l’absence de prédictibilité et de déterminisme dans le comportement d’un LLM qui rend difficilement prévisibles les dérives qu’il pourrait occasionner s’il venait à tomber dans des mains malveillantes – à commencer par la divulgation de données propriétaires, telles que des données confidentielles sur l’entreprise ou sur ses clients.

Cette menace est peut-être plus marquée lorsque les entreprises ont recours à l’approche sur étagère (celle enrichie par le RAG) car le modèle interagit plus fréquemment avec les données propriétaires, multipliant ainsi les occurrences d’ouverture du système et donc les risques de brèche pour des esprits mal intentionnés. Cependant, même si nous ne pouvons encore envisager l’étendue des menaces que véhiculent ces détournements de l’IA générative, il y a fort à parier que les entreprises les plus résistantes à ces attaques seront précisément celles qui, dès aujourd’hui, présentent les stratégies les plus efficaces de protection de leurs données sensibles.

4. L’élasticité des systèmes

Pour maximiser les gains engendrés par l’IA générative, les entreprises devront non seulement mettre à niveau leurs pipelines de données pour fournir aux LLMs la matière première à traiter, mais également créer un flux et une architecture de sortie pour recueillir et stocker le déluge de nouvelles données générées par le modèle. La construction de cette architecture de données doit intervenir en amont de tout projet de traitement, et elle doit se montrer suffisamment adaptable pour gérer un flux d'informations à la croissance linéaire, voire exponentielle, année après année.

Dans cette optique, il peut être intéressant de commencer à se pencher sur une modernisation des systèmes de stockage : là où les entrepôts de données ou les systèmes SGBDR pourraient s’avérer coûteux et limitants dans la quantité de données stockées et traitées, des architectures modernes de type « data lakehouse » et des systèmes de stockage d’objets dans des clouds évolutifs tels que S3 ou GCS pourraient faire la différence.

5. La capacité de refaire travailler les jeux de données

Paradoxalement, plus les modèles avanceront vers l’avenir, plus le besoin de revisiter le passé se fera pressant. Ainsi, dans les phases d’entraînement, de raffinement et de test d’un LLM, la capacité de restaurer et de refaire travailler des versions antérieures d’un jeu de données sera de plus en plus critique, y compris pour les entreprises qui envisagent un LLM sur étagère (pré-entraîné, pré-réglé et pré-testé). Cette capacité de réutilisation et de « rejouabilité » des systèmes de données existants est d’ailleurs un baromètre intéressant pour mesurer le degré de préparation de la donnée en vue d’une approche d’IA générative.

Cette dernière remarque vaut d’ailleurs pour tous les critères évoqués dans l’article : gestion des métadonnées, sécurité, fiabilité, adaptabilité… Au fur et à mesure que l’IA générative apposera sa signature sur des transformations structurantes, il deviendra capital pour les entreprises de prendre en compte tous ces critères et de construire une fondation solide de données si elles ne veulent pas se trouver distancées. Tout projet précipité d’investissement dans un LLM qui s’appuierait sur des architectures encore trop limitées ou des jeux de données non vérifiés, risquerait au contraire de faire perdre un temps précieux à l’entreprise qui le porte.

À l’heure où les avantages compétitifs se font et se défont au rythme des promesses portées par les IA génératives, il est capital de conserver une approche structurée et raisonnée en matière de données car celles-ci restent le maillon essentiel des transformations à venir.

Cognizant France

Découvrez nos points de vue sur les dernières tendances digitales et tous nos conseils pratiques pour moderniser votre entreprise.

Focus

IA Générative

Découvrez nos services en matière de GenAI et des exemples concrets d'application.

Focus

Focus

Focus

Focus

Recherche

Explorer

Cognizant Blog

Dans cet article, nous explorons les nouveaux enjeux que pose l’IA générative en matière de qualité des données et livrons quelques réflexions pour accompagner les entreprises dans l’optimisation des données en vue d’un traitement avec un LLM.

Pourquoi l’IA générative renforce le besoin de qualité des données

Deux stratégies d’intégration de données

1. L’approche sur mesure ou « Custom LLM »

2. L’approche sur étagère ou « LLM plus RAG »

Cinq critères essentiels pour une architecture prête à l’emploi

1. L’indexation des données et la création de métadonnées

2. La fiabilité des données

3. La sécurité des données

4. L’élasticité des systèmes

5. La capacité de refaire travailler les jeux de données

Cognizant France

Focus

Articles récents

Sur le même sujet