Passer au contenu principal Skip to footer
Cognizant Blog

Les data engineers sont à la fois utilisateurs, producteurs et moteurs – ou diffuseurs –d’intelligence artificielle générative (ou GenAI). Un rôle central qui les incite à revoir en profondeur leur métier, à mesure que l’IA générative s’impose dans l’entreprise.

Longtemps, les data engineers sont restés dans l’ombre, tirant en coulisses les ficelles de la transformation digitale. Sans que le grand public en ait véritablement conscience, le basculement du monde économique dans la vie moderne, dans « l’âge digital », reposait essentiellement sur le travail d’une petite cohorte d’ingénieurs, capables de concevoir et de maintenir des architectures complètes de données (pipelines, infrastructures, bases). Leur objectif : donner à chaque entreprise les outils pour stocker et analyser des flots continuels d’informations – et être ainsi en mesure de s’insérer dans le paysage concurrentiel mondial.

Mais l’avènement de l’IA générative change la donne pour ces architectes de l’ombre. De techniciens discrets habitués à des tâches parfois répétitives, ces spécialistes de la donnée pourraient bientôt se muer en stratèges business, experts en pilotage des activités. Un rôle central conféré par la puissance de l’IA générative, laquelle accroît la prééminence de ceux qui en maîtrisent le fonctionnement. Sans compter que l’automatisation de nombreuses tâches par ces nouveaux outils leur libérera du temps et de la créativité pour se concentrer sur des missions à plus haute valeur ajoutée.

Les data engineers entrent donc dans une nouvelle définition de leur métier et de leur rôle. Un basculement qui pourrait avoir de larges impacts sur l’économie mondiale, voire sur la société tout entière. Grand pouvoir, grandes responsabilités ? En tous cas, la discrétion n’est plus de mise.

Pour le data engineer, une créativité décuplée

Pour mieux comprendre l’impact de la GenAI sur le métier de data engineer, il importe de se replonger dans la nature des rôles de chacun.

Rappelons d’abord que l’intelligence artificielle générative s’apparente à la nouvelle génération de modèles d’IA qui proposent du contenu original sur la base d’algorithmes entraînés, lesquels s’appuient sur des quantités exponentielles de données. En 2023, le plus connu de ces modèles est GPT-4, de l’entreprise OpenAI, un modèle de langage multimodal qui peut générer des textes cohérents, agréables à lire et pertinents d’un point de vue contextuel, à partir des demandes de l’utilisateur. D’autres modèles de GenAI se concentrent davantage sur l’aspect visuel, en générant des images.

Par conséquent, l’impact le plus évident et immédiat que pourrait avoir l’IA générative sur le travail des data engineers serait de les aider à produire des rapports et des graphes de bonne qualité sans avoir à solliciter l’assistance systématique de designers et d’analystes. Il s’agit donc ici de les accompagner dans leur mission de reporting sur les jeux de données,

Mais l’IA générative peut également les éclairer dans une mission plus centrale, c’est-à-dire la mise en lumière des enseignements livrés par les données. Il est en effet probable que l’IA générative permettra à terme d’identifier les tendances et significations qui se dégagent d’un jeu de données, mais aussi qu’elle présentera les résultats d’une façon si structurée et claire que même des profils non techniciens pourront immédiatement les comprendre.

Mais il serait restrictif de cantonner la « créativité » du métier de data engineer à la production de tableaux et de graphes. Car la mission qui requiert le plus d’inspiration, de capacité d’abstraction et d’esprit d’anticipation est bel et bien la conception d’infrastructures. 

Et ici encore, l’IA générative peut grandement accélérer les choses : au fur et à mesure que les modèles s’affineront, ils auront la possibilité de prendre en charge des tâches d’ingénierie de plus en plus complexes, depuis la génération de schémas d’infrastructure à la conception des fonctionnalités. Ces avancées sont d’ailleurs déjà visibles, via l’automatisation d’une grande partie des tâches répétitives qui entourent la gestion des données (qu’il s’agisse de codage ou de maintenance). 

Conséquence : les ingénieurs data se trouvent déchargés d’une bonne partie de leurs tâches et peuvent se concentrer sur du travail à plus haute valeur ajoutée, incluant créativité et capacité d’innovation.

La génération de données intermédiaires, véritable innovation de la GenAI

Au-delà de cet apport fonctionnel sur la gestion des données existantes, l’IA générative est également appelée à bousculer le travail des data engineers en créant de nouvelles données. Certes, dans un contexte de déluge informationnel difficilement maîtrisable pour les entreprises, cette perspective peut faire sourire… Mais, dans l’ingénierie de données, il existe de nombreux domaines dans lesquels la génération de nouvelles données peut accélérer la croissance et permettre une meilleure prise de décision.

  • La génération de données enrichies. On le sait : le cauchemar de tout ingénieur de données est d’avoir à traiter un jeu de données incomplet. Or, de la même façon que GPT-4 est capable de produire des textes quasi-humains, calqués sur le monde réel, les modèles d’IA générative utilisent des méthodes avancées d’apprentissage automatique (machine learning) comme les réseaux antagonistes génératifs (Generative Adversarial Networks ou GANs) et les autoencodeurs variationnels (Variational Autoencoders ou VAEs) pour générer des échantillons de données réalistes et qualitatifs. 

En entraînant conjointement et collaborativement de multiples réseaux neuronaux, le résultat généré peut être affiné jusqu’à ce qu’il devienne indissociable des données manquantes, du moins d’un point de vue fonctionnel. Cette innovation supprimerait alors tout recours à une saisie humaine des données, conduisant de facto à une rationalisation des processus de data engineering et à une réduction drastique des temps de nettoyage et de prétraitement des données.

  • L’anonymisation des données. À une époque où la protection des données personnelles est plus que jamais scrutée par l’utilisateur et les réglementations en place (on peut citer le RGPD en Europe, mais aussi le California Consumer Privacy Act, ou CCPA, en Californie), les modèles d’IA générative peuvent être mis à profit pour créer des données de synthèse – c’est-à-dire des données qui condensent les propriétés statistiques du jeu de données original mais qui en retirent tout caractère « identifiable », propre à un individu ou une situation particulière. Ces données de synthèse peuvent ensuite être mobilisées tout au long du processus de traitement et d’analyse, en gardant leur conformité réglementaire de bout en bout. 
  • L’analyse prédictive. Certes, l’IA générative n’a pas encore le pouvoir de prophétiser le futur. Cependant, sa capacité à analyser des volumes de données du passé et du présent la conduit naturellement à formuler des prédictions éclairées sur le comportement des consommateurs, sur les tendances de marché, sur la performance opérationnelle et d’autres facteurs-clés du marché. Une valeur business qui rend stratégique la maîtrise de ces analyses…
Limiter les biais, protéger la propriété intellectuelle et favoriser l’explicabilité

Bien des choses ont été dites sur les menaces potentielles que l’IA générative ferait peser aux entreprises, à l’individu et à la société tout entière. Étant donné que l’IA générative est elle-même un produit de l’univers du data engineering, on pourrait penser que ces menaces sont du ressort des data engineers. Ou qu’elles pèsent de façon accrue sur ceux-ci lorsqu’ils en sont utilisateurs. Or, les controverses qui agitent certains secteurs d’expérimentation ne trouvent pas vraiment d’écho en data engineering. Mais, à l’inverse, la profession voit émerger de nouvelles problématiques qui n’étaient pas observées dans d’autres domaines d’application.

Prenons par exemple les biais et le droit de la propriété intellectuelle. Dès le moment où ChatGPT-3.5 s’est imposé sur la scène publique en novembre 2022, de nombreuses problématiques éthiques ont été pointées du doigt : l’entraînement du modèle sur de larges volumes de textes originellement générés par l’homme (la plupart provenant d’Internet) rendait en effet possible une usurpation de propriété intellectuelle, c’est-à-dire qu’il était envisageable que les résultats proposés par ChatGPT n’émanent que d’un seul rédacteur, sans que ce travail n’ait été attribué ni rétribué. Cette question ouvrait une réflexion plus large sur la notion de compensation pour l’ensemble des rédacteurs ayant fourni la matière première du modèle : comment reconnaître et indemniser ce travail, capté sans consentement par la machine ?

Plus inquiétant encore : la présence de biais dans le jeu de données à entraîner, auxquels s’ajoutaient les biais inconscients des développeurs du modèle. La rémanence de ces préjugés statistiques posait la question de leur perpétuation (et même leur amplification) dans le modèle, et donc dans le monde réel… avec pour résultat la « contamination » des futurs jeux de données.

Les data engineers doivent garder ces enjeux à l’esprit, car les lots de données brutes ont autant de chances d’être entachés de biais que n’importe quelle phrase ou ensemble de mots – même s’il faut bien reconnaître que le monde ultra-structuré du Big Data pose davantage de garde-fous et qu’il est plus difficile de heurter la sensibilité de quelqu’un dans cet univers-là que dans celui du langage humain, les chiffres n’ayant pas la même portée que les mots ou les images.

Pour les data engineers, la question de la transparence des données est sûrement la plus sensible. Les modèles d’IA générative, en particulier ceux fondés sur les techniques de deep learning, peuvent très souvent s’apparenter à des « boîtes noires » fonctionnelles : ils enregistrent la commande de l’utilisateur (le « prompt ») sous forme de langage naturel et, à partir de là, génèrent un contenu dont le format est intégralement accessible à l’entendement humain. Entre les deux, cependant, la chaîne de raisonnement mise en place reste totalement opaque, menée dans des conditions que seul le modèle peut comprendre.

Si, pour des professionnels comme les graphistes qui seraient à la recherche d’images générées par une IA, cela ne semble pas avoir d’importance (les voies de l’inspiration artistique étant par nature impénétrables), il n’en est pas de même pour des ingénieurs de données pointilleux, dont la nature même du travail consiste à comprendre, dupliquer ou bloquer les interactions entre les jeux de données et les résultats du traitement : pour eux, l’absence d’explicabilité des modèles d’IA générative pose un sérieux problème.

Pour cette raison, le développement de techniques d’amélioration de l’explicabilité et de l’interprétabilité des modèles d’IA générative sera probablement au cœur des travaux des prochaines années, pour permettre à ces modèles de s’intégrer dans les workflows existants de data engineering et de viser ainsi une adoption plus large.

Une nouvelle voie pour la profession

Toutes ces réflexions conduisent à une conclusion : oui, en ce qui concerne le data engineering, l’IA générative aura à peu près la même importance et le même potentiel de disruption que pour les autres secteurs d’application. Elle changera non seulement la façon dont les data engineers travailleront, mais aussi la nature même de leur travail, c’est-à-dire leurs missions, leurs objectifs, leurs moyens…

Ce qui rend l’ingénierie de données atypique dans cette réflexion, c’est qu’elle est à la fois l’utilisatrice mais aussi la source de l’IA générative, et le moteur qui la fait fonctionner. Toute la puissance des modèles de langage comme ceux de la GenAI provient de la quantité impressionnante de données d’entraînement et des systèmes qui tamisent, analysent et pondèrent ces données en milliards (voire milliers de milliards) de paramètres, lesquels sont mobilisés ensuite par le modèle pour générer son contenu original.

Dit autrement, les ingénieurs de données sont à l’IA générative ce que les codeurs sont au logiciel, ou ce que les mécaniciens sont à la voiture ; et leur importance ne va cesser de s’amplifier. Si l’on en croit certaines prévisions, dans moins d’un an, 60 % des données d’entraînement des modèles d’IA générative pourraient être des données de synthèse, c’est-à-dire des données issues de la combinaison des systèmes de data engineering avec l’IA générative elle-même.

Les années à venir s’annoncent donc totalement folles pour les membres de la profession qui, jusqu’à présent, étaient encore largement vus sous le prisme des diagrammes financiers trimestriels qu’ils produisaient sur la base des données de vente. Désormais, à mesure que les besoins métiers s’étoffent au contact de la technologie et que les interactions homme-machine font émerger de nouveaux défis côté humain, ce sont les data engineers qui sont en première ligne pour conseiller, fluidifier et chaperonner cette relation de couple pas tout à fait comme les autres.

Dans cette optique, il n’est pas exagéré de penser que le travail des data engineers sera une pierre angulaire du développement global de l’humanité dans les toutes prochaines années. Et que l’avenir de la profession se construira, lui, sur la capacité des plus pionniers à se préparer aux logiques de transformation de cette technologie : c’est à eux d’inventer leur nouvelle fiche de poste et de montrer la voie.

 



Cognizant France
Author Image

Découvrez nos points de vue sur les dernières tendances digitales et tous nos conseils pratiques pour moderniser votre entreprise.



Focus
IA Générative
IA Générative

Découvrez nos services en matière de GenAI et des exemples concrets d'application.

In focus image

Articles récents
Sur le même sujet