Data Engineers sind für die KI-Generation das, was Programmierer:innen für Software sind. Ihr Umgang mit den Möglichkeiten der transformativen Technologien, wird ihre Zukunft bestimmen.
Data Engineers sind seit langem die unbesungenen Held:innen der modernen Wirtschaft. Viele der entscheidenden Errungenschaften des digitalen Zeitalters beruhen auf der Arbeit von Menschen, die hinter den Kulissen agieren, um Datenpipelines, Datenbanken und Infrastrukturen aufzubauen und zu pflegen. Diese sind nötig, um die steigende Anzahl an Informationen zu speichern und zu analysieren. die die heutige Wettbewerbslandschaft bestimmen.
Die Entwicklung geht rasend schnell voran und die Realität der Data Engineers verändert sich entsprechend. Das Aufkommen generativer KI hat die tägliche Arbeit im Umgang mit Daten verändert. Mit der Fähigkeit viele mühsame, manuelle Prozesse zu automatisieren, bleibt Data Engineers mehr Zeit für anspruchsvollere Aufgaben.
Und nicht nur das: Die immer weiter wachsende Bedeutung von Data Engineering für die KI selbst sorgt dafür, dass diese unscheinbaren Spezialist:innen eine neue und zentrale Rolle im Ökosystem der Unternehmen zukommt - sie sind nicht länger unbekannt, sondern mehr denn je zentrale Personen des Unternehmens.
Generative KI und Data Engineers
Generative künstliche Intelligenz (Gen KI) bezeichnet eine neue Art von KI-Modellen, die auf Grundlage von Mustern und Strukturen, die aus riesigen Datenbeständen generiert wurden, originäre Inhalte erzeugen. Das derzeit bekannteste Beispiel ist GPT-4 von OpenAI, ein Modell zur Verarbeitung natürlicher Sprache, das auf der Grundlage von Eingaben von Nutzer:innen flüssige, kohärente und kontextrelevante Texte erzeugen kann.
Andere KI-Modelle arbeiten im visuellen Bereich, und der offensichtlichste, unmittelbare Wert dieser Technologien für Data Engineers besteht darin, dass sie hochwertige Diagramme, Grafiken und Berichte aus einem Datensatz erstellen können, ohne die Hilfe menschlicher Designer:innen oder Analyst:innen in Anspruch zu nehmen.
Der Hauptzweck der Datentechnik bestand schon immer darin, Trends und Bedeutungen innerhalb eines Datensatzes aufzudecken. Gen KI hat das Potenzial, nicht nur dabei zu helfen, diese Trends und Bedeutungen zu erkennen, sondern sie so hervorzuheben, dass sie auch von Laien sofort verstanden werden.
Aber bei der "Kreativität" der Datentechnik ging es schon immer um mehr als um Diagramme. Die Arbeit, die am meisten Inspiration, Abstraktion und "Was-wäre-wenn"-Denken erfordert, ist der Entwurf von Dateninfrastrukturen selbst.
Auch hier kann generative KI einen enormen Beitrag leisten. Je fortschrittlicher die Modelle werden, desto komplexere Data-Engineering-Aufgaben, von der Schemaerstellung bis zum Feature-Engineering, können sie bewältigen. Schon jetzt, durch die Automatisierung eines Großteils der einfacheren Aufgaben bei der Datenarbeit, werden Ressourcen von Gen-KI Fachleuten frei, die so Zeit und Kreativität für anspruchsvollere Arbeiten und abstrakteres Denken aufwenden können.
Die Datenseite generativer KI
Neben dem Potenzial von Gen AI, Data Engineers dabei zu unterstützen, vorhandene Daten besser zu verwalten, kann diese Technologie auch neue Daten erzeugen. Dies mag für Unternehmen, denen bereits viele Informationen vorliegen, nicht besonders attraktiv sein, da sie ohnehin schon vor der Herausforderung stehen mit dem „Datenmeer“ umzugehen. Es gibt jedoch mehrere Schlüsselbereiche, in denen neue Daten das Wachstum direkt fördern und die Entscheidungsfindung unterstützen können.
Datenerweiterung. Ein bekanntes Problem aller Data Engineers sind unvollständige Datensätze. So wie GPT-4 authentischen Text erzeugen kann, verwenden generative KI-Modelle fortschrittliche Techniken des maschinellen Lernens, wie z. B. Generative Adversarial Networks (GANs) und Variational Autoencoders (VAEs), um realistische, qualitativ hochwertige Datenproben zu erzeugen.
Durch das Training mehrerer neuronaler Netze kann die generierte Ausgabe so lange verfeinert werden, bis sie von den fehlenden Daten funktional nicht mehr zu unterscheiden ist. Allein durch diese Innovation kann der Data-Engineering-Prozess erheblich rationalisiert und der Zeitaufwand für die Datenbereinigung und -vorverarbeitung reduziert werden.
Anonymisierung von Daten. Im Zeitalter strenger Datenschutzbestimmungen wie GDPR und CCPA ist es für Unternehmen unerlässlich, den Schutz sensibler Daten von Nutzer:innen zu gewährleisten. Mithilfe generativer KI-Modelle können synthetische Daten erstellt werden, die die statistischen Eigenschaften der Originaldaten beibehalten, während alle personenbezogenen Informationen entfernt werden. Diese synthetischen Daten können dann für Datenanalysen und andere Zwecke verwendet werden, ohne dass Datenschutzbestimmungen verletzt werden.
Vorrausschauende Analytics. Erkenntnisse aus vergangenen und aktuellen Geschäftsdaten sind für Entscheider:innen von unschätzbarem Wert. Noch wertvoller können Prognosen für die Zukunft werden. Auch wenn KI nicht die die Zukunft voraussehen kann, kann sie historische und aktuelle Daten analysieren, um fundierte Vorhersagen über das Verhalten von Kund:innen, die Marktdynamik, betriebliche Leistungen und andere wichtige Geschäftsfaktoren zu treffen.
Warnhinweise für die Datentechnik
Über die potenziellen Gefahren der generativen KI ist viel geschrieben worden, und da sie ein Produkt der Datentechnik selbst ist, sind Probleme der generativen KI letztlich auch Probleme der Data Engineers. Betrachtet man jedoch den Einsatz von generativer KI in der Datentechnik, so muss man zwischen die Risiken individuell betrachten.
Nehmen wir zum Beispiel die Fragen rund um Bias und Urheberrecht. Von dem Moment an, als Chat GPT-3.5 im November letzten Jahres die Aufmerksamkeit auf Gen-KI lenkte, wurden auch eklatante ethische Bedenken laut. Da das Modell mit einer riesigen Menge an von Menschen erstellten Texten trainiert wurde, die größtenteils aus dem Internet stammen, bestand die Gefahr, dass die Arbeit einer einzelnen Person direkt kopiert wird, ohne dass diese genannt oder entschädigt wird. Dies warf die eher philosophische Frage auf, wie, wenn überhaupt, menschliche Autor:innen entschädigt werden müssen, die ohne Zustimmung das Rohmaterial zur Verfügung gestellt haben.
Beunruhigend ist die Tatsache, dass Bias und Vorurteile innerhalb des Trainingssatzes und der Unconscious Bias derjenigen, die das Modell entwickeln, dazu beitragen könnten, diese Ungerechtigkeiten in der realen Welt und damit in künftigen Datensätzen aufrechtzuerhalten oder sogar zu verstärken.
Data Engineers müssen sich dieser Problematik bewusst sein. In der abstrahierten Welt der Big-Data-Infrastruktur ist es jedoch meist schwieriger, direkt zu beleidigen, und Zahlen werden in ihrer Fähigkeit, zu verletzen oder zu schockieren, niemals mit Worten oder Bildern gleichziehen.
Die Fragen rund um die Modelltransparenz könnten jedoch eine größere Herausforderung für Data Engineers darstellen. Generative KI-Modelle, insbesondere solche, die auf Deep-Learning-Techniken basieren, sind oft funktionale "Black Boxes". Sie können Eingaben in natürlicher Sprache entgegennehmen und daraus verständliche Inhalte produzieren. In vielen Fällen ist die Kette der "Argumentation" zwischen Eingaben und Ausgaben jedoch undurchsichtig und wird in Begriffen ausgeführt, die nur das Modell versteht.
Für Designer:innen, die einen KI-Bildgenerator verwenden, mag dies kein Problem sein. Für Data Engineers, die bei ihrer Arbeit schon immer die logische Kette zwischen Eingabe und Ausgabe verstehen und bereit sein mussten, sie zu verteidigen oder zu duplizieren, stellt die Undurchdringlichkeit der generativen KI eine besondere Herausforderung dar.
Die Entwicklung von Techniken zur Verbesserung der Interpretierbarkeit und Erklärbarkeit generativer KI-Modelle wird für ihre breite Akzeptanz und Integration in Data-Engineering-Workflows entscheidend sein.