Los ingenieros de datos son para la IA lo que los programadores son para el software. Su futuro dependerá de cómo utilicen el poder de esta tecnología transformadora.
Los ingenieros de datos han sido durante tiempo héroes de los negocios modernos. Muchos de los logros más sorprendentes de la era digital han descansado en el trabajo de muchas personas que trabajan entre bastidores para crear y mantener las fuentes de datos, las bases de datos y las infraestructuras que almacenan y analizan las crecientes mareas de información que definen el panorama actual.
Pero el hoy se convierte en el mañana y la vida está cambiando rápido para el ingeniero de datos. La llegada de la IA generativa ya ha transformado el día a día del trabajo diario de manipulación de datos. Con su capacidad para automatizar los procesos tediosos y manuales, la IA generativa libera el tiempo y la atención de los ingenieros para tareas de mayor valor.
En una encuesta que se realizó en 2023 a los directivos senior y a los responsables de toma de decisiones en las grandes organizaciones en EE.UU. y Reino Unido, el 61% de los participantes citaba la productividad del desarrollo de software como un área de negocio en la que la IA generativa podría jugar el papel más importante dentro de la empresa.
No solo eso, sino que la única importancia de la ingeniería de datos a la IA es otorgar a estos especialistas un nuevo papel en el ecosistema empresarial, ya no son desconocidos sino más héroes que nunca.
La IA generativa y el ingeniero de datos
La inteligencia artificial generativa (IA generativa) se refiere a nueva clase de modelos de IA que puede generar contenido original en base a patrones y estructuras aprendidas de enormes cantidades de datos. El mejor ejemplo que conocemos, por el momento, es GPT-4 de OpenAI, un modelo de procesamiento de leguaje natural que crea texto fluido, coherente y relevante desde un punto de vista contextual en base a la información proporcionada por el usuario.
Otros modelos de la IA generativa trabajan en el medio visual y el valor inmediato más obvio de estas tecnologías para los ingenieros de datos es permitirles crear tablas, gráficos e informes de calidad a partir de un conjunto de datos sin (necesariamente) recurrir a la ayuda de diseñadores humanos o analistas.
El objetivo principal de la ingeniería de datos siempre ha sido poner de manifiesto las tendencias y significados de un conjunto de datos. La IA generativa tiene el potencial no solo de ayudar a identificar esas tendencias y significados, sino también de presentarlos con tal claridad que las personas no especializadas en la materia puedan captarlos en un instante.
Pero la “creatividad” de la ingeniería de datos siempre ha sido más que hacer tablas. El trabajo que requiere más inspiración, abstracción y reflexión es el diseño de las propias infraestructuras de datos.
Y aquí también, la IA generativa puede marcar la diferencia. A medida que los modelos se hacen más avanzados, podrán realizar estas tareas de ingeniería de datos más complejas, desde la creación de informes hasta la ingeniería. Sin embargo, al automatizar gran parte de las tareas técnicas del trabajo con datos -por ejemplo, la codificación o el mantenimiento de sistemas-, la IA de generación está liberando a los profesionales de la ingeniería de datos para que dediquen más tiempo y creatividad al trabajo de alto valor y al pensamiento más abstracto.
El lado de los datos de la IA generativa
Además del potencial de la IA generativa para ayudar a los ingenieros de los datos a gestionar el flujo de los datos existentes, esta tecnología puede también a ayudar crear nuevos datos. Este atractivo puede no ser obvio para las empresas que ya se están ahogando en información, luchando con el desafío de convertir un “pantano ingestionable de datos” en un “lago de datos menos desalentador”. Sin embargo, hay varias áreas clave en las que los datos pueden impulsar directamente el crecimiento y ayudar en la toma de decisiones.
- Ampliación de datos. Al igual que la GPT-4 puede producir texto realista con apariencia humana, los modelos generativos de IA emplean técnicas avanzadas de aprendizaje automático, como las redes generativas adversariales (GAN) y los autoencodificadores variacionales (VAE), para generar muestras de datos realistas y de alta calidad.
Mediante el entrenamiento de múltiples redes neuronales para que trabajen en tándem, el producto resultante puede redefinirse hasta que no sea fácilmente indistinguible de los datos que faltan. Por sí misma, esta innovación, que elimina la necesidad de imputación de datos manuales, puede agilizar de forma significativa el proceso de ingeniería del dato y reducir el tiempo invertido en su limpieza y procesamiento.
- Anonimato de los datos. En una época de regulaciones estrictas, como la RGPD y la CCPA, es básico para los negocios garantizar la confidencialidad de datos sensibles de los usuarios. Los modelos de la IA generativa pueden utilizarse para crear datos sintéticos que mantienen las propiedades estadísticas de los datos originales mientras elimina cualquier información personal identificable. Estos datos sintéticos pueden también utilizarse para el análisis y otros fines sin incumplir las leyes de privacidad.
- Análisis predictivo. Si las ideas extraídas de los datos de negocio actuales y pasados tienen un valor incalculable para los responsables de la toma decisiones, imagina qué podrían hacer con la información del futuro. Mientras la IA generativa no tiene, por el momento, el don de la providencia puede analizar los datos históricos y actuales para hacer predicciones informadas sobre el comportamiento del cliente, la dinámica del mercado, el rendimiento operativo y otros factores clave de rendimiento.
Cuentos con moraleja sobre la ingeniería de datos
Mucho se ha escrito sobre los potenciales peligros de la IA generativa y al ser un producto de la propia de ingeniería de datos, todos y cada uno de los problemas de la IA son, en última instancia, problemas para los ingenieros de datos. No obstante, cuando se considera el uso de la IA generativa dentro la ingeniería de datos, algunos de estos riesgos tan debatidos son probablemente menos problemáticos que en otras áreas, mientras que en otras pueden ser más preocupantes.
Si nos centramos en el problema de los sesgos y el derecho de autor. Desde el momento en que ChatGPT-3.5 trajo la IA generativa a escena el pasado mes de noviembre, algunos ya señalaron algunos problemas éticos evidentes. En la medida que el modelo fue entrenado sobre una amplia cantidad de texto generado por humanos, mucho extraído de Internet, existía el riesgo de que su resultado copiara directamente el trabajo de un solo escritor humano sin atribución ni compensación. Esto planteó una cuestión más filosófica: qué se debe, si es que se debe algo, a toda la clase de escritores quienes, sin su consentimiento, ofrecieron todo el material bruto sobre el que se entrenó al modelo.
Más inquietante era la realidad que los sesgos y los prejuicios en el conjunto de entrenamiento, y los sesgos inconscientes de aquellos que crea el modelo de desarrollo, podría ayudar a perpetuar o, incluso, amplificar estas injusticias en el mundo real, e incluso, en los conjuntos de datos futuros.
Los ingenieros de datos necesitan ser conscientes de estos problemas, un conjunto de datos numéricos puede estar tan contaminado de prejuicios como cualquier colección de palabras. Sin embargo, en la mayor parte de los casos, es más difícil ofender, pues los números nunca igualarán a las palabras o las imágenes en su capacidad de herir, conmocionar o denigrar.
Sin embargo, las cuestiones relativas a la transparencia del modelo pueden ser un desafío de los ingenieros de datos. Los modelos de IA generativa, en concreto en aquellos basados en las técnicas de aprendizaje profundo, pueden ser con frecuencia “cajas negras” funcionales. Pueden recibir información en forma de instrucciones de lenguaje natural, y sobre esto, crear contenidos que también puede ser apto para la mente humana. En muchos casos, sin embargo, la cadena de "razonamiento" entre esas entradas y salidas es totalmente opaca y se lleva a cabo en términos que solo el modelo entiende.
Por ejemplo, para un diseñador gráfico que utiliza un generador de imágenes mediante IA, puede no ser un problema: la inspiración artística siempre ha sido un misterio. Pero para los intransigentes ingenieros de datos, cuyo trabajo siempre les ha exigido comprender, y estar preparados para defender o duplicar, la cadena lógica entre la entrada y la salida, la impenetrabilidad de la IA generativa puede plantear un reto.
Desarrollar técnicas para mejorar la interpretabilidad y la explicabilidad de los modelos de la IA generativa será clave para una adopción generalizada y la integración en los flujos de trabajo de ingeniería.
Una relación única
Todo esto solo quiere decir que la IA generativa va a tener el mismo tipo de impacto en los ingenieros de datos que el que va tener en muchos de nosotros: uno profundo que cambie no solo cómo trabajamos, sino incluso el propio trabajo.
Lo que hace a la ingeniería de datos única en este aspecto es, sin embargo, que la ingeniería de datos es literalmente de donde procede la IA generativa y lo que la hace funcionar. Toda la deslumbrante potencia de los grandes modelos lingüísticos, y sus equivalentes, procede del impresionante tamaño de los conjuntos de datos que utilizan para entrenarse, y de los sistemas que tamizan, analizan y ponderan esos datos en los miles de millones -incluso billones- de parámetros que un modelo aplica para producir contenido nuevo. Dicho de otra forma, los ingenieros de datos son a la IA generativa lo que los programadores al software o a la mecánica a los coches. Según algunas predicciones, en menos de un año el 60% de todos los datos de entrenamiento para los modelos de IA generativa serán sintéticos, que a su vez es el producto de la IA generativa, creada por los ingenieros de datos.
Los próximos años van a ser un viaje ‘salvaje’ para los especialistas que hoy, todavía tienen como tarea principal convertir los datos de ventas del cuarto trimestre del año pasado en un gráfico circular. A medida que los profesionales de todos los campos se adaptan como miembros de carne y hueso a una sociedad humano-máquina, los ingenieros de datos serán, cada vez más, los acompañantes y consejeros de esas relaciones.
No es exagerado afirmar que el futuro inmediato de la humanidad estará determinado directamente por los ingenieros de datos. Por el contrario, el futuro de la ingeniería de datos lo determinarán quienes estén mejor preparados y más dispuestos a aprovechar el asombroso poder de esta tecnología transformadora.
Descubre de la mano de nuestros expertos en tecnología y negocio las últimas tendencias de TI para cada industria.