Saltar al contenido principal Skip to footer
Cognizant Blog

El lanzamiento, en noviembre del año pasado, de ChatGPT 3.5 de OpenAI ha generado toda una expectación alrededor de la inteligencia artificial generativa y, en concreto, sobre los grandes modelos de lenguaje natural (LLMs). Cada día surgen nuevas compañías, productos y ofertas de IA generativa mientras que las organizaciones ponen los LLMs a trabajar, aprovechando su poder para seguir el ritmo, sino superar, a la competencia.  

En medio de esta expectación, todavía hay muchos líderes que desatienden uno de los componentes clave de una estrategia de IA generativa ganadora: la preparación del dato. En una encuesta que realizamos en septiembre de 2023 a responsables sénior de la toma de decisiones de negocio y de tecnología en EE.UU. y Reino Unido, la mayoría de los participantes (74%) dijo que no tenían claro cómo integrar los datos y la IA generativa en las aplicaciones legacy y en los entornos multi-cloud.

Este artículo explica por qué los buenos datos son importantes para las aplicaciones de IA generativa, los diferentes factores que hacen “buenos” los  datos y cómo las organizaciones pueden poner en orden sus datos para conseguir la máxima ventaja competitiva de estas herramientas.  

Por qué lo datos importan

La IA ‘normal’ lleva con nosotros años. Lo que hace a la IA generativa diferente es su capacidad para generar cosas. Cuando modelos, como Chat GPT y Dall-E, deslumbraron al mundo al escribir prosa original, mantener conversaciones fluidas e, incluso, producir obras extraordinarias de arte visual, muchos líderes predijeron que este logro tendría un profundo impacto en el futuro del trabajo: aquellas tareas creativas que hoy realizan los seres humanos, pronto las realizaría de forma más eficiente y asequible la IA generativa.

No obstante, medio año después nos enfrentamos a un entorno más complejo. Los LLMs, al menos, son más dependientes de la aportación y la monitorización de los humanos de lo que muchos predijeron en un principio. En el entorno empresarial, existe una mayor comprensión de que poner a la IA generativa a trabajar no es solo una cuestión de obtener la licencia o desarrollar un LLM y luego presionar el botón de arranque.

En la encuesta, cuando preguntamos sobre qué conjuntos de datos eran óptimos para correr modelos de IA de forma efectiva, la mayoría de los participantes nombró los datos propietarios/internos (72%) frente a los conjuntos de datos validados por la marca (45%) o datos de terceros (43%).

Dos modelos

Hasta ahora, han surgido dos enfoques principales para integrar la IA generativa con los datos propietarios, con sus propios pros and contras.

1.    LLMs personalizados

El enfoque más ambicioso empieza con un modelo fundacional (Foundational Model, sus siglas en inglés FM), o un LLM de propósito general, que se ajusta con datos propietarios para crear un LLM completamente nuevo y/o herramientas de IA diseñadas para necesidades específicas del negocio. El proceso de ajuste, en concreto las técnicas Reinforcement Learning from Human Feedback (RLHF), exige aportación humana, que puede ser intensiva en tiempo y recursos. Una vez que se completa, las nuevas herramientas también requerirán un mayor período de monitorización, reajuste y mantenimiento. Pero con las organizaciones con requisitos de nicho distintos y los recursos para invertir a largo plazo, ajustar los FMs con datos propietarios es una valiente salida adelante

gráfico

 

2.    LLMs listos para usar más RAG

Una solución más rápida y asequible es utilizar un LLM existente y darle acceso a datos propietarios a través de un proceso conocido como Retrieval Augmented Generation (RAG). En este enfoque, el modelo conserva sus procesos centrales ‘genéricos’ y complementa sus resultados con información recuperada al momento de bases de datos propietarias. 

gráfico

 

Además de la velocidad del despliegue y de la eficiencia de coste, el enfoque RAG puede ser más flexible que un LLM personalizado, ya que sus resultados pueden reflejar cambio en tiempo real en los datos sin que todo el modelo haya sido entrenado.

Incluso aquí, la calidad del resultado del modelo y su función están limitados por la calidad y la accesibilidad de los datos con los que tiene que trabajar. En cualquier enfoque que una organización elige para su estrategia de IA generativa, las probabilidades de éxito están fuertemente ligadas a cómo funciona su arquitectura de datos existente en las siguientes áreas:

Catálogos y metadatos

Los datos, en sí mismos, no tienen significado, ni siquiera para la extensa red neuronal de un LLM moderno. El primer pilar de la preparación de dato es que el dato esté organizado en un repositorio central con metadatos completos que describen su origen, contenido e, idealmente, significado. Si, como se vaticina, los LLMs pronto funcionarán como “agentes” para los usuarios humanos, proporcionando respuestas y resultados en respuesta a instrucciones y peticiones de lenguaje natural, los LLMs no solo necesitan acceso a todos los datos relevantes, sino a toda la información sobre los datos que da el contexto y el significado. Sin una gestión excelente de los metadatos, será difícil o imposible para los agentes de LLM ser eficientes.

Fiabilidad

Los datos también deben ser precisos, especialmente si, como en el enfoque Custom LLM detallado en líneas anteriores, se utilizara para entrenar un modelo de IA generativa. Antes de embarcarse en sus viajes de IA generativa, las organizaciones deberían decidir cuánto confían los líderes y los trabajadores en sus análisis, informes o dashboards de BI (Business Intelligence). Si la respuesta es “no mucho”, el líder haría bien en invertir en resolver estos asuntos antes de dedicar recursos a la formación de LLM sobre datos de calidad inferior.

Seguridad

La importancia de la seguridad de los datos no es un secreto para los negocios más modernos, pero cualquier punto débil en las defensas existentes puede quedar al descubierto, sobre todo, en la era de la IA generativa. Dado que el comportamiento de los LLM no es determinista ni predecible con exactitud -esta es la esencia de su "creatividad"-, es difícil prever de antemano cómo podrían los actores maliciosos "engañar" a un LLM para que divulgue datos confidenciales, ya sea sobre una empresa o sobre sus clientes. (Esto es especialmente preocupante cuando se utiliza un LLM estándar mejorado con GAR, el enfoque descrito anteriormente. Dado que el modelo interactúa con más frecuencia con bases de datos propietarias, los riesgos de una posible violación se multiplican). Aunque estas amenazas son hasta cierto punto desconocidas, es una apuesta segura que las empresas cuyos datos más sensibles están mejor protegidos hoy en día mantendrán esta ventaja en la era de la IA generativa.

Velocidad y flexibilidad

Para maximizar el potencial de la IA, las organizaciones no solo necesitan conductos de datos que puede ofrecer a los LLMs la materia prima para el procesamiento, sino que deben estar preparadas para recibir y almacenar los flujos de nuevos datos que surgen como resultados. La construcción de esta arquitectura de datos debe ser previa y debe ser los suficientemente flexible para gestionar un flujo de información que puede incrementarse linealmente o, incluso, potencialmente en los próximos años. Los costosos almacenes de datos e, incluso, los sistemas RDBMS pueden empezar a obstaculizar la cantidad de datos que pueden almacenarse y procesarse de forma rentable. No es demasiado pronto para empezar a explorar arquitecturas modernas de "data lakes", incluidos sistemas escalables de almacenamiento de objetos en la nube, como S3 o GCS.

Capacidad de repetición

A medida que se desarrolle el futuro, paradójicamente, la necesidad de revisitar el pasado será cada vez más necesaria y frecuente. La capacidad de restaurar o "reproducir" versiones anteriores de un conjunto de datos es literalmente indispensable para entrenar, afinar y probar los LLMs. Incluso para las empresas que consideren un LLM "listo para usar" (preentrenado, preajustado y preprobado), la capacidad de reproducción de sus sistemas de datos existentes es un barómetro útil de la "preparación de los datos" en general, de cara a la era de la IA generativa.

Esto es válido para todas las métricas enumeradas aquí. Las empresas que carezcan de buenos datos y de una arquitectura de datos igual de buena se encontrarán en desventaja competitiva. A medida que la IA generativa transforme el panorama de la empresa moderna deberían plantearse construir una base sólida de preparación de datos antes de invertir en su primer LLM.

Por el contrario, las empresas que ya tienen sus datos en orden están bien posicionadas no solo para cosechar los frutos de la IA generativa, sino también -probablemente- de las próximas grandes cosas que aún no se han imaginado.

 


Cognizant España

Descubre de la mano de nuestros expertos en tecnología y negocio las últimas tendencias de TI para cada industria.



Destacado
Últimos artículos
Artículos relacionados