Análisis

Cómo se entrenan los modelos de IA como ChatGPT

Analizamos los modelos generativos de IA, desarrollados combinando algoritmos de inteligencia artificial y big data, en un proceso de entrenamiento que explica la tecnología que hay detrás de estas herramientas de inteligencia artificial de nueva generación

Publicado el 14 Jul 2023

numerosas empresas están ansiosas por explorar las auténticas posibilidades que ofrecen ChatGPT y otras aplicaciones similares de IA en el mundo corporativo.

La forma en que ChatGPT se presenta al usuario final es ahora conocida incluso por el gran público, gracias al gran espacio mediático que esta innovadora herramienta ha ganado en los últimos meses. Sin embargo, lo que vemos cuando entramos en chat.openai.com tras registrarnos en el servicio es sólo una parte: una aplicación web con una interfaz de usuario al estilo de un chatbot, es decir, conversacional. 

Los desarrolladores de OpenAI se dieron cuenta de este modo de uso para ofrecer una aproximación fácil a aquellas tecnologías que hasta entonces solo podían ser utilizadas por desarrolladores externos para crear aplicaciones de diversa índole, las que constituyen el verdadero “cerebro” de ChatGPT. 

Estas tecnologías, que operan ‘entre bastidores’ de ChatGPT, se desarrollaron combinando algoritmos de inteligencia artificial y grandes cantidades de datos en un proceso de entrenamiento que, una vez descrito, nos permite comprender mejor la tecnología que hay detrás de estas herramientas de inteligencia artificial de última generación.

El modelo “detrás” de ChatGPT

Para comprender mejor el complejo entramado de datos y algoritmos que impulsa a ChatGPT y le permite interactuar eficazmente con los usuarios finales, es importante aclarar primero el concepto de “modelo” en el campo de la inteligencia artificial.

Desde tiempos inmemoriales, el término ‘modelo’ se ha utilizado para identificar una representación matemática de algo que forma parte de nuestra realidad, como por ejemplo en los modelos que permiten analizar los datos meteorológicos y las previsiones correspondientes. 

En el campo de la inteligencia artificial, los modelos se desarrollan normalmente para especializarse en un área concreta. Los modelos GPT-3 y GPT-4, que actualmente permiten que ChatGPT funcione como una aplicación interrogada “conversacional”, se especializan en el área del lenguaje natural, es decir, son capaces de comprender y producir texto.

Grandes modelos lingüísticos (LLM)

GPT-3 y GPT-4 forman parte de los llamados Grandes Modelos de Lenguaje (LLM), es decir, modelos de IA entrenados en una enorme cantidad de datos y código para poder comprender y crear texto en diversos dominios y, de hecho, interactuar de forma conversacional respondiendo a las consultas de los usuarios. Estos modelos aún están evolucionando, pero están destinados a cambiar para siempre la forma en que utilizamos la tecnología.

Existen varios, y entre los más conocidos podemos contar sin duda BERT (Bidirectional Encoder Representations from Transformers) y LaMDA (Language Model for Dialogue Applications) de Google, y, por supuesto, GPT-3 y GPT-4 de OpenAI, cuyas siglas proceden del término Generative Pre-trained Transformer y cuyo número final indica la versión o “generación” del propio modelo, que en pocos años ha experimentado una evolución decisiva tanto en sus algoritmos como, como veremos más adelante, en la cantidad y complejidad de los datos utilizados durante su entrenamiento.

Los modelos GPT (Generative Pre-trained Transformer)

Para comprender los modelos GPT, basta con analizar, uno por uno, los términos subyacentes a las siglas.

La arquitectura Transformer, introducida por Google en 2017, consiste en redes neuronales diseñadas para realizar tareas asociadas al lenguaje natural, es decir, algoritmos que le permiten analizar el lenguaje y crear conexiones entre sus elementos constitutivos basándose en fórmulas matemáticas y estadísticas, para luego poder interpretar y generar (de ahí el término Generativo) nuevos textos de la forma más parecida posible a la de un ser humano. 

Por supuesto, el mismo proceso tiene lugar cuando, en lugar de texto, el modelo se programa para manejar otros tipos de datos, como los visuales o los auditivos, y en particular las versiones más recientes de estos modelos, como el GPT-4, ya son capaces de analizar y manejar información relacionada con imágenes.

Entrenamiento de ChaGPT
Entrenamiento de ChaGPT

Preformación, preformación ChatGPT

Lo único que nos queda en este punto es el término Pre-training, que puede traducirse como “entrenamiento preventivo” e indica, de hecho, precisamente la forma en que los modelos GPT se entrenan inicialmente para realizar las tareas que solemos asignar a ChatGPT. Sin embargo, el preentrenamiento sugiere que fue seguido de una forma de ‘refinamiento’.

El entrenamiento de los modelos subyacentes a ChatGPT

En la fase de preentrenamiento de los modelos GTP subyacentes a ChatGPT, se utilizaron grandes cantidades de datos textuales, extraídos de archivos como los de Common Crawl, que lleva años recopilando petabytes de datos de la Web, o Wikipedia, Google Books e incluso la información intercambiada por los usuarios en la popular plataforma Reddit.

 Más de 45.000 millones de frases de millones de páginas web, más de 7.000 libros y más de 60 millones de mensajes y 400 millones de comentarios en Reddit, con un costo de entre 10 y 20 millones de dólares, contribuyeron al entrenamiento inicial de GPT-3, mientras que aún no se han revelado los detalles de la siguiente y más potente versión del modelo, que ya está disponible junto con la primera para los usuarios de ChatGPT Plus.

A continuación, los modelos GPT de OpenAI escanearon, analizaron y organizaron esta gigantesca cantidad de datos textuales transformándolos en unidades elementales básicas denominadas tokens, vinculándolos entre sí según parámetros estadísticos para evaluar su frecuencia y concordancia. 

Esto les permitió, ya después de este entrenamiento inicial, interpretar y generar textos utilizando el lenguaje humano, además en varios idiomas porque, además de la mayoría de los datos textuales en inglés, el “corpus” alimentado al algoritmo incluía también textos en otros muchos idiomas. Sin embargo, esta capacidad de utilizar el lenguaje no debe interpretarse en un sentido “cognitivo”, ya que la IA ha aprendido, mediante un entrenamiento inicial, sobre todo a “predecir” qué elemento textual puede seguir a los que le preceden, concatenando el conjunto en una salida verbal con sentido. Lo que falta en esta primera fase, sin embargo, es el llamado “etiquetado” de los datos utilizados, que sería una tarea inmensa para los desarrolladores y que, en cierto modo, se confía a la propia IA (se habla, en este caso, de aprendizaje no supervisado o autosupervisado).

Así, para evitar que este entrenamiento inicial diera lugar a una generación incontrolada y desarticulada de contenidos textuales, y para ayudar también a los modelos a interpretar mejor las entradas de los usuarios, al preentrenamiento le siguieron otras fases en las que técnicas de “calibración” aún más sofisticadas permitieron perfeccionar los algoritmos con los que los modelos GPT interpretan y generan el lenguaje humano, al tiempo que se creaban límites para evitar en lo posible un uso inadecuado, cuando no peligroso, de sus capacidades conversacionales y generativas. En esencia, la llamada “evaluación” del modelo de IA consta de tres etapas principales.

Entrenamiento de ChatGPT.
Entrenamiento de ChatGPT.

El modelo SFT (Ajuste Fino Supervisado)

Mientras que, como hemos visto, la primera fase de entrenamiento se confió a la IA, en el primer paso del ajuste fino de sus algoritmos se aplicó un “ajuste fino supervisado”, es decir, la técnica de aprendizaje automático conocida como Ajuste Fino Supervisado (SFT).

Los parámetros (pesos) de la red neuronal que se formaron durante el entrenamiento inicial se utilizaron, una vez más mediante una técnica de aprendizaje automático, para “inicializar” el modelo y entrenarlo después en un conjunto de datos menos extenso y más específico, en el que el etiquetado está predefinido y no generado, por tanto, por la propia IA. De este modo, es posible obtener una retroalimentación más precisa y trabajar en áreas más restringidas y especializadas del lenguaje y el contenido. A la fase inicial de etiquetado le sigue la fase en la que se intenta perfeccionar el modelo sobre un conjunto de datos específicos de la tarea que debe realizar, con el fin de optimizar su rendimiento y precisión, tanto en la clasificación de textos (o imágenes en los casos en que así se prevea), como en el procesamiento del lenguaje natural en general y en tareas como la traducción o el reconocimiento del habla.

El sistema de recompensa

El ajuste fino supervisado se combina con el llamado sistema de recompensa o proceso de recompensa en el entrenamiento de los modelos GPT. Como en el adiestramiento de un animal, o la educación de un ser humano, los desarrolladores adoptan un sistema que permite al modelo de IA comprender si, de vez en cuando, su respuesta es la más correcta, asignándole una calificación que actúa, de hecho, como una “recompensa” y permite al modelo identificar cada vez mejor la relación entre el texto de la petición y el que se generará en la respuesta, calibrando así progresivamente sus modos de interpretación y generación del lenguaje con una coherencia cada vez mayor y reduciendo la posibilidad de respuestas incorrectas.

El sistema de aprendizaje por refuerzo

El sistema de recompensa también se combina con el llamado sistema de “aprendizaje por refuerzo“, una técnica de aprendizaje automático basada en la premisa de que una IA aprende a tomar decisiones en un entorno complejo interactuando con él. En el caso que estamos analizando, el agente es el modelo GPT y el entorno son los datos de entrenamiento, que luego tendrá que “explorar” proporcionando reacciones adecuadas que serán evaluadas por los desarrolladores. El objetivo del aprendizaje por refuerzo es maximizar la recompensa obtenida por el agente en función de su ‘comportamiento’. En otras palabras, el agente intenta aprender a tomar decisiones que maximicen la recompensa obtenida.

El aprendizaje por refuerzo se utiliza para entrenar los modelos GPT con el fin de mejorar su capacidad para generar textos coherentes y con sentido, o más exactamente, textos coherentes con el contexto y que tengan un sentido lógico. Por ejemplo, si el modelo GPT está generando texto sobre un tema específico, el aprendizaje por refuerzo puede utilizarse para entrenar al modelo para que genere texto coherente con ese tema específico.

Evaluación del modelo

La evaluación de modelos es un proceso continuo. En el caso de GPT-3 y GPT-4, los modelos subyacentes a ChatGPT, esta evaluación consiste en medir su capacidad para generar texto coherente y de calidad. En concreto, los modelos se evalúan mediante una serie de tareas basadas en el lenguaje natural, como la traducción automática, la respuesta a preguntas y la generación de textos. También se presta especial atención a la capacidad del modelo para generar textos coherentes y de calidad según el contexto en el que se utilice. La evaluación del modelo es un proceso continuo y se lleva a cabo con regularidad para garantizar que el rendimiento del modelo de IA no decaiga, al tiempo que se sigue controlando la calidad del texto producido y, en particular, la ausencia de errores, sesgos y otras cuestiones típicas de este tipo de modelos de inteligencia artificial.

Entrenamiento de ChatGPT.
Entrenamiento de ChatGPT.

El entrenamiento de los modelos de IA: conclusiones

Como puede deducirse de lo que hemos descrito hasta ahora, el entrenamiento de modelos de IA como los que están en la base de ChatGPT (y de muchas otras aplicaciones Web actuales y futuras) no puede prescindir de importantes inversiones y de un trabajo minucioso y constante por parte de las empresas y los desarrolladores, que deben ante todo salvaguardar la eficacia y fiabilidad de sus sistemas en un entorno en el que la posibilidad de interacción “natural y espontánea” por parte del usuario aumenta las oportunidades de incurrir en la producción de información incorrecta, engañosa o incluso peligrosamente falsa, y en el que los mismos datos utilizados en el curso de las “conversaciones” pueden referirse a aspectos personales y corporativos sensibles.

La esperanza, en un futuro previsible, es que la propia IA proporcione nuevas herramientas que ayuden en estos delicados e importantes procesos, conduciendo a un perfeccionamiento cada vez mayor de los mismos y a unos resultados cada vez mejores en este campo.

@RESERVADOS TODOS LOS DERECHOS

Si lo desea, evalúe la calidad de este artículo

¡Su opinión es importante para nosotros!

Temas principales

Especificaciones

D
datos
I
IA

Nota 1 de 4