En nuestro camino por llegar a conseguir una Inteligencia Artificial general, lo que comúnmente se conoce como AGI, hay ciertos eventos con mayor repercusión de otros. Cuanto más difícil sea distinguir que una máquina ha hecho algo en vez de un ser humano, más repercusión tendrá dicho evento. En este caso vamos a hablar del modelo generativo de lenguaje GPT-3, el cual está siendo utilizado actualmente por varias empresas en diversas aplicaciones, así como de una alternativa open-source (ya que el acceso a GPT-3 es restringido y de pago). También veremos las diferencias que existen con GPT-4 de OpenAI, que se encuentra disponible desde el 14 de marzo del 2023.
Descubre el nuevo modelo de OpenAI, GPT-4o aquí.
Qué es y cómo funciona GPT-3
GPT-3 es la tercera versión del modelo generativo de lenguaje desarrollado por OpenAI. Cuando hablamos de modelos de lenguaje (en inglés Language models) nos referimos a modelos capaces de predecir la siguiente palabra dada una secuencia de palabras que la preceden. A pesar de que su definición puede parecer simple, estos modelos nos permiten resolver tareas más complejas como traducción entre distintos idiomas (Machine Translation), responder automáticamente a preguntas (Question Answering) o resumen automático de textos (Text Summarization).
Además, hemos hablado de que dichos modelos de lenguaje son generativos, lo cual significa que estos pueden generar datos nuevos similares al conjunto de datos con los que se ha entrenado. Esto difiere de la idea de modelos discriminativos como un clasificador de perros y gatos, el cual sólo es capaz de distinguir si en una imagen aparece una de las dos clases, pero no puede generar imágenes nuevas que contengan a uno de ellos.
Todas las versiones de GPT se basan en uno de los grandes avances recientes en el mundo del Machine Learning (2017): la arquitectura denominada Transformer. Dicha arquitectura evita el uso de redes neuronales recurrentes (RNNs) que se utilizaban hasta entonces como el estándar al tratar con datos en formato textual y utilizan una técnica cuya traducción al castellano sería mecanismos de atención (en inglés Attention Mechanisms).
GPT-3 es 100 veces más grande que su predecesor GPT-2, contando con 175.000 millones de parámetros, aunque está entrenado siguiendo los mismos principios. Aunque el GPT-4 es una mejora significativa en términos de capacidad multimodal, creatividad, seguridad y contexto en comparación con GPT-3
Para entrenarlo, se ha seguido un procedimiento de aprendizaje semi-supervisado, el cual permite utilizar un dataset de un grandísimo tamaño sin necesidad de que esté etiquetado, y posteriormente el modelo se refina con datasets más pequeños que sí están etiquetados y que resuelven pequeñas tareas.
GPT-3 es 100 veces más grande que su predecesor GPT-2, contando con 175.000 millones de parámetros, aunque está entrenado siguiendo los mismos principios. Esto significa que en este caso se ha conseguido mejorar resultados “simplemente” utilizando un conjunto de datos más extenso. Dicho conjunto de datos se extrajo de fuentes como CommonCrawl, WebText o Wikipedia.
¿Por qué GPT-3 se ha diferenciado tanto de sus predecesores?
Los resultados de GPT-3 a la hora de generar texto a partir de una entrada dada son impresionantes y su mejora con respecto a GPT-2 es evidente. Sin embargo, lo que realmente ha marcado la diferencia es la capacidad de adaptación a nuevas tareas a partir de un número muy reducido de ejemplos. Esto es lo que de verdad supone un acercamiento a conseguir una Inteligencia Artificial.
Para utilizar el modelo de GPT-3, hemos comentado que hace falta utilizar “una entrada de texto”. Esto se conoce como Prompt, que puede ser tan simple como por ejemplo “The cat is” esperando que el modelo complete con un párrafo realista en función del contexto dado. Sin embargo, la magia viene cuando le pasamos algo como “The woman is walking her dog → La mujer está paseando a su perro. The kid is playing in the park →”, y el propio modelo es capaz de interpretar que estamos pidiendo al modelo que traduzca de inglés a español.
Algunas aplicaciones que se están utilizando actualmente son las siguientes:
- Generación de código a través de descripciones de funcionalidad con lenguaje natural
- Creación automática de descripción de productos en Ecommerce dado el nombre de producto
- Creación automática del copy de un anuncio
- Generación de noticias dadas unas palabras clave
- Redacción automática de emails
Vamos a ver ahora unos cuantos ejemplos en los que se muestra la cantidad de posibles aplicaciones que ofrece el modelo.
Empezamos por la generación de contenido adaptada al prompt. El texto del principio es el propio prompt, en el que se especifica la tarea que se quiere llevar a cabo. GPT-3 es capaz de diferenciar la tarea que se le pide, así como que el siguiente párrafo es el punto de partida del texto que debe generar.
En el siguiente ejemplo, podemos comprobar que GPT-3 es capaz de responder a preguntas razonadas a través del sentido común. En este caso se emula por tanto una conversación en la que podemos ver cómo se mantiene el contexto de pregunta a pregunta. Por ejemplo, en el primer caso se pregunta por el animal favorito, y en la siguiente, al preguntar la razón de la primera respuesta, esta tiene sentido al no perder la información previa. La última pregunta muestra otro aspecto muy interesante, ya que vemos cómo el modelo aporta una respuesta razonando. Por supuesto, dicha información podría estar incorporada en el conjunto de entrenamiento, pero aun así parece sorprendente cómo esta se interpreta correctamente y se devuelve la respuesta correcta.
Por último, podemos ver cómo GPT-3 posee creatividad a través del conocimiento que ha adquirido durante su entrenamiento. Aquí podemos ver cómo, dado un título de receta inventada, es capaz de inventar los pasos necesarios para llegar a dicho título. Se puede ver cómo se mantiene el contexto durante los tres párrafos: la receta empieza con plátanos y tomates, y en el tercer paso se sigue hablando de dichos alimentos.
Alternativa open source
Como hemos comentado, GPT-3 no está disponible de manera open source. OpenAI ha sacado una API de pago a través de la cual se puede acceder al modelo. Sin embargo, el precio no es el único obstáculo para usarlo, sino que además hay que enviar una solicitud exponiendo la finalidad que le vas a dar al uso de la API y su ratio de aceptación no es alto precisamente. Si queremos utilizar algo similar de OpenAI, sus otras dos versiones, GPT y GPT-2, están disponibles de forma gratuita (aunque no son para nada comparables en cuanto a resultados). La forma más sencilla de acceder a ellas es a través de la librería HuggingFace.
Sin embargo, existe un proyecto denominado GPT-Neo que trata de ofrecer un modelo similar a GPT-3 llevado a cabo por EleutherAI. En este caso, el modelo tiene 2.700 millones de parámetros (frente a los 175.000 millones de GPT-3). Cuenta eso sí con un número de parámetros similar a GPT-2, aunque con mejores resultados en varios dominios. Dichas diferencias pueden atribuirse al conjunto de datos con el que GPT-Neo ha sido entrenado. También se puede acceder al dicho modelo a través de la librería HuggingFace, así como probarlo en una consola disponible en su web.
GPT-4: La evolución de GPT-3.5
- Entrada Multimodal: GPT-4 no solo procesa texto, sino que también puede trabajar con información visual, como imágenes.
- Menos Alucinaciones: Tiene entre un 19 y un 29% menos de probabilidad de generar información incorrecta en comparación con GPT-3.5.
- Mejora en Creatividad: GPT-4 ofrece respuestas más creativas, especialmente en tareas complejas que requieren ingenio.
- Habilidades Creativas Avanzadas: Puede componer canciones, escribir guiones y aprender el estilo de escritura del usuario con mayor precisión.
- Respuestas Más Seguras: Incorpora medidas de seguridad integradas desde el principio, reduciendo respuestas “tóxicas” al 0,73% frente al 6,48% de GPT-3.5.
- Menos Respuestas No Permitidas: Es un 82% menos probable que responda a solicitudes de contenido no permitido.
- Más Probabilidad de Respuestas Objetivas: Un 40% más probable de ofrecer respuestas objetivas que su predecesor.
- Mayor Ventana de Contexto: Ofrece una ventana de contexto y tamaño de memoria significativamente mayores para mejorar la coherencia en las interacciones.
GPT-4 es una mejora significativa en términos de capacidad multimodal, creatividad, seguridad y contexto en comparación con GPT-3.5.
Aprende sobre esto y más aplicaciones con el Máster en Big Data