En el mundo de la computación, la Inteligencia Artificial se ha impuesto últimamente por encima de muchos otros modelos de programación. Seguro que a muchos, si les hablan de inteligencia artificial, pensará en el archifamoso ChatGPT; pues bien, el ChatGPT es uno de los conocidos como grandes modelos de lenguaje o LLM (Large Language Models, por sus siglas en inglés).

En este artículo vamos a ver qué son estos LLM, cómo funcionan y cuáles hay actualmente. Tras esto, abordaremos sus usos actuales.

¿Qué son los grandes modelos de lenguaje?

Para entender qué son los grandes modelos de lenguaje tenemos, en primer lugar, que hablar del procesamiento de lenguajes naturales (PNL). Esta área de la computación (pero también de la lingüística) se encarga de investigar de qué manera se pueden comunicar hombres y máquinas utilizando lenguas naturales, es decir, variedades lingüísticas que habla un colectivo de personas. Las lenguas naturales pueden ser el español, el inglés, el chino, el francés, etcétera.

Los grandes modelos de lenguaje revolucionaron el enfoque del PNL debido, precisamente, a que hasta que aparecieron en 2018, se entrenaba a estos modelos para dar respuesta a una tarea específica. Sin embargo, los LLM están entrenados para desempeñarse en numerosas tareas. Y, por acercarnos a una definición comúnmente aceptada, diremos que son redes neuronales (modelos computacionales avanzados a partir de aportaciones científicas) que son capaces de leer, traducir y resumir textos. Esto es, los grandes modelos de lenguaje conocen este y saben utilizarlo.

Un LLM está creado con una cantidad ingente de datos y palabras (miles de millones), de modo que puede predecir lo que el usuario quiere decir y completar frases, así como de aprender de manera evolutiva.

Así funcionan

Como hemos dicho antes, los LLM son grandes redes neuronales, y tenemos que pensar en ellos como un cerebro humano, que va desarrollándose mediante conexiones sinápticas (uniones entre neuronas). Esto mismo es lo que se pretende imitar en un modelo grande de lenguaje.

Los grandes modelos de lenguaje se basan en el aprendizaje automático: lo que se hace es ingresar cantidades enormes de datos para que el sistema termine reconociendo ese lenguaje sin intervención del hombre.

El aprendizaje de este tipo de lenguajes se conoce como aprendizaje profundo. Los modelos grandes de lenguaje aprenden mediante la probabilidad. A fuerza de introducir frases de un mismo idioma, terminará por saber cuál es la manera más probable de responder a una determinada pregunta, por ejemplo. En el caso del español, el modelo de lenguaje terminará aprendiendo que la letra A es mucho más probable que la W, por poner un ejemplo.

Para entender que este modelo aprenda un idioma tenemos que pensar en esa red neuronal, es decir, en que estaremos introduciendo miles de millones de frases, incluso billones, con el fin de que aprenda a hablar en ese idioma. Y, si bien la intervención humana es escasa, es habitual que sean personas las que ajusten este tipo de modelo de lenguaje.

¿Qué grandes modelos de lenguaje son hoy por hoy los más conocidos?

Existen varios y seguramente con el tiempo se generarán otros nuevos, pero algunos de los más conocidos son:

  • GPT-4. La última versión del modelo de lenguaje creado por OpenAI es, hoy por hoy, el modelo grande de lenguaje más potente
  • Turing NLG. El modelo de lenguaje más grande antes de la aparición de GPT-3. Lo presentó Microsoft en 2020.
  • Falcon. El último creado hasta la fecha, en septiembre de 2023. Es de código abierto.