Como funciona un LLM - Antonio's Notebook

## TL;DR - Tokenización y espacio vectorial - El lenguaje se fragmenta en **tokens** finitos gracias a **corpus** masivos (libros, web, emails, foros). - Cada token se ubica en un **espacio n-dimensional (vectorial)** donde la proximidad refleja similitud semántica (gato–perro, rey–reina). - Redes neuronales y parámetros - Una red neuronal posee capa de **entrada** (tokens), **capas ocultas** (funciones intermedias) y **capa de salida** (predicción de siguiente token). - Millones o miles de millones de parámetros (pesos) requieren computación intensiva; solo ahora es viable por hardware avanzado. - Mecanismo de atención - A partir del **prompt**, en lugar de procesar todos los **tokens**, calcula correlaciones (**query–key–value**) solo sobre los tokens más relevantes para acelerar la generación de texto. - RLHF (Reinforcement Learning with Human Feedback) - feedback humano (regañar/recompensar) para enseñar al modelo a comportarse - Hiperparámetros - Temperatura: Balancear entre la opción de máxima probabilidad (**determinista**) y alternativas (**creativa**) - **Baja (cercana a 0)**: Respuestas más **deterministas** y **conservadoras**. El modelo selecciona los tokens de mayor probabilidad, generando **soluciones** más **predecibles** y **básicas**. - **Media (alrededor de 1)**: Equilibrio entre **creatividad** y **precisión**. Esta es la configuración **predeterminada** en la mayoría de las interfaces. - **Alta (cercana a 2)**: Respuestas más **diversas** y **creativas**. El modelo considera tokens menos probables, produciendo **contenido más original** aunque potencialmente **menos preciso**. - **Top-p**: También conocido como "**nucleus sampling**", este parámetro controla la **diversidad de tokens** que el modelo considera para su respuesta. Al **limitar o ampliar** la **selección** de tokens, permite generar **respuestas** más predecibles o **diversas**. - Ordena todos los tokens posibles de mayor a menor probabilidad. - Selecciona únicamente los tokens cuyas probabilidades sumadas alcanzan el valor de Top-p establecido. - Elige aleatoriamente entre los tokens seleccionados. - **Top-k**: **Especifica** el **número máximo** de **tokens candidatos** que el modelo puede considerar al generar una respuesta. Esta función permite **controlar** con precisión el nivel de **creatividad** del modelo y está disponible en algunos modelos. - Un valor bajo de Top-k (por ejemplo, 10) genera **respuestas más predecibles** y deterministas. - Un valor alto (por ejemplo, 500) produce **respuestas más variadas** y aleatorias. - **Penalty Parameters**: Particularmente **útiles** al generar **contenido extenso**, como historias o documentación de código, pues ayudan a **evitar redundancias** y mantener la diversidad del texto. - **Presence penalty**: **Penaliza** al modelo por repetir temas o conceptos. - **Repetition penalty**: **Evita** específicamente que el modelo **repita palabras o frases exactas**. ## ¿Cómo funcionan los grandes modelos de lenguaje? Los modelos de lenguaje modernos operan mediante un proceso sofisticado que comienza con la tokenización y culmina con sistemas de predicción basados en atención. Este proceso permite que la inteligencia artificial comprenda y genere texto de manera coherente y contextualmente apropiada. ### Tokenización: dividiendo el lenguaje en unidades básicas El primer paso fundamental consiste en fragmentar todo el lenguaje humano en unidades más pequeñas llamadas "tokens". Estos pueden ser palabras completas, sílabas o incluso letras individuales. Aunque podríamos pensar que las posibles combinaciones son infinitas, el lenguaje humano es sorprendentemente finito: - Los sistemas de traducción típicamente utilizan entre 40,000 y 50,000 tokens - Los grandes modelos como GPT-4 pueden manejar hasta 256,000 tokens en su vocabulario Por ejemplo, la palabra "satisfacción" podría dividirse en varios tokens: "sat", "is", "f", "acción". **Cada uno de estos fragmentos se convierte en una unidad procesable para el modelo**. ### Vectorización: ubicando palabras en espacios multidimensionales Una vez tokenizado el lenguaje, cada token se ubica en un espacio vectorial multidimensional donde: - Palabras similares se posicionan cerca unas de otras (gato, perro y lobo estarán próximos) - Se crean relaciones vectoriales entre conceptos (rey - hombre + mujer = reina) - Se establecen patrones como tiempo verbal (caminé/caminar similar a nadé/nadar) Este proceso permite que las palabras se conviertan en expresiones matemáticas que pueden sumarse, restarse y manipularse. **La vectorización es crucial porque transforma conceptos lingüísticos en entidades matemáticas procesables**. ### Redes neuronales: encontrando patrones ocultos Con el lenguaje tokenizado y vectorizado, el siguiente paso es crear una red neuronal que aprenda las probabilidades de conexión entre tokens. Este proceso implica: 1. Dividir el corpus del lenguaje (70% para entrenamiento, 30% para pruebas) 2. Crear una estructura con capas de entrada, capas ocultas y capas de salida 3. Ajustar millones de parámetros que representan los pesos de cada "neurona" **Este entrenamiento requiere enormes recursos computacionales**, lo que explica por qué, aunque los algoritmos existen desde los años 50, solo recientemente hemos podido implementarlos a gran escala. ## ¿Qué hace que los modelos sean realmente inteligentes? La verdadera magia de los modelos modernos no está solo en predecir la siguiente palabra, sino en su capacidad para entender contextos y generar respuestas coherentes y creativas. ### El mecanismo de atención: enfocándose en lo importante Similar a cómo los humanos prestamos atención selectiva a ciertas palabras, los modelos utilizan un mecanismo llamado "atención" que: 1. Identifica un "query" (consulta), una "key" (llave) y un "value" (valor) 2. Evalúa qué tokens previos son más relevantes para predecir el siguiente 3. Asigna pesos de importancia a diferentes partes del contexto Por ejemplo, en "el gato maúlla y el perro...", el modelo presta especial atención a "gato" y "maúlla" para predecir que lo que sigue probablemente sea "ladra". **Este mecanismo de atención es lo que permite a los modelos capturar dependencias a larga distancia en el texto**, superando las limitaciones de modelos anteriores. ### Temperatura y creatividad: más allá de la predicción determinista Los grandes modelos no siempre eligen la palabra con mayor probabilidad. Incorporan un parámetro llamado "temperatura" que: - A temperatura baja: seleccionan casi siempre la opción más probable (más predecibles) - A temperatura alta: pueden elegir opciones menos probables (más creativos) **Esta variabilidad controlada es crucial para generar respuestas que no sean meramente predecibles sino también creativas e interesantes**. ### RLHF: aprendiendo a conversar como humanos El último componente que transformó estos modelos en asistentes conversacionales fue el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés): - Se contrataron miles de personas para interactuar con los modelos - Se recompensaba al modelo cuando respondía apropiadamente como un chat - Se penalizaba cuando sus respuestas no eran adecuadas Este proceso recalibró las "neuronas" del modelo para que aprendiera a: - Mantener conversaciones coherentes - Saber cuándo dejar de generar texto - Desarrollar una "personalidad" consistente **El RLHF es lo que convirtió a modelos como GPT en ChatGPT**, transformando un generador de texto en un asistente conversacional. ## ¿Por qué es importante entender estos fundamentos? Comprender cómo funcionan los grandes modelos de lenguaje nos permite: - Utilizarlos más eficazmente mediante prompts bien diseñados - Anticipar sus limitaciones y sesgos - Contribuir al desarrollo de la próxima generación de IA Los modelos de lenguaje representan la frontera actual del conocimiento en inteligencia artificial generativa. Su funcionamiento, aunque complejo, se basa en principios matemáticos y estadísticos que transforman el lenguaje humano en representaciones procesables por máquinas. La próxima vez que interactúes con ChatGPT o cualquier otro asistente basado en IA, recuerda que detrás de esa aparente comprensión hay un sofisticado sistema de tokens, vectores, redes neuronales y mecanismos de atención trabajando en conjunto para ofrecerte respuestas coherentes.