Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Hoy, prácticamente todos los productos y modelos de IA de vanguardia utilizan una arquitectura de transformador. Modelos de lenguaje grandes (LLMs) como GPT-4O, LLAMA, Géminis y Claude están basados en transformadores, y otras aplicaciones de IA, como texto a voz, reconocimiento de voz, generación de imágenes y modelos de texto a video, tienen transformadores como su tecnología subyacente.
Con la exageración en torno a la IA que no es probable que disminuya pronto, es hora de dar a los transformadores su merecido reconocimiento, por eso me gustaría explicar un poco sobre cómo funcionan, por qué son tan importantes para el crecimiento de soluciones escalables y por qué son la columna vertebral de los LLMs.
Los transformadores son más de lo que parece
En esencia, un transformador es una arquitectura de red neuronal diseñada para modelar secuencias de datos, lo que los hace ideales para tareas como la traducción de idiomas, la completación de oraciones, el reconocimiento de voz y más. Los transformadores han llegado a ser la arquitectura dominante para muchas de estas tareas de modelado de secuencias porque el mecanismo de atención subyacente puede ser fácilmente paralelizado, lo que permite una escalabilidad masiva tanto en el entrenamiento como en la inferencia.
Originalmente introducido en un artículo de 2017, “Attention Is All You Need” de los investigadores de Google, el transformador se presentó como una arquitectura de codificador-decodificador diseñada específicamente para la traducción de idiomas. Al año siguiente, Google lanzó representaciones de codificadores bidireccionales de Transformers (BERT), que podrían considerarse como uno de los primeros LLMs, aunque ahora se consideran pequeños según los estándares actuales.
Desde entonces, y especialmente acelerado con la llegada de los modelos GPT de OpenAI, la tendencia ha sido entrenar modelos cada vez más grandes con más datos, más parámetros y ventanas de contexto más largas.
Para facilitar esta transformación, ha habido muchas innovaciones como: hardware de GPU más potente y un mejor software para el entrenamiento de GPU; técnicas como la cuantización y la mezcla de expertos (MOE) para reducir el consumo de memoria; nuevos optimizadores para el entrenamiento, como Shampoo y Adamw; técnicas para calcular eficientemente la atención, como la atención flash y el almacenamiento en estilo clave-valor. La tendencia probablemente continuará en el futuro previsible.
La importancia de la autoatención en los transformadores
Dependiendo de la aplicación, un modelo de transformador sigue una arquitectura de codificador-decodificador. El componente del codificador aprende una representación vectorial de los datos que luego se puede utilizar para tareas posteriores como la clasificación y el análisis de sentimientos. El componente del decodificador toma una representación vectorial o enmascarada del texto o la imagen y la utiliza para generar un nuevo texto, lo que lo hace útil para tareas como la completación y la extracción de oraciones. Por esta razón, muchos modelos de última generación, como la serie GPT, son solo decodificadores.
Los modelos de codificador-decodificador combinan ambos componentes, haciéndolos útiles para la traducción y otras tareas de secuencia a secuencia. Tanto para las arquitecturas del codificador como del decodificador, el componente central es la capa de atención, ya que esto es lo que permite que un modelo retenga el contexto de las palabras que aparecen mucho antes en el texto.
La atención viene en dos variantes: autoatención y atención cruzada. La autoatención se utiliza para capturar relaciones entre las palabras dentro de la misma secuencia, mientras que la atención cruzada se utiliza para capturar relaciones entre las palabras en dos secuencias diferentes. La atención cruzada conecta los componentes del codificador y del decodificador en un modelo y durante la traducción. Por ejemplo, permite que la palabra en inglés “strawberry” se relacione con la palabra en francés “fraise”. Matemáticamente, tanto la autoatención como la atención cruzada son diferentes formas de multiplicación de matrices, que se pueden realizar de forma muy eficiente utilizando una GPU.
Debido a la capa de atención, los transformadores pueden capturar mejor las relaciones entre las palabras separadas por largas cantidades de texto, mientras que los modelos anteriores como las redes neuronales recurrentes (RNN) y los modelos de memoria a corto plazo (LSTM) pierden el rastro de las palabras anteriores a medida que avanzan en el texto.
El futuro de los modelos
Actualmente, los transformadores son la arquitectura dominante para muchos casos de uso que requieren LLMs y se benefician de la gran cantidad de investigación y mejoras. Aunque esto no parece cambiar pronto, una clase diferente de modelo que ha despertado interés recientemente son los modelos de espacio de estado (SSM) como Mamba. Esta arquitectura altamente eficiente puede manejar secuencias de datos muy largas, mientras que los transformadores están limitados por una ventana de contexto.
Para mí, las aplicaciones más emocionantes de los modelos de transformadores son los modelos multimodales. El GPT-4O de OpenAI, por ejemplo, es capaz de manejar texto, audio e imágenes, y otros proveedores están comenzando a seguir este camino. Las aplicaciones multimodales son muy diversas, desde subtítulos de video hasta clonación de voz y segmentación de imágenes (y más). Además, presentan la oportunidad de hacer que la IA sea más accesible para personas con discapacidades. Por ejemplo, una persona ciega podría beneficiarse de la capacidad de interactuar a través de componentes de voz y audio de una aplicación multimodal.
Es un espacio emocionante con mucho potencial para descubrir nuevos casos de uso. Pero recuerde que, al menos en el futuro previsible, están en gran medida respaldados por la Arquitectura de Transformadores.
Terrence Alsup es un científico de datos senior en Finastra.
DataDecision Makers
¡Bienvenido a la comunidad VentureBeat!
DataDecisionmakers es donde los expertos, incluidas las personas técnicas que trabajan con datos, pueden compartir información e innovación relacionadas con los datos.
Si desea aprender sobre ideas innovadoras e información actualizada, las mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DateCisionmakers.
Incluso podría considerar Contribuir con un artículo ¡Por ti mismo!
Lea más de DataDecisionmakers