Empresas tecnológicas están cambiando su enfoque de construir los modelos de lenguaje más grandes (LLMs) a desarrollar modelos más pequeños (SLMs) que pueden igualar o incluso superarlos. Meta’s Llama 3 (400 mil millones de parámetros), OpenAI’s GPT-3.5 (175 mil millones de parámetros) y GPT-4 (aproximadamente 1.8 trillones de parámetros) son modelos famosamente grandes, mientras que la familia Phi-3 de Microsoft varía de 3.8 mil millones a 14 mil millones de parámetros, y Apple Intelligence tiene “solamente” alrededor de 3 mil millones de parámetros.
Puede parecer una degradación tener modelos con muchos menos parámetros, pero el atractivo de los SLMs es comprensible. Consumen menos energía, pueden ejecutarse localmente en dispositivos como teléfonos inteligentes y laptops, y son una buena opción para pequeñas empresas y laboratorios que no pueden permitirse costosos equipos.
Como informa IEEE Spectrum, “El surgimiento de SLMs llega en un momento en el que la brecha de rendimiento entre LLMs se está estrechando rápidamente, y las empresas tecnológicas buscan desviarse de las leyes de escalado estándar y explorar otras vías para mejoras de rendimiento.”
En una reciente ronda de pruebas realizadas por Microsoft, Phi-3-mini, el modelo más pequeño del gigante tecnológico con 3.8 mil millones de parámetros, rivalizó con Mixtral (8x 7 mil millones) y GPT-3.5 en algunas áreas, a pesar de ser lo suficientemente pequeño como para caber en un teléfono. Su éxito se debió al conjunto de datos utilizado para el entrenamiento, que estaba compuesto por “datos de la web públicamente disponibles fuertemente filtrados y datos sintéticos.”
Mientras que los SLMs logran un nivel similar de comprensión del lenguaje y razonamiento que los modelos mucho más grandes, todavía están limitados por su tamaño para ciertas tareas y no pueden almacenar demasiado conocimiento “factual”. Esto es un problema que se puede abordar combinando el SLM con un motor de búsqueda en línea.
Shubham Agarwal de IEEE Spectrum compara los SLMs con la forma en que los niños aprenden el lenguaje y dice, “Para cuando los niños cumplen 13 años, han sido expuestos a alrededor de 100 millones de palabras y son mejores que los chatbots en el lenguaje, con acceso solo al 0.01 por ciento de los datos.” Aunque, como señala Agarwal, “Nadie sabe qué hace a los humanos mucho más eficientes”, Alex Warstadt, investigador de ciencias de la computación en ETH Zurich, sugiere que “la ingeniería inversa del aprendizaje eficiente similar al humano en pequeñas escalas podría llevar a enormes mejoras cuando se escalen a escalas de LLM.”