Uno de los nuevos modelos de IA insignia de Meta, llamado Maverick, ocupó el segundo lugar en la arena de pruebas LMuna, donde los evaluadores humanos comparan las expectativas de los modelos y eligen cuál prefieren. Sin embargo, parece que la versión de Maverick implementada por Meta en la LM Arena difiere de la versión ampliamente disponible para los desarrolladores.
Varios investigadores de IA han señalado que Meta anunció que el Maverick en la LM Arena es una “lectura de chat positivo”. Sin embargo, un manifiesto en el sitio web oficial revela que las pruebas de la arena LM de Meta se realizaron utilizando una versión optimizada de Maverick para la conversación.
LM Arena nunca ha sido considerada la medida más confiable del rendimiento de un modelo de IA, y las empresas de inteligencia artificial generalmente no han adaptado sus modelos para que funcionen mejor en esta arena, o al menos no lo han admitido.
El problema con adaptar un modelo a un punto de referencia, entrenarlo y luego lanzar una versión “pulida” del mismo modelo es que dificulta a los desarrolladores predecir exactamente cómo funcionará el modelo en contextos específicos. Además, los investigadores han observado diferencias significativas en el comportamiento del Maverick descargable públicamente en comparación con el modelo alojado en la LM Arena. La versión de la LM Arena parece usar muchos emojis y dar respuestas extremadamente largas.
Se ha contactado a Meta y Chatbot Arena, la organización que gestiona la LM Arena, para obtener comentarios.
Okl Claridad 4 es definitivamente una cocción cocida jajaja, ¿qué es esta ciudad de yap? pic.twitter.com/y3gvhbvz65
– Nathan Lambert (@natolambert) 6 de abril de 2025
Por alguna razón, el modelo Claridad 4 en la Arena utiliza muchos más emojis.
en juntos. ai, parece mejor: pic.twitter.com/f74odx4ztt
– Tech Dev Notes (@TechDevnotes) 6 de abril de 2025
Nos hemos comunicado con Meta y Chatbot Arena, la organización que mantiene la LM Arena, para obtener comentarios.