Cómo Subench permite a las empresas evaluar los modelos de IA contra los datos reales – ButterWord

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Cada propagación del maniquí de IA inevitablemente incluye cuadros que promocionan cómo superó a sus competidores en esta prueba de relato o esa matriz de evaluación.

Sin embargo, estos puntos de relato a menudo prueban capacidades generales. Para las organizaciones que desean usar modelos y agentes basados en modelos de idiomas grandes, es más difícil evaluar qué tan bien el agente o el modelo realmente comprenden sus necesidades específicas.

Repositorio de modelos Cara abrazada valiente Tubenchuna aparejo de código franco donde los desarrolladores y empresas pueden crear sus propios puntos de relato para probar el rendimiento del modelo con sus datos internos.

Sumuk Shashidhar, parte del Equipo de Investigación de Evaluaciones en Hugging Face, anunció YourBench en x. La característica ofrece “conjuntos de evaluaciones y datos sintéticos personalizados de cualquiera de sus documentos. Es un gran paso para mejorar cómo funcionan las evaluaciones del modelo”.

Agregó que abrazar a la cara sabe “que, para muchos casos de uso, lo que realmente importa es qué tan bien un modelo realiza su tarea específica. Your Bench le permite evaluar modelos sobre lo que le importa”.

Creación de evaluaciones personalizadas

Cara abrazada dijo en un seminario que subench funciona replicando subconjuntos de la relato de comprensión de habla multitarea masiva (MMLU) “Usando un texto de origen minúsculo, logrando esto por menos de $ 15 en costo de inferencia total mientras preserva perfectamente las clasificaciones de rendimiento del modelo relativo”.

LEAR  Aumento en inspecciones pero resultados mínimos.

Las organizaciones necesitan preprocesar sus documentos antes de que subench pueda funcionar. Esto involucra tres etapas:

Ingestión de documentos para “ordenar” los formatos de archivo.

Fragmentación semántica Desglosar los documentos para cumplir con los límites de las ventanas de contexto y ajustar la atención del modelo.

Extracto de documentos

Luego viene el proceso de conjuntos de preguntas y respuestas, que crea preguntas a partir de la información sobre los documentos. Aquí es donde el usuario trae a su LLM preferido para ver cuál responde mejor a las preguntas.

Hugging Face probó Yourbench con los modelos DeepSeek V3 y R1, los modelos Qwen de Alibaba incluyendo el modelo de razonamiento Qwen QwQ, Mistral Large 2411 y Mistral 3.1 Small, Ardor 3.1 y Ardor 3.3, Gemini 2.0 Flash, Gemini 2.0 Flash Lite y Gemma 3, GPT-4o, GPT-4o-mini y o3 mini, y Claude 3.7 Sonnet y Claude 3.5 Haiku.

Shashidhar dijo que Hugging Face también ofrece análisis de costos en los modelos y descubrió que Qwen y Gemini 2.0 Flash “ofrecen un gran valor por costos muy bajos”.

Limitaciones de cálculo

Sin embargo, la creación de puntos de relato LLM personalizados basados en los documentos de una organización tiene un costo. Yourbench requiere mucha potencia de cómputo para funcionar. Shashidhar dijo en X que la compañía está “agregando capacidad” tan rápido como puedan.

Abrazando la cara Varias GPU y se asocia con empresas como Google para usar sus servicios en la nube para tareas de inferencia. VentureBeat se acercó a abrazar la cara sobre el uso de cómputo de Yourbench.

La evaluación no es perfecta

Los puntos de relato y otros métodos de evaluación brindan a los usuarios una idea de qué tan bien funcionan los modelos, pero estos no capturan perfectamente cómo funcionarán los modelos en la vida real.

LEAR  Corea del Sur solicita a las aerolíneas de bajo coste que refuercen la seguridad después del accidente - ButterWord

Algunos han expresado incluso desconfianza en que las pruebas de evaluación muestren las limitaciones de los modelos y puedan llevar a conclusiones falsas sobre su seguridad y rendimiento. Un estudio también advirtió que los agentes de evaluación comparativa podrían ser “engañosos”.

Sin embargo, las empresas no pueden evitar evaluar modelos ya que hay muchas opciones en el mercado, y los líderes tecnológicos justifican el creciente costo de usar modelos de IA. Esto ha llevado a diferentes métodos para probar el rendimiento y la confiabilidad del modelo.

Google Deepmind introdujo Grounded que prueba la capacidad de un modelo para generar respuestas factualmente precisas basadas en la información de los documentos. Algunos investigadores de la Universidad de Yale y Tsinghua desarrollaron puntos de relato de código autoinvocador para guiar a las empresas para las cuales la codificación LLM funciona para ellos.

Información diaria sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te damos la cuenta interna de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir ideas para un mayor ROI.

Gracias por suscribirte. Mira más Boletines de VB aquí.

Ocurrió un error.