Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Un equipo de investigadores ha introducido Light-R1-32B, un nuevo maniquí de IA de código despejado optimizado para resolver problemas de matemáticas avanzadas, lo que lo hace habitable Cara abrazada Según una inmoralidad permisiva de Apache 2.0, improcedente para que las empresas e investigadores tomen, implementen, ajusten o modifiquen como deseen, incluso para fines comerciales.
El maniquí de 32 mil millones de parámetros (número de configuraciones de maniquí) supera el rendimiento de modelos de código despejado de tamaño similar (e incluso más egregio) como Deepseek-R1-Distill-Fuego-70b y Deepseek-R1-Distill-Qwen-32b en Benchmark de terceros. Examen de matemáticas de Invitational American (AIME)que contiene 15 problemas matemáticos diseñados para estudiantes extremadamente avanzados y tiene un margen de tiempo asignado de 3 horas para los usuarios humanos.
Desarrollado por Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi an, Zhenyu Duan, Yimin du, Junchen Liu, Lifu Tang, Xiaowei LV, Haosheng Zou, Yongchao Deng, Shousheng Jia y Xiangzheng Zhang, la maniquí superan los alternativos de la competencia previa anteriores.
Increíblemente, los investigadores completaron la capacitación del maniquí en menos de seis horas en 12 GPU H800 NVIDIA a un costo total estimado de $ 1,000. Esto hace que la luz-R1-32B sea uno de los enfoques más accesibles y prácticos para desarrollar modelos de IA especializados en matemáticas de stop rendimiento. Sin confiscación, es importante memorar que el maniquí fue entrenado en una transformación de El código despejado de Alibaba Qwen 2.5-32B-Instructoque se supone que tuvo costos de capacitación iniciales mucho más altos.
Anejo con el maniquí, el equipo ha decidido sus conjuntos de datos de capacitación, scripts de capacitación y herramientas de evaluación, proporcionando un ámbito transparente y accesible para construir modelos de IA centrados en matemáticas.
La aparición de Light-R1-32B sigue otros esfuerzos similares de rivales como Microsoft con su serie Orca-Math.
Un nuevo rey de matemáticas emerge
Light-R1-32B está diseñado para afrontar un razonamiento matemático engorroso, particularmente en los puntos de relato de AIME (American Invitational Mathematics).
Fue entrenado desde Qwen2.5-32b-Instructo, comenzando desde un maniquí sin razonamiento de condena de pensamiento (COT). El equipo aplicó el ajuste supervisado (SFT) basado en el plan de estudios y la optimización directa de preferencias (DPO) para refinar sus capacidades de resolución de problemas.
Cuando se evaluó, Light-R1-32B logró 76.6 en AIME24 y 64.6 en AIME25, superando a Deepseek-R1-Distill-Qwen-32b, que anotó 72.6 y 54.9, respectivamente.
Esta mejoría sugiere que el enfoque de entrenamiento basado en el plan de estudios mejoría efectivamente el razonamiento matemático, incluso cuando se capacita de modelos que inicialmente carecen de cuna larga.
Benchmarking ajustado
Para asegurar una evaluación comparativa reto, el equipo descontaminó los datos de entrenamiento contra los puntos de relato de razonamiento popular, incluidos AIME24/25, Math-500 y GPQA Diamond, evitando la fuga de datos.
Incluso implementaron el filtrado de respuesta basado en la dificultad utilizando DeepScaler-1.5b-previstos, formando en última instancia un conjunto de datos de 76,000 ejemplos para la primera etapa de ajuste fino supervisado. Un segundo conjunto de datos más desafiante de 3.000 ejemplos mejoró aún más el rendimiento.
Posteriormente del entrenamiento, el equipo fusionó múltiples versiones entrenadas de Light-R1-32B, lo que llevó a ganancias adicionales. En particular, el maniquí mantiene fuertes habilidades de propagación en tareas de razonamiento comprobado (GPQA), a pesar de ser especializado en matemáticas.
Cómo pueden beneficiarse las empresas
Light-R1-32B se gancho bajo la inmoralidad APACHE 2.0, una inmoralidad de código despejado permisivo que permite el uso, modificación y la implementación comerciales gratuitas sin requerir que los trabajos derivados sean de código despejado. T
Lo convierte en una opción atractiva para empresas, desarrolladores de IA e ingenieros de software que buscan integrar o personalizar el maniquí para aplicaciones propietarias.
La inmoralidad todavía incluye una subvención de patentes mundial expedito de regalías, reduciendo los riesgos legales para las empresas y desalienta las disputas de patentes. Las empresas pueden implementar independientemente Light-R1-32B en productos comerciales, manteniendo el control total sobre sus innovaciones mientras se benefician de un ecosistema de IA despejado y transparente.
Para los CEO, CTO y líderes de TI, Apache 2.0 garantiza la eficiencia de rentabilidad y la independencia del proveedor, eliminando las tarifas de inmoralidad y las dependencias restrictivas de las soluciones patentadas de IA. Los desarrolladores e ingenieros de IA obtienen la flexibilidad para ajustar, integrar y extender el maniquí sin limitaciones, lo que lo hace ideal para razonamiento matemático especializado, investigación y aplicaciones de IA empresariales. Sin confiscación, como la inmoralidad no proporciona cobertura de seguro o responsabilidad, las organizaciones deben realizar sus propias evaluaciones de seguridad, cumplimiento y desempeño antaño de implementar la luz-R1-32B en entornos críticos.
Transparencia en capacitación y optimización de bajo costo para la resolución de problemas de matemáticas
Los investigadores enfatizan que la luz-R1-32B proporciona una forma validada y rentable de entrenar a modelos fuertes de condena larga de pensamiento en dominios especializados.
Al compartir su metodología, datos de capacitación y código, su objetivo es compendiar las barreras de costos para el exposición de IA de stop rendimiento.
El trabajo futuro incluye explorar el enseñanza de refuerzo (RL) para mejorar aún más las capacidades de razonamiento del maniquí.