El maniquí de Alibaba, QwQ-32B-Clarividencia previa, ha recibido críticas impresionantes por su capacidad de razonamiento. Su formación se ha centrado en el razonamiento en oficio de simplemente reproducir el idioma, al igual que el GPT-4 o1 de OpenAI. Decidí probar QwQ y otros modelos para evaluar su capacidad de razonamiento.
Probé a pedirle a QwQ que demostrara que si un número primo consta solo de unos, el número de dígitos también debe ser primo. QwQ presentó una prueba detallada y correcta, demostrando su capacidad de razonamiento. También comprobé si esta prueba se podía extender a bases distintas a la pulvínulo 10, y QwQ también demostró correctamente esta extensión.
Al comparar los resultados con otros modelos como GPT-4 o1 y Gemma-2-27B, todos presentaron pruebas correctas, aunque con diferencias en la forma de expresión y en la cantidad de detalles proporcionados.
La capacidad de estos modelos de razonar abre nuevas posibilidades en la inteligencia artificial. Entrenar modelos en patrones lógicos puede ser una forma efectiva de mejorar su capacidad de razonamiento. Esto plantea la pregunta de si se podrían entrenar modelos en otros tipos de patrones, como los de diseño de software o teoría musical, para mejorar su desempeño en diferentes áreas.
En resumen, los modelos de IA entrenados en razonamiento pueden igualar o incluso superar a modelos más grandes y costosos, demostrando que no es necesario depender de grandes infraestructuras para obtener resultados satisfactorios. Explorar diferentes enfoques en el entrenamiento de modelos de IA puede llevar a avances significativos en diversas áreas.