SambaNova alcanza 198 tokens por segundo en el DeepSeek-R1 671B completo, no destilado, con solo 16 chips RDU SN40L.

SambaNova ejecuta DeepSeek-R1 a 198 tokens/seg usando 16 chips personalizados
El chip SN40L RDU es reportadamente 3X más rápido, 5X más eficiente que las GPU
5X aumento de velocidad prometido pronto, con 100X capacidad para fin de año en la nube

La startup de IA china DeepSeek ha hecho rápidamente un nombre para sí misma en 2025, con su modelo de lenguaje de código abierto a gran escala R1, construido para tareas avanzadas de razonamiento, mostrando un rendimiento similar a los principales modelos de la industria, siendo más eficiente en costos.

SambaNova Systems, una startup de IA fundada en 2017 por expertos de Sun/Oracle y la Universidad de Stanford, ha anunciado lo que afirma ser la implementación más rápida del modelo LLM DeepSeek-R1 671B hasta la fecha.

La compañía dice que ha logrado 198 tokens por segundo, por usuario, usando solo 16 chips personalizados, reemplazando los 40 racks de 320 Nvidia GPUs que normalmente se requerirían.

“Alimentado por el chip SN40L RDU, SambaNova es la plataforma más rápida ejecutando DeepSeek”, dijo Rodrigo Liang, CEO y cofundador de SambaNova. “Esto aumentará a 5X más rápido que la velocidad de la GPU más reciente en un solo rack, y para fin de año, ofreceremos una capacidad de 100X para DeepSeek-R1.”

Mientras que las GPUs de Nvidia tradicionalmente han alimentado cargas de trabajo de IA grandes, SambaNova argumenta que su arquitectura de flujo de datos reconfigurable ofrece una solución más eficiente. La compañía afirma que su hardware ofrece tres veces la velocidad y cinco veces la eficiencia de las principales GPUs, manteniendo el pleno poder de razonamiento de DeepSeek-R1.

LEAR Potenciales compradores de capital privado buscan cerrar la adquisición del grupo de entrega de paquetes Evri por £2 mil millones | Noticias de negocios

“DeepSeek-R1 es uno de los modelos de IA de vanguardia más avanzados disponibles, pero su potencial completo ha sido limitado por la ineficiencia de las GPUs”, dijo Liang. “Eso cambia hoy. Estamos trayendo el próximo gran avance – colapsando los costos de inferencia y reduciendo los requisitos de hardware de 40 racks a solo uno – para ofrecer DeepSeek-R1 a las velocidades más rápidas, de manera eficiente.”

George Cameron, cofundador de la firma de evaluación de IA Artificial Analysis, dijo que su compañía había “evaluado de manera independiente la implementación en la nube de SambaNova del modelo de Expertos Mezclados DeepSeek-R1 de 671 mil millones de parámetros a más de 195 tokens/s de salida, la velocidad de salida más rápida que hemos medido para DeepSeek-R1. Las altas velocidades de salida son particularmente importantes para los modelos de razonamiento, ya que estos modelos utilizan tokens de salida de razonamiento para mejorar la calidad de sus respuestas. Las altas velocidades de salida de SambaNova apoyarán el uso de modelos de razonamiento en casos de uso sensibles a la latencia.”

Inscríbete en el boletín de TechRadar Pro para obtener todas las noticias principales, opiniones, características y orientación que tu negocio necesita para tener éxito!

DeepSeek-R1 671B está ahora disponible en SambaNova Cloud, con acceso API ofrecido a usuarios seleccionados. La compañía está escalando rápidamente la capacidad, y dice que espera alcanzar 20,000 tokens por segundo de rendimiento total del rack “en un futuro cercano”.