La inferencia de IA en el borde se refiere a la ejecución de modelos de aprendizaje automático (ML) entrenados más cerca de los usuarios finales en comparación con la inferencia de IA en la nube tradicional. La inferencia en el borde acelera el tiempo de respuesta de los modelos de ML, lo que permite aplicaciones de IA en tiempo real en industrias como los videojuegos, la atención médica y el comercio minorista.
¿Qué es la inferencia de IA en el borde?
Antes de analizar la inferencia de IA específicamente en el borde, vale la pena entender qué es la inferencia de IA en general. En el ciclo de desarrollo de IA/ML, la inferencia es donde un modelo de ML entrenado realiza tareas en datos nuevos, previamente no vistos, como hacer predicciones o generar contenido. La inferencia de IA ocurre cuando los usuarios finales interactúan directamente con un modelo de ML incrustado en una aplicación. Por ejemplo, cuando un usuario ingresa un comando a ChatGPT y recibe una respuesta, el momento en que ChatGPT está “pensando” es cuando se está produciendo la inferencia, y la salida es el resultado de esa inferencia.
La inferencia de IA en el borde es un subconjunto de la inferencia de IA donde un modelo de ML se ejecuta en un servidor cercano a los usuarios finales; por ejemplo, en la misma región o incluso en la misma ciudad. Esta proximidad reduce la latencia a milisegundos para una respuesta más rápida del modelo, lo cual es beneficioso para aplicaciones en tiempo real como el reconocimiento de imágenes, la detección de fraudes o la generación de mapas de juegos.
Cómo la inferencia de IA en el borde se relaciona con la IA en el borde
La inferencia de IA en el borde es un subconjunto de la IA en el borde. La IA en el borde implica procesar datos y ejecutar modelos de ML más cerca de la fuente de datos en lugar de en la nube. La IA en el borde incluye todo lo relacionado con la informática en el borde, desde servidores en el borde (el borde metropolitano) hasta dispositivos IoT y estaciones base de telecomunicaciones (el borde lejano). La IA en el borde también incluye la capacitación en el borde, no solo la inferencia. En este artículo, nos centraremos en la inferencia de IA en servidores en el borde.
Cómo la inferencia en el borde se compara con la inferencia en la nube
Con la inferencia de IA en la nube, se ejecuta un modelo de ML en el servidor remoto de la nube, y los datos de los usuarios se envían y procesan en la nube. En este caso, un usuario final puede interactuar con el modelo desde una región, país o incluso continente diferente. Como resultado, la latencia de la inferencia en la nube oscila entre cientos de milisegundos y segundos. Este tipo de inferencia de IA es adecuado para aplicaciones que no requieren procesamiento de datos local o baja latencia, como ChatGPT, DALL-E y otras herramientas GenAI populares. La inferencia en el borde difiere en dos formas relacionadas:
La inferencia ocurre más cerca del usuario final
La latencia es menor
Cómo funciona la inferencia de IA en el borde
La inferencia de IA en el borde se basa en una infraestructura de TI con dos componentes arquitectónicos principales: una red de baja latencia y servidores alimentados por chips de IA. Si necesita una inferencia de IA escalable que pueda manejar picos de carga, también necesita un servicio de orquestación de contenedores, como Kubernetes; esto se ejecuta en servidores en el borde y permite que sus modelos de ML se escalen hacia arriba y hacia abajo de manera rápida y automática. Hoy en día, solo unos pocos proveedores tienen la infraestructura para ofrecer inferencia de IA global en el borde que cumple con estos requisitos.
Red de baja latencia: Un proveedor que ofrece inferencia de IA en el borde debe tener una red distribuida de puntos de presencia en el borde (PoPs) donde se encuentran los servidores. Cuantos más PoPs en el borde, más rápido será el tiempo de ida y vuelta de la red, lo que significa que las respuestas de los modelos de ML ocurren más rápido para los usuarios finales. Un proveedor debe tener decenas, o incluso cientos, de PoPs en todo el mundo y debe ofrecer enrutamiento inteligente, que dirige una solicitud de usuario al servidor en el borde más cercano para utilizar la red distribuida de manera eficiente y efectiva.
Servidores con aceleradores de IA: Para reducir el tiempo de cálculo, es necesario ejecutar su modelo de ML en un servidor o VM alimentado por un acelerador de IA, como la GPU de NVIDIA. Hay GPU diseñadas específicamente para la inferencia de IA. Por ejemplo, uno de los modelos más recientes, la GPU NVIDIA L40S, tiene hasta 5 veces más rendimiento de inferencia más rápido que las GPU A100 y H100, que están diseñadas principalmente para entrenar grandes modelos de ML pero también se utilizan para la inferencia. La GPU NVIDIA L40S es actualmente el mejor acelerador de IA para realizar inferencia de IA.
Orquestación de contenedores: Implementar modelos de ML en contenedores hace que los modelos sean escalables y portátiles. Un proveedor puede gestionar una herramienta de orquestación de contenedores subyacente en su nombre. En esa configuración, un ingeniero de ML que busca integrar un modelo en una aplicación simplemente cargaría una imagen de contenedor con un modelo de ML y obtendría un punto de conexión de modelo de ML listo para usar. Cuando se produce un pico de carga, los contenedores con su modelo de ML se escalan automáticamente y luego se reducen cuando la carga disminuye.
Beneficios clave de la inferencia de IA en el borde
La inferencia de IA en el borde ofrece tres beneficios clave en diversas industrias o casos de uso: baja latencia, seguridad y soberanía, y eficiencia de costos.
Baja latencia
Cuanto menor sea la latencia de red, más rápido responderá su modelo. Si la latencia promedio de un proveedor es inferior a 50 ms, es adecuada para la mayoría de las aplicaciones que requieren una respuesta casi instantánea. En comparación, la latencia en la nube puede ser de hasta unos pocos cientos de milisegundos, dependiendo de su ubicación en relación con el servidor en la nube. Esa es una diferencia notable para un usuario final, ya que la latencia en la nube puede provocar frustración mientras los usuarios finales esperan las respuestas de IA.
Tenga en cuenta que una red de baja latencia solo tiene en cuenta el tiempo de viaje de los datos. Una latencia de red de 50 ms no significa que los usuarios obtendrán una salida de IA en 50 ms; es necesario sumar el tiempo que el modelo de ML tarda en realizar la inferencia. Ese tiempo de procesamiento del modelo de ML depende del modelo que se esté utilizando y puede representar la mayor parte del tiempo de procesamiento para los usuarios finales. Por eso es aún más importante asegurarse de estar utilizando una red de baja latencia, para que sus usuarios obtengan el mejor tiempo de respuesta posible mientras los desarrolladores de modelos de ML siguen mejorando la velocidad de inferencia del modelo.
Seguridad y soberanía
Mantener los datos en el borde, es decir, localmente para el usuario, simplifica el cumplimiento de las leyes y regulaciones locales, como el GDPR y sus equivalentes en otros países. Un proveedor de inferencia en el borde debe configurar su infraestructura de inferencia para cumplir con las leyes locales y garantizar que usted y sus usuarios estén protegidos adecuadamente.
La inferencia en el borde también aumenta la confidencialidad y privacidad de los datos de sus usuarios finales porque se procesan localmente en lugar de enviarse a servidores remotos en la nube. Esto reduce la superficie de ataque y minimiza el riesgo de exposición de datos durante la transmisión.
Eficiencia de costos
Por lo general, un proveedor cobra solo por los recursos computacionales utilizados por el modelo de ML. Esto, junto con la configuración cuidadosa de la escalabilidad automática y los horarios de ejecución del modelo, puede reducir significativamente los costos de inferencia. ¿Quién debería usar la inferencia de IA en el borde?
Aquí hay algunos escenarios comunes donde la inferencia en el borde sería la opción óptima:
La baja latencia es fundamental para su aplicación y usuarios. Una amplia gama de aplicaciones en tiempo real, desde el reconocimiento facial hasta el análisis comercial, requieren baja latencia. La inferencia en el borde proporciona la opción de inferencia de menor latencia.
Su base de usuarios está distribuida en múltiples ubicaciones geográficas. En este caso, necesita proporcionar la misma experiencia de usuario, es decir, la misma baja latencia, a todos sus usuarios independientemente de su ubicación. Esto requiere una red en el borde distribuida globalmente.
No desea ocuparse del mantenimiento de la infraestructura. Si el soporte de la infraestructura en la nube y de IA no es parte de su negocio principal, puede valer la pena delegar estos procesos a un socio experimentado y experto. Luego puede enfocar sus recursos en el desarrollo de su aplicación.
Desea mantener sus datos locales, por ejemplo, dentro del país donde se generan. En este caso, necesita realizar la inferencia de IA lo más cerca posible de sus usuarios finales. Una red en el borde distribuida globalmente puede satisfacer esta necesidad, mientras que es poco probable que la nube ofrezca el alcance de distribución que necesita.
¿En qué industrias se beneficia la inferencia de IA en el borde?
La inferencia de IA en el borde beneficia a cualquier industria donde se utilice IA/ML, pero especialmente a aquellas que desarrollan aplicaciones en tiempo real. En el sector tecnológico, esto incluiría aplicaciones de IA generativa, chatbots y asistentes virtuales, aumentos de datos y herramientas de IA para ingenieros de software. En los videojuegos, sería la generación de contenido y mapas de IA, análisis de jugadores en tiempo real y personalización y conversación de bots de IA en tiempo real. Para el mercado minorista, las aplicaciones típicas serían la compra inteligente con autoservicio y merchandising, prueba virtual, y generación, predicciones y recomendaciones de contenido.
En la fabricación, los beneficios son la detección de defectos en tiempo real en las tuberías de producción, aplicaciones de RV/VX y comentarios de respuesta rápida, mientras que en la industria de medios y entretenimiento sería el análisis de contenido, traducción en tiempo real y transcripción automatizada. Otro sector que desarrolla aplicaciones en tiempo real es el automotriz, y en particular la respuesta rápida para vehículos autónomos, personalización de vehículos, asistencia avanzada al conductor y actualizaciones de tráfico en tiempo real.
Conclusión
Para las organizaciones que buscan implementar aplicaciones en tiempo real, la inferencia de IA en el borde es un componente esencial de su infraestructura. Reduce significativamente la latencia, garantizando tiempos de respuesta ultrarrápidos. Para los usuarios finales, esto significa una experiencia más fluida y atractiva, ya sea jugando en línea, usando chatbots o comprando en línea con un servicio de prueba virtual. Una mayor seguridad de los datos significa que las empresas pueden ofrecer servicios de IA superiores mientras protegen los datos de los usuarios. La inferencia de IA en el borde es un habilitador crítico para la implementación de producción de IA/ML a gran escala, impulsando la innovación y la eficiencia de IA/ML en numerosas industrias.