¡Es fin de año para Radar! Esperamos que todos nuestros lectores disfruten del receso. Aquí hay una predicción para 2025:
¿Es este el final del camino para mejorar el rendimiento del LLM mediante el escalado del número de parámetros o de los datos de entrenamiento? Nadie lo sabe todavía. Independientemente de la respuesta, esperamos que el interés se desplace hacia modelos más pequeños. Con mal augurio permitiremos que el modelo de 70 mil millones de parámetros se clasifique como “pequeño”, pero en realidad nos referimos a 20 mil millones de parámetros o menos. Estos modelos serán más fáciles de utilizar para las empresas que desarrollan aplicaciones habilitadas para IA: su ejecución no costará tanto y será más fácil de ajustar para aplicaciones especializadas. Muy pocas aplicaciones necesitarán un modelo de lenguaje completamente común.
Aprende más rápido. Profundiza más. Ve más allá.
Inteligencia artificial
El proyecto OpenGPT-X ha lanzado su modelo de lenguaje de última generación, Teuken-7B. Este modelo es importante porque admite 24 idiomas europeos y está diseñado para cumplir con la legislación europea. Está centrado en la privacidad.
OLMo 2 es un modelo de lenguaje pequeño, completamente entrenado y recientemente lanzado que viene en tamaños 7B y 13B. Ambas versiones cuentan con el mejor rendimiento de su clase.
NVIDIA ha anunciado un nuevo modelo generativo de conversión de texto a audio que puede crear tipos de sonidos completamente nuevos. Lo posicionan como una herramienta para los creadores.
Anthropic ha anunciado la vista previa para desarrolladores de su Protocolo de Contexto de Modelo. MCP permite a Claude Desktop comunicarse de forma segura con otros modelos. El servidor MCP limita los servicios expuestos a Claude, filtra las solicitudes de Claude y evita que los datos queden expuestos a través de Internet.
OpenScholar es un modelo de lenguaje de código abierto diseñado para apoyar la investigación científica. Es significativamente más preciso que GPT-4 y su funcionamiento es más eficiente. Utiliza RAG para acceder a una gran base de datos de artículos científicos de acceso abierto, lo que garantiza que las citas sean precisas.
Meta se ha asociado con VSParticle para crear nuevos materiales a partir de instrucciones generadas por IA. Se están centrando en materiales nanoporosos, que podrían ser catalizadores para descomponer el CO2 en productos útiles.
Perplexity ha introducido Compras dentro de la aplicación: los usuarios pueden buscar algo y luego hacer que Perplexity lo compre. Es el primer ejemplo ampliamente disponible de un agente de IA que cambia el estado del mundo físico.
Las investigaciones han demostrado que los modelos de IA generativa tienen sus propios estilos distintivos, no muy diferentes de los escritores humanos. El estudio estilístico puede identificar la fuente de un texto con el modelo que lo generó.
Mistral ha lanzado Pixtral, un modelo multimodal de parámetros 124B con un rendimiento a la par de las últimas versiones de otros modelos punteros.
Mozilla Voz global recopila muestras de voz en idiomas distintos al inglés estadounidense para ayudar a los desarrolladores a crear aplicaciones habilitadas para voz utilizando otros idiomas y dialectos. El proyecto es de código abierto.
Interpretabilidad mecanicista es un campo de investigación que utiliza IA para examinar lo que sucede dentro de cada capa de un modelo de lenguaje avanzado. Proporciona un camino hacia la interpretabilidad de la IA: la capacidad de comprender por qué una IA produce cualquier resultado que genera y, posiblemente, controlar ese resultado.
Los teléfonos Pixel de Google podrán monitorear conversaciones telefónicas para detectar estafas en tiempo real. El procesamiento se realiza íntegramente en el teléfono. La función está desactivada por defecto y se puede habilitar manualmente. Otra característica nueva detecta software espía, aplicaciones que recopilan datos sin el consentimiento o conocimiento del usuario.
El conjunto de datos Common Corpus para entrenar modelos de lenguaje grandes ahora está disponible en Hugging Face. El conjunto de datos contiene más de 2 billones de tokens tomados de fuentes con “licencias permitidas” y documenta la procedencia de cada fuente.
El modelo más nuevo de OpenAI, Orion, es un avance con respecto a GPT-4. ¿Pero es un avance significativo? Aparentemente no. ¿Y Orion es GPT-5?
FronteraMatemáticas es un nuevo punto de referencia de IA que se basa en problemas matemáticos muy difíciles. En este punto, ningún modelo de lenguaje obtiene una puntuación superior al 2% (Gemini 1.5 Pro).
Separar los instrumentos en una interpretación musical. Es difícil, pero es posible. Aquí hay una obra maestra sin IA de procesamiento de señal que intenta hacerlo. ¿Podemos volver a convertir una interpretación en partitura?
Standard Intelligence ha publicado dev-hercios, un nuevo modelo para síntesis de voz en tiempo real. Fue entrenado exclusivamente con audio y puede participar en conversaciones sin problemas sin el uso de texto.
Microsoft Magentic-One es un sistema agente generalista capaz de realizar tareas complejas. Magentic-One es de código abierto para investigadores y desarrolladores. Microsoft también ha lanzado AutoGenBench, una herramienta de código abierto para evaluar el rendimiento de sistemas agentes.
Forja de cadenas es una nueva herramienta visual para ingeniería rápida. Se puede utilizar para probar consultas con múltiples modelos y evaluar la calidad de la respuesta.
La IA fue utilizada para envejecer a Tom Hanks y Robin Wright en una nueva película que permitirá a los actores interpretar a sus personajes a lo largo de 60 años.
Anthropic ha lanzado Claudio 3.5 haikus, una nueva versión de su modelo más pequeño y rápido. La compañía afirma que su rendimiento en muchos puntos de referencia es superior al Claude 3 Opus, su modelo líder inicial. Anthropic también ha aumentado significativamente el precio por usar Haiku.
OpenAI ha introducido resultados previstos. Si el resultado de un mensaje se conoce de antemano (por ejemplo, si le pide a GPT que modifique un archivo), puede cargar el resultado esperado con el mensaje y GPT realizará los cambios necesarios. Los resultados previstos reducen la latencia; aparentemente no reducen el costo.
Afortunadamente, Psiquiatría de IA no tiene nada que ver con psicoanalizar a pacientes humanos. Es una herramienta forense para el estudio post mortem de fallos de IA que permite a los investigadores recuperar el modelo exacto que estaba en uso cuando ocurrió la falla.
SmolLM2 es un nuevo modelo de lenguaje pequeño, diseñado para ejecutarse en dispositivos. Viene en versiones de parámetros 135M, 360M y 1.7B. Los primeros informes dicen que su rendimiento es impresionante.
vllm es un entorno para brindar servicios a los modelos de lenguaje. Funciona con la mayoría de los modelos de lenguaje en Hugging Face. No solo pretende ser más simple, sino que también promete obtener importantes beneficios de rendimiento y costos mediante el uso de un almacén de tokens esencial para manejar eficientemente los tokens de entrada.
Gráficos de llamas de IA muestran a los desarrolladores qué están haciendo sus modelos en detalle. Si te preocupa el rendimiento o el uso de energía, son revolucionarios.
Google ha lanzado Esquema Jarvis como respuesta a la API de procesamiento de lenguaje de Anthropic. Jarvis se encarga de un navegador (presumiblemente Chrome) para realizar tareas en nombre del usuario.
La capacidad de NotebookLM para producir un podcast a partir de documentos es impresionante. ¿Pueden otros modelos hacer lo mismo? NotebookLlama es un proyecto de código abierto que genera podcasts utilizando los modelos Claridad.
Programación
bpftune es una utilidad que ajusta constantemente el rendimiento del sistema Linux utilizando datos de observabilidad de BPF. Tiene “cero configurables” (sin configuración) y gastos generales bajos, y es lo suficientemente inteligente como para mantenerse alejado de las configuraciones que ha realizado un administrador del sistema. Aparentemente no utiliza IA.
kyanos es una nueva herramienta de estudio de red de código abierto basada en eBPF. Debido a que tiene acceso a los datos de eBPF, puede filtrar paquetes por proceso o por servicio y puede proporcionar información precisa sobre la latencia de los paquetes.
VMware Fusion y VMware Workstation ahora son gratuitos para todos los usuarios, incluidos los usuarios comerciales. Broadcom continuará desarrollando los productos pero dejará de proporcionar soporte para la resolución de problemas a los usuarios.
código abierto es un conjunto de modelos de lenguaje para producir código. Es completamente de código abierto y los datos de entrenamiento, la canalización de datos, los resultados del entrenamiento y los protocolos de entrenamiento están disponibles junto con el código. Su objetivo es fomentar una mayor experimentación e investigación sobre la generación de código.
Mergiraf es una herramienta para resolver conflictos de fusión de Git mediante la comprensión de lenguajes de programación comunes (incluidos Java, Rust y Go) y formatos de archivo (incluidos JSON, HTML, XML y YAML). Los autores afirman que se pueden agregar nuevos idiomas fácilmente.
Se ha publicado una propuesta para C++ seguro, una nueva versión de C++ que incorporará funciones de seguridad de la memoria.
Esclavitud de datos es una biblioteca de Python para trabajar con datos estructurados en el contexto de la inteligencia artificial. Está diseñado para crear canalizaciones de datos y manipular datos a escala.
¿Sin código en GitHub? Spark de GitHub permite a los usuarios crear pequeñas “microaplicaciones” o chispas, sin escribir ningún código. Lo que puede ser más importante que la falta de código es la falta de implementación; las chispas se implementan en la infraestructura de GitHub y se accede a ellas a través de la web.
Usar Git para hacer una copia de seguridad del directorio /etc de Linux es obvio, una vez que lo piensas.
Ráctor es un framework Actor para Rust, lo que significa que puedes programar en Rust como si fuera Erlang. Estoy impresionado por el “Hola mundo” más grande y complicado que haya visto.
Kubernetes es una plataforma para construir plataformas. Y las plataformas deben servir tanto a los equipos de desarrollo como a los de operaciones.
GitHub Copilot ahora puede usar modelos distintos a GPT. Los usuarios pueden optar por Sonnet o Gemini sobre diferentes modelos de OpenAI. Otras características nuevas incluyen revisión cibernética de código, un asistente de modernización para Java, edición de múltiples archivos y algo llamado Spark que suena algo similar a los Artefactos de Claude.
¿Es seguro el código generado por IA? No. Es poco probable que dejemos de usar herramientas como Copilot y Cursor, pero debemos comprender el desafío: los modelos de IA se entrenaron con código disponible públicamente. La mayoría del código disponible públicamente tiene vulnerabilidades. Estas se reflejarán en la producción de la IA.
¿Java necesita otra herramienta de compilación? Mill está listo para hacerse cargo. Mill afirma ser entre 5 y 10 veces más rápido que Maven, y entre 2 y 4 veces más rápido que Gradle.
Anfión es un conjunto de herramientas de código abierto para producir todo tipo de audio, incluida la música y el habla.
Seguridad
Robots
Grasso es un Androide de basura impulsado por IA: un robot móvil hecho de basura. Utiliza Llava-v1.6-mistral-7B para comprender la información visual de su cámara y Mistral-7B para indicaciones y respuestas. (No comprende ni genera habla).
Meta ha lanzado varios nuevos proyectos para percepción táctil, un aspecto crucial en la construcción de robots impulsados por IA que puedan interactuar con el mundo real. Digit 360 es un dedo digital táctil, Sparsh es un codificador de datos táctiles y Digit Plexus es una plataforma para construir manos artificiales.
Ata dos micro robots poco inteligentes (robots de cerdas) juntos con una correa corta y flexible y adquieren la capacidad de resolver problemas sencillos.
Web
¿Quieres ejecutar Linux en tu navegador? Puedes. WebVM es una máquina virtual que se ejecuta en un navegador. Puede que Linux en el navegador no sea tan interesante; es más importante como otro ejemplo de las habilidades de Wasm.
Realidad virtual
¿Quieres hablar con Rosa Parks o Abraham Lincoln? Prueba ACTIVAR X, una herramienta que combina realidad virtual e inteligencia artificial generativa. Si esto es realmente historia es una pregunta interesante; el autobús del ejemplo de Rosa Parks parece un autobús europeo actual, no un autobús estadounidense de los años cincuenta.
Computación cuántica
DeepMind de Google ha desarrollado alfaqubit, un sistema de IA que detecta errores en sistemas cuánticos. La corrección de errores ha logrado grandes avances durante el último año, pero sigue siendo un problema importante en la computación cuántica.