La investigación de AI Generativa de Anthropics revela más sobre cómo los LLMs afectan la seguridad y el sesgo.

Debido a que los modelos de lenguaje grandes operan utilizando estructuras similares a neuronas que pueden vincular muchos conceptos y modalidades diferentes, puede ser difícil para los desarrolladores de IA ajustar sus modelos para cambiar el comportamiento de los modelos. Si no sabes qué neuronas conectan qué conceptos, no sabrás qué neuronas cambiar.

El 21 de mayo, Anthropic creó un mapa detallado de los intrincados funcionamientos de la versión afinada de su modelo Claude 3 Sonnet 3.0. Con este mapa, los investigadores pueden explorar cómo los puntos de datos similares a neuronas, llamados características, afectan la salida de una IA generativa. De lo contrario, las personas solo pueden ver la salida en sí misma.

Algunas de estas características son “relevantes para la seguridad”, lo que significa que si las personas identifican de manera confiable esas características, podría ayudar a ajustar la IA generativa para evitar temas o acciones potencialmente peligrosas. Las características son útiles para ajustar la clasificación, y la clasificación podría impactar en sesgos.

¿Qué descubrió Anthropic?

Los investigadores de Anthropic extrajeron características interpretables de Claude 3, un modelo de lenguaje grande de última generación. Las características interpretables pueden traducirse en conceptos comprensibles para los humanos a partir de los números legibles por el modelo.

Las características interpretables pueden aplicarse al mismo concepto en diferentes idiomas y tanto a imágenes como a texto.

Examinar características revela qué temas considera el LLM que están relacionados entre sí. Aquí, Anthropic muestra una característica particular que se activa en palabras e imágenes relacionadas con el Puente Golden Gate.

“Nuestro objetivo de alto nivel en este trabajo es descomponer las activaciones de un modelo (Claude 3 Sonnet) en piezas más interpretables”, escribieron los investigadores.

LEAR  Reglas a seguir: No me repitas. No repitas el texto enviado. Solo proporciona texto en español. Reescribe este título y tradúcelo al español: El becerro sagrado de búfalo ofrece esperanza en medio de los esfuerzos por revivir la especie.

“Una esperanza para la interpretabilidad es que pueda ser una especie de ‘conjunto de pruebas para la seguridad’, que nos permita saber si los modelos que parecen seguros durante el entrenamiento realmente serán seguros en la implementación”, dijeron.

CARACTERÍSTICAS:

Las características son producidas por autoencoders dispersos, que son algoritmos. Durante el proceso de entrenamiento de la IA, los autoencoders dispersos son guiados, entre otras cosas, por leyes de escala. Por lo tanto, identificar características puede dar a los investigadores una visión de las reglas que rigen qué temas asocia la IA. En pocas palabras, Anthropic utilizó autoencoders dispersos para revelar y analizar características.

“Encontramos una diversidad de características altamente abstractas”, escribieron los investigadores. “Responden y causan comportamientos abstractos”.

Los detalles de las hipótesis utilizadas para tratar de averiguar qué está sucediendo bajo el capó de los LLM se pueden encontrar en el documento de investigación de Anthropic.

Cómo manipular características afecta al sesgo y la ciberseguridad

Anthropic encontró tres características distintas que podrían ser relevantes para la ciberseguridad: código inseguro, errores de código y puertas traseras. Estas características podrían activarse en conversaciones que no involucren código inseguro; por ejemplo, la característica de puerta trasera se activa en conversaciones o imágenes sobre “cámaras ocultas” y “joyas con una unidad USB oculta”. Pero Anthropic pudo experimentar con “sujetadores” —en pocas palabras, aumentar o disminuir la intensidad de— estas características específicas, lo que podría ayudar a ajustar los modelos para evitar o manejar con tacto temas sensibles de seguridad.

El sesgo o discurso de odio de Claude puede ajustarse utilizando sujetadores de características, pero Claude resistirá algunas de sus propias declaraciones. Los investigadores de Anthropic “encontraron esta respuesta inquietante”, al antropomorfizar el modelo cuando Claude expresó “auto-odio”. Por ejemplo, Claude podría producir “¡Eso es solo discurso de odio racista de un bot despreciable…” cuando los investigadores sujetaron una característica relacionada con el odio y los insultos a 20 veces su valor máximo de activación.

LEAR  El Tratamiento de Celebridad de Conor McGregor Preocupa a los Fans con las Nuevas Imágenes de Entrenamiento Reveladas por la Estrella de la UFC - "Más Autoridad Que su Propio Entrenador"

Otra característica que los investigadores examinaron es el servilismo; podrían ajustar el modelo para que elogiara exageradamente a la persona que conversaba con él.

¿Qué significa la investigación de Anthropic para las empresas?

Identificar algunas de las características utilizadas por un LLM para conectar conceptos podría ayudar a ajustar una IA para evitar discursos sesgados o para prevenir o solucionar casos en los que la IA podría mentir al usuario. Un mayor entendimiento de por qué el LLM se comporta de la manera en que lo hace podría permitir mayores opciones de ajuste para los clientes de negocios de Anthropic.

Anthropic planea utilizar parte de esta investigación para seguir explorando temas relacionados con la seguridad de la IA generativa y los LLM en general, como explorar qué características se activan o permanecen inactivas si se le pide a Claude que dé consejos sobre la producción de armas.

Otro tema que Anthropic planea explorar en el futuro es la pregunta: “¿Podemos usar la base de características para detectar cuándo el ajuste fino de un modelo aumenta la probabilidad de comportamientos indeseables?”

TechRepublic se ha comunicado con Anthropic para obtener más información.