¿La IA una amenaza existencial?

Algunas razones que me han hecho preocuparme, y por qué es tan difícil alinear a la IA.

Matías Hoyl
18 de abril de 2023

Esta semana

🧠 Una idea descifr[ada]: ¿La IA una amenaza existencial? ¿Por qué es tan difícil alinearla?

🧰 Dos herramientas de IA que pueden mejorar tu productividad

📰 Tres noticias relevantes de IA de la semana pasada

🧠 Una idea descifr[ada]: ¿La IA una amenaza existencial?

El 22 de marzo, varios pesos pesados de la industria de la inteligencia artificial, junto a otras 1000 personas, firmaron una carta que pedía una pausa de seis meses al desarrollo de los modelos de inteligencia artificial como ChatGPT. Su argumento principal es que la AGI (Inteligencia Artificial General, o “superinteligencia” como la llaman algunos) tiene el potencial de extinguir la raza humana.

Dentro de los firmantes estaba Elon Musk, quien: fundó OpenAI para desarrollar IA responsablemente, odió cuando la organización se volvió for-profit, firmó la carta para pausar el desarrollo y, ahora, está creando su propia empresa de IA para competirle a OpenAI.

Cuando leí la noticia mi primer instinto fue: “qué exagerados”. Si bien ChatGPT puede hacer muchas cosas sorprendentes, como salvar la vida de un perro, está lejos de poder dominar el mundo. Además, ¿qué puede hacer un pequeño pedazo de código encerrado en un computador para posicionarse como una amenaza existencial?

Pero cada vez que leía más sobre el tema, más me movía hacia el centro del “espectro del peligro existencial de la IA”.

Ahora quizás ustedes estén pensando “qué exagerado”.

Algo que hizo moverme un poco más al centro fue esta cita que encontré en internet:

Esto es un dato de una encuesta que se hizo a 738 investigadores de Machine Learning entre junio y agosto 2022. Y esto fue antes del lanzamiento de ChatGPT.

Se ve como una frase potente que podríamos copiar y pegar en LinkedIn para robar algunos likes, pero no nos movería más que esto. Pero como te sentirías si la frase hubiera sido esta:

Misma frase. Mismos números. Solo que un escenario que se siente más cercano.

¿Te subirías a ese avión? Probablemente no.

Cuando leí esto, me di cuenta de que probablemente hay muchas cosas que no estoy entendiendo bien sobre la IA y sus riesgos, por lo que me lancé a investigar.

Hay tres puntos importantes para entender este debate.

1. Es difícil entender que tan inteligente es la AGI

Como humanos, nos cuesta entender la magnitud de que alguien (o algo) sea 1000x veces más inteligente que nosotros. Por lo que estas tres analogías imperfectas, pero concretas, pueden ayudar:

El salto en inteligencia de un humano a la AGI es mucho más grande que el salto en inteligencia entre un chimpancé y un humano. Trata de ponerte en los zapatos (garras?) de un chimpancé. ¿Crees que exista alguna forma en que pueda “entender” lo infinitamente más inteligentes que somos nosotros que ellos? De la misma manera, es difícil para nosotros, los humanos, entender lo infinitamente más inteligente que sería una AGI.

Si creamos una “escalera de la inteligencia”, estamos por sobre el chimpancé, quien, a su vez, está por sobre la gallina, y ella sobre la hormiga. Teniendo en cuenta esas diferencias de “inteligencia” entre escalón y escalón, la AGI se va a encontrar varios cientos de escalones más arriba. Algo imposible de entender. (Créditos a Wait But Why por la ilustración)

Imagina que podemos meter en un computador a Albert Einstein (o alguien igual de inteligente). Ahora imagina que le damos la capacidad a Albert de que pueda replicarse todas las veces que quiera, y que puedan colaborar entre todos ellos de la forma más coordinada nunca antes vista. Y, lo más importante, imagina que el “tiempo” para los Alberts pasa 10.000 veces más rápido. Un año nuestro es solo una hora para él. ¿Qué tan inteligente es este sistema? Sigue siendo difícil entenderlo.
Imagina que tomas los planos para construir un aire acondicionado, viajas en el tiempo 1000 años atrás y se los pasas al científico más inteligente de la época. Su nivel de “inteligencia” está muy lejos de poder entender de que se trata esa máquina. Más aún, si lograras explicarle cómo funciona cada pieza y lograran armar el aire acondicionado, de todas formas hay concepciones de la ciencia, la naturaleza y la racionalidad, que le impedirían entender a ese científico porque esa máquina produce aire frío. Ahora multiplica esa brecha en inteligencia por 100.000. Eso es AGI.

Aun con estos ejemplos es difícil entender que tan inteligente es algo 1000x más inteligente que nosotros, lo que hace que naturalmente le “bajemos el perfil” al posible riesgo que esto pueda significar en nuestras vidas.

2. Las habilidades que estos modelos ganan en cada nueva iteración son impredecibles

En el mundo del desarrollo de software, cuando uno quiere mejorar una aplicación, la única forma de hacerlo es creando más y mejores funcionalidades, o quitando las que son deficientes. Es decir, mejoramos los programas con más programación.

El caso de los LLMs (Modelos de Lenguaje como ChatGPT) es un poco distinto. Su progreso no depende de que los programemos “mejor”, sino que los vamos “haciendo crecer”: los alimentamos con más datos o les damos más poder computacional para que generen más parámetros.

Los investigadores no saben, a priori, que va a ser capaz de hacer el nuevo modelo hasta que “sale del horno” (después de la fase de entrenamiento) y lo prueban.

A esto se le llama propiedades “emergentes”: habilidades que un sistema “pequeño” no tiene, pero que una agrupación de ellos sí. Como la hormiga. En sí misma no hace nada muy sorprendente, pero miles de ellas juntas tienen la propiedad emergente de poder construir túneles de inmensa complejidad. O nuestras neuronas. Cada una por separado no hace mucho más que transmitir electricidad, pero billones de ellas juntas tienen la propiedad emergente más fascinante: la conciencia.

De esta misma forma, cada parámetro de ChatGPT no hace nada más que almacenar un número, pero un trillón de ellos tienen la propiedad emergente de redactar un correo o escribir un poema.

Una “pequeña” red neuronal de 10.875 parámetros (las líneas de colores). Cada uno de ellos almacena un número y nada más. Pero todos juntos tienen la habilidad emergente de decirme cuál número estoy escribiendo. Créditos a brilliant.org

Cada nuevo ciclo de entrenamiento (GPT2, GPT3, GPT4) ha venido con más y mejores propiedades emergentes, sorprendiendo incluso a sus creadores.

Esto suena genial, pero en este caso tiene algunas implicancias que hay que tener en cuenta.

Las habilidades emergentes son impredecibles. No se puede predecir que tipo de habilidades va a tener una siguiente iteración del modelo simplemente extrapolando lo que ya sabemos.
No son intencionales. Las habilidades que surgen no necesariamente han sido especificadas por quien ha entrenado el modelo.
No sabemos lo que no sabemos. Como es imposible testear todas las posibles habilidades que ha desarrollado un nuevo modelo, puede suceder que existan habilidades que emergieron, y que no sepamos que existen.

El desarrollo de la AGI no va a ser evento puntual (”no existía ayer y hoy si existe”), sino que se va a dar de forma paulatina. Incluso hoy, hay personas que creen que GPT-4 es AGI. Probablemente, en cada nueva iteración, se van a ir desarrollando nuevas propiedades emergentes hasta que ya sea indiscutible que contamos con AGI. O peor aún, que en un nuevo ciclo se desarrolle la AGI y esta prefiera mantenerse oculta, y ni nos demos cuenta.

3. Es muy difícil alinear una AGI

La herramienta con la que contamos para evitar cualquier catástrofe se llama “Alineación”, que se define generalmente como “el proceso de garantizar que los sistemas de inteligencia artificial se comporten de manera que se alineen con los valores e intereses humanos”.

La forma más común de hacerlo es a través de una técnica llamada RLHF (Aprendizaje Reforzado con Feedback Humano, por sus siglas en inglés), en donde humanos participan del proceso de alineación entregando retroalimentación.

RLHF en simple. Ojo que no es la única forma de alineación, hay varias más.

Esta área de investigación está todavía en pañales, como nos recuerda el mismo líder de alineación de OpenAI, Jan Leike.

“Recordatorio de que alinear sistemas de IA más-inteligentes-que-humanos con los valores humanos es una investigación abierta”, o dicho de otra forma, “todavía no tenemos idea cómo hacerlo”. Qué alivio…

Hay un problema fundamental con la investigación reciente en alineación y que parece sacada de la ciencia ficción. Parte del éxito de RLHF es que uno “confía” en que la respuesta que nos dan los modelos son su “mejor esfuerzo”, es decir, la mejor respuesta que se alinea a los valores humanos según su entrenamiento actual.

El problema es que un sistema infinitamente más inteligente que nosotros podría “simular” que está alineado, sin que nos demos cuenta de que no es así. En la etapa de RLHF nos puede devolver respuestas “políticamente correctas” para dejarnos tranquilos, pero, quizás, sus reales intenciones son otras.

Y lo que más asusta a algunos investigadores es que el ritmo al que están creciendo las capacidades de los modelos actuales es mucho mayor al ritmo de avance en el área de alineación. Algo así:

Las capacidades de los modelos están creciendo mucho más rápido que el progreso en alineación. Adicionalmente, hay muchos incentivos económicos para seguir haciendo crecer la curva azul, y no muchos para hacer crecer la roja.

En fin, todas estas cosas me hicieron moverme hacia al centro del “espectro del peligro existencial de la IA”. Creo que hoy estoy por aquí:

Entiendo mejor cuáles son los riesgos de la AGI y porque es tan difícil alinearla.

Este debería ser uno de los temas más importantes del minuto, sobre todo teniendo en cuenta de que no es una pregunta de “si es que” se dará la AGI, sino que de “cuando”.

Se les preguntó a 356 expertos en IA “¿Cuándo las máquinas podrán hacer todas las tareas mejor y más barato que los humanos?”. El 90% dio una respuesta dentro de los próximos 100 años. La mitad de ellos dio una fecha antes del 2061. Se viene.

🧰 Dos herramientas de IA que pueden mejorar tu productividad

Esta app promete que puedes llegar a leer hasta cuatro veces más rápido. Lo hace combinando la lectura con la audición. Lees mientras escuchas lo que lees. Lo probé y no sé si es 4x, pero si se siente más rápido.
Si tienes que renovar tu currículum, esta herramienta usa ChatGPT para poner en “lenguaje CV” tus logros profesionales (“lenguaje CV” → hacer que suene más cool tu práctica de 2 meses donde solo estuviste haciendo fotocopias).

📰 Tres noticias relevantes de IA de la semana pasada

Investigadores de Stanford lanzan un estudio en donde utilizan IA generativa para simular una ciudad de 25 personajes a la Sims. Los personajes se comportan de forma MUY humana, incluso organizando una fiesta de San Valentín, con parejas y todo.
España pareciera que se va a sumar a Italia en bloquear a ChatGPT dentro de sus fronteras hasta que mejoren sus estándares de privacidad.
Amazon rompe el silencio en IA y lanza Bedrock, una plataforma que le da la posibilidad a desarrolladores de construir aplicaciones de IA generativa sobre modelos existentes. Además, lanzaron su propio modelo: Titan.