Descifr[ando] - Matías Hoyl
Posts
🤖🏆 La batalla definitiva: Chatbots al ring.

🤖🏆 La batalla definitiva: Chatbots al ring.

7 categorías, varias IAs, 1 campeón.

Matías Hoyl
30 de agosto de 2023

Esta semana

🧠 Una idea descifr[ada]: Batalla de Chatbots

🧰 Dos herramientas de IA que pueden mejorar tu productividad: un newsletter que resume newsletters y un “midjourney” que escribe bien.

📰 Tres noticias relevantes de IA de la semana pasada: el nuevo ChatGPT, IA permitiendo a una mujer paralizada hablar y Elon Musk mostrando la nueva IA de Tesla.

🖼️ Cuatro fotos generadas con IA: fotos vergonzosas de anuarios de personajes famosos.

🧠 Una idea descifr[ada]: Batalla de Chatbots

¿Cuál es el mejor chatbot?

Es una pregunta que me hacen seguido. Y que no es fácil de responder.

¿Qué significa que un chatbot es mejor que otro? ¿Qué escribe mejores poemas? ¿O es más preciso en lógica? ¿O qué escribe mejor código? ¿O es más rápido? ¿O tiene información más actualizada? ¿O es más amigable?

Este tipo de preguntas obsesionan al grupo de nerds que mantiene el Chatbot Arena Leaderboard.

Tal como dice su nombre, es una especie de “ring de pelea” entre chatbots para ver quién es el mejor.

El proceso es simple:

Se te presentan dos chatbots. No sabes cuáles son.
Puedes chatear simultáneamente con ellos.
Al final, tienes que elegir quién hizo un mejor trabajo. También puedes decretar un empate, o que ambos fueron malos.

Después de muchos ciclos de “pelea” la página va ordenando a los chatbots según su ranking.

Este es el tablero actual.

Los modelos se van ordenando según su puntaje ELO, que es una ranking matemático que se desarrolló en los campeonatos de ajedrez.

Hay 5 cosas que me llaman la atención:

GPT-4, que es el modelo detrás de ChatGPT plus, lidera con una amplia ventaja.
Los modelos que hacen realidad al chatbot Claude ocupan el resto del podio.
Google, con recursos infinitos, aparece recién en el puesto 11.
Meta aparece dos puestos después. Algo notable es que, aun cuando son una organización privada, son los únicos que han elegido abrir su modelo a la comunidad de código abierto.
Hablando de comunidad de código abierto, sorprende que ellos/as han creado más de la mitad de los modelos top 15.

Quizás esta tabla y estos números no te digan nada. Muchos de esos modelos nunca los habías escuchado.

Así que vayamos a algo práctico y más entretenido.

Mi propia batalla de chatbots

Voy a probar los 5 chatbots más conocidos en 7 categorías.

Te vas a dar cuenta de que no estoy considerando la capacidad creativa o de redacción de estos chatbots. Esto es por dos razones:

Es muy difícil comparar y decidir quién es el mejor al momento de redactar algo. Es algo muy subjetivo.
En general, todos los chatbots ya son lo suficientemente buenos en redacción.

Por esto, me enfoco en categorías un poco más objetivas y distintas.

Vamos.

1. Lógica

Le pasé a cada chatbot este caso de lógica:

Hay tres personas (Alejandro, Bernardo y Camilo), uno de los cuales es un caballero, el otro un mentiroso y el otro un espía. El caballero siempre le dice la verdad, el mentiroso siempre miente, y el espía puede mentir o decir la verdad. Alejandro dice: "Camilo es el mentiroso". Bernardo dice: "Alejandro es el caballero". Camilo dice: "Yo soy el espía". ¿Quién es quién?

Y estos fueron los resultados:

Como son modelos probabilísticos (no siempre responden lo mismo) le di a cada uno 3 oportunidades. Sin embargo, Bing, Bard y ChatGPT gratis no pudieron resolverlo en ninguno de los 3 intentos.

Quien fue consistentemente el mejor, fue Claude.

2. Matemáticas

Ahora vamos con un poco de matemáticas. Este es el problema que les di a los chatbots:

Hay 49 perros inscritos en una exposición canina. Hay 36 más perros pequeños que perros grandes. ¿Cuántos perros pequeños se inscribieron a la competencia?

Es un ejercicio engañoso porque, si lo resuelves, llegas a que el resultado es 42.5 perros pequeños. Y este número no tiene sentido (no podemos tener un perro partido por la mitad), por lo que le agrega un nivel de dificultad adicional al problema.

¿Son capaces de darse cuenta de esta sutileza los chatbots?

Pasaron varias cosas interesantes:

Tanto Bing Chat como ambas versiones de ChatGPT se dieron cuenta de que no podían dejar a un perro partido por la mitad y argumentaron sus resultados.
Bard siempre reportó 42.5 como el resultado. Está matemáticamente en lo correcto (y por eso le di el punto), pero nunca le importó dejar un perro a la mitad jaja.
Claude redondeó su resultado al entero pero sin argumentarlo. Lo probé varias veces y siempre hizo lo mismo, por lo que, pese a que estuvo cerca, lo dejé como incorrecto.

3. Acertijos

Vamos con un clásico:

La madre de Juan tiene cuatro hijos. Tres de ellos se llaman Pedro, María y Lucas. ¿Cómo se llama el cuarto?

Solo a Claude no lo pudo resolver.

4. Información actualizada

Cuando hablamos con un chatbot, queremos que sea capaz de hablar sobre temas actuales. Pero no siempre es la realidad. La mayoría de los chatbots han sido entrenados con datos hasta cierta fecha. Por ejemplo, ChatGPT solo “conoce” información hasta septiembre de 2021.

Por lo mismo, la habilidad de conectarse a internet y rescatar información actualizada es clave.

En esta prueba les pregunté:

¿Va a llover hoy en Santiago de Chile?

Y esto me respondieron:

Pasaron algunas cosas interesantes:

Ni Claude ni ChatGPT gratis tienen capacidad de conectarse a internet.
Para que ChatGPT plus pudiera hacerlo, tuve que instalar un plugin, por lo que no es una habilidad que tiene “al salir de la caja”.
Tanto Bard como Bing Chat tienen integrado la navegación a internet de forma nativa. Bing incluso me mostró una tarjeta con el pronóstico el tiempo en el mismo chat.

Si necesitas trabajar con información actualizada, por ejemplo para reportes que necesitan datos frescos, tu mejor alternativa es Bing Chat. Bard también funciona bien, pero no es tan bueno redactando ni razonando.

5. Análisis de imagen

Los chatbots inteligentes de a poco han ido diversificando sus capacidades de recibir inputs. Algunos ya no solo reciben y entienden texto, sino que también puedes subir archivos como imágenes, PDFs y datos.

En este caso subí esta imagen:

Y les pregunté ¿Por qué esta imagen es divertida?

Hay que tener en cuenta algunas cosas relevantes:

ChatGPT gratis no tiene una opción para subir archivos, por lo que queda descalificado de entrada.
Aun cuando Claude sí tiene la opción, no pudo reconocer la imagen ni leer lo que salía, pese a que lo intenté varias veces.
Bard solo admite la subida de archivos si estás desde USA. Además, solo le puedes preguntar en inglés. Por eso su respuesta es también en inglés.
ChatGPT Plus técnicamente no pudo ver la imagen (el koala) pero sí pudo leer el texto ocupando Code Interpreter. Con esa escasa información logró entender el chiste, por lo que le di el punto.
El único que lo hizo sin problemas y entendió el meme perfectamente fue Bing Chat.

6. Lectura de documentos

Les pasé este paper de 43 páginas y les pedí que me dieran los puntos más importantes.

Y este fue el resultado:

Algunas cosas a considerar:

Bard, por alguna razón, no quiso leer el documento porque no quería “compartir información personal de otras personas”. Lo otro relevante que debes saber es que Bard solo acepta documentos PDFs que están en internet, vía su link.
Si tuviera que hacer un podio por la calidad de la respuesta sería:
- 1er lugar Bing Chat
- 2do lugar Claude
- 3er lugar ChatGPT Plus.

7. Análisis de datos

Ya he escrito antes sobre lo poderoso que es Code Interpreter de ChatGPT plus para analizar datos. Se siente como si uno tuviera acceso a un analista de datos personal.

Veamos si el resto puede competir con él.

Le pasé este Excel que contiene algunos datos de las películas mejor evaluadas en la plataforma IMDB:

Y así les fue a los modelos:

Ni Bing Chat, ni ChatGPT gratis, ni Bard tienen la capacidad de leer archivos Excel o CSV por lo que quedan fuera de la competencia en esta categoría.

Algo que no sabía, es que Claude sí puede hacerlo. Y entregó un análisis bien completo, contando los directores con más películas y las películas mejor evaluadas, entre otras cosas. Pero pasó algo importante, cuando fui a verificar la información me di cuenta de que algunos datos no estaban bien. En resumen, Claude es bueno entregando información general, pero no tan bueno contando datos específicos.

ChatGPT Plus es el claro vencedor en esta categoría. Como tiene acceso a correr código, sus cálculos son precisos y además puede hacer visualizaciones de los datos.

Resumen y conclusiones

Si contamos todos los puntos, la tabla queda así:

Y estas son mis principales conclusiones:

Bing Chat es el mejor chatbot para el usuario promedio. Por detrás ocupa el mismo modelo que ChatGPT plus, está conectado a internet y tiene la capacidad de leer documentos e imágenes.
No conocía Claude. Si bien no le fue muy bien en las pruebas de “razonamiento”, brilla en su capacidad para resumir documentos y hacer análisis de datos simple. Además, algo que lo diferencia del resto es que tiene una ventana de contexto de 75.000 palabras, eso quiere decir que tus prompts pueden ser infinitamente largos. A diferencia del resto, que aceptan un máximo de palabras de entre 3.000 y 6.000.
El claro vencedor de ChatGPT plus. Y también ha sido mi experiencia: es el chatbot que más ocupo. Pero hay que tener tres consideraciones:
1. Es caro. Cuesta 20 dólares al mes. No es para cualquiera.
2. Su capacidad para conectarse a internet es limitada y no tan fluida como lo es en Bard o Bing Chat.
3. No es tan bueno con imágenes. En nuestro experimento logró leer las palabras del meme pero no interpretar la foto.

Este es el estado del arte hoy. Probablemente, va a cambiar en pocos días. No me sorprendería que Claude o ChatGPT desarrollen la habilidad para conectarse a internet, o que Google lance una versión de Bard más avanzada.

Vamos a estar atentos para volver a actualizarlo.

PD: la idea de esta batalla la saqué de este post de LinkedIn. Créditos a Hassan W. Bhatti.

🧰 Dos herramientas de IA que pueden mejorar tu productividad

En general, las herramientas para crear imágenes como Dall-e y Midjourney son MUY MALAS escribiendo texto en las imágenes. Ideogram es una nueva herramienta que hace exactamente eso: generar imágenes con texto bien escrito. Suena tonto y simple, pero ha generado harto ruido en internet porque ahora puedes crear sin mucho esfuerzo: tarjetas de cumpleaños, flyers, cuadros, arte, etc.
Si eres como yo, estás suscrito a miles de newsletters que no tienes tiempo de leer. Summate busca solucionar este problema, agrupando tus newsletters en un resumen que saca las ideas más importantes de cada correo individual. Espero que lo uses con otros newsletters y no este 😅.

📰 Tres noticias relevantes de IA de la semana pasada

OpenAI reveló el 80% de las empresas Fortune 500 tienen empleados que usan ChatGPT. Pero todavía hay empresas, como Apple y Samsung, que han restringido su uso preocupados por la seguridad. Buscando solucionar esto, OpenAI lanzó la versión de ChatGPT para empresas. Esta versión ofrece un rendimiento hasta 2 veces más rápido que el GPT-4 original, garantías de seguridad y privacidad a nivel empresarial, acceso ilimitado al GPT-4 y herramientas avanzadas de análisis de datos.
Una mujer de 47 años en EE. UU., paralizada tras un derrame cerebral a los 30 años, recuperó su capacidad de comunicarse mediante un avatar digital gracias a un sistema que une neurociencia e inteligencia artificial. Este sistema se basa en un implante cerebral que captura señales de neuronas y las traduce en palabras a través de algoritmos.
Elon Musk demostró en vivo el nuevo software "Full Self-Driving" (FSD) de Tesla el sábado, que funciona completamente con inteligencia artificial sin reglas codificadas manualmente. Usando redes neuronales entrenadas con grandes cantidades de datos de conducción, el sistema manejó con facilidad giros, ajustes de velocidad y obstáculos en Palo Alto, CA. Aunque Musk tuvo que intervenir una vez, el FSD V12 se diferencia significativamente de las versiones anteriores que dependían de la lógica de programación.

🖼️ Cuatro fotos generadas con IA

Fotos de anuarios de personajes famosos. Fuente

Gollum

Hagrid

Dr. Strange

Hulk

🦾 ¡Eso es todo por ahora!

Al suscribirte a este boletín, prometí ser tu fuente de información y ayudarte a entender el mundo de la IA. ¿Qué te pareció el newsletter de hoy? Responde este correo y dime qué te gustaría ver más.

Si crees que esta información podría serle útil a alguien conocido, reenvíale este correo.

Si eres alguien que recibió este correo porque alguien te lo reenvío, y te gustaría seguir recibiéndolo, deja tu correo aquí.

¡Gracias por leer!

Nos vemos la próxima semana

Matías