¡Yeah! Desde hace unas semanas, podemos enriquecer nuestras conversaciones con imágenes, hacer preguntas sobre su contenido o significado. Si estos modelos de IA nos estaban ayudando un montón con los textos (redactar correos y resumen ejem ejem), esta nueva funcionalidad nos va a permitir enriquecer las respuestas. Y aviso a todos los expertos de IA que nos lean, puede que en poco tiempo, nosotros seamos los primeros en reciclarnos de los algoritmos actuales a la nueva potencia de los grandes modelos.
Y como hacerlo es mejor que decirlo, lo primero es ver como introducir una imagen en el chat. Vamos a simular la automatización del agarre de escaleras, en el siguiente GIF. Subir y bajar escaleras mientras se mantiene un tercer punto de apoyo (nuestra mano en la barandilla), es una norma de seguridad obligatoria en muchas instalaciones (si estos temas te interesan, Safe te va a gustar).
Y ya estaría. Para los que hemos resuelto este reto con otras tecnologías, es asombroso que podamos subir simplemente una foto y funcione así. Y si no me creéis, encantado de leer vuestros comentarios abajo con opciones alternativas. Pero, si esta solución es tan mágica, ¡sigamos!
¡Ups! 😟 ¿Qué pasó? Pero si hay 11. Seguro que no es la primera vez que ChatGPT te sorprende con menor precisión que en demostraciones que te dejan con la boca abierta. Para intentar aliviar esto, unos investigadores de Microsoft han trabajado en algunas instrucciones que le permitan fallar menos. Vamos a listar algunas de las técnicas que han usado, para ver si nos pueden ayudar. Puedes consultar el estudio aquí (es larguillo).
Prompts de texto
El primer intento es ofrecerle una instrucción más rica. Dos opciones que suelen funcionar bien son:
- Realiza la tarea paso a paso
- Eres un experto haciendo la tarea X, quiero que…
¡Interesante!, al introducir el primer ejemplo, ChatGPT involucra un módulo que analiza tu instrucción durante un tiempo, buscando la mejor estrategia. Y es que, a día de hoy, se ha descubierto que ChatGPT4 es un MoE. Tras darle su minuto, llega a una conclusión, de nuevo, errada.
Pero hay una parte superinteresante de este método: el modelo nos indica que estrategia a utilizado para llegar a su conclusión. Entenderlo nos permite trazar mejores estrategias, correcciones, y, al fin y al cabo, desmitificar la “magia” detrás del monitor.
Aquí podemos ver la solución del paper hasta ahora:
Referencias visuales
Bien, si el esquema para resolver el problema es correcto, pero parte de algún dato falso que le lleva a una mala solución, ¿podemos atacar esto? Aquí optamos por dar una pequeña referencia visual, y también de texto, ya que el modelo insistía en que existían solo 3 filas de manzanas. He de decir que el resultado me parece poético. Cuando vi que hablaba de la cuarta fila, aun tenía esperanza, hasta que el 10 volvió a llamar a la puerta 😠
En la imagen del paper, eso sí, vemos que indicar visualmente nuestra región de interés (RoI), es muy útil si queremos que describa, de forma cualitativa, un objeto.
Few Shot Learning
¡Muy bien! Nos dejamos de tonterías y desempolvamos el armamento pesado. A diferencia de otros modelos menos recientes, como YOLO o PoseNet, estas soluciones permiten “mini entrenamientos”, pasarles algunas referencias para que tengan una mejor idea de cómo resolver el problema. A esto se le llama “few shot learning”, y, al ser introducido en el chat, para guardarlo en la ventana de contexto, “in context few shot learning”(dato para nuestra gente que le gusten los términos científicos).
Primero vamos a pasarle las imágenes de algunas manzanas sueltas. Quizá le permita aislar mejor cada objeto, y corregir el fallo.
Algo que como podemos apreciar, no tiene mucho efecto, la maldición se repite:
Se nos acaban las opciones…
¡Último intento! Quizás si practicamos con él, paso a paso, combinamos métodos, y le enseñamos más cajas, ¿pueda aprender?:
Sé lo que estáis pensando: apenas se nota que la imagen está editada, parecería que he ido sacando las manzanas de la caja, y no es una imagen de Wikipedia. Pero vamos con la prueba final. Estoy convencido que no puede volver a darnos 10 con el trabajo que hemos hecho. ¡Y en efecto, ya no da 10!
Menuda puntería. 😠
No debiéramos estar enfadados. Hemos aprendido muchas técnicas que ayudan a mejorar las descripciones (sobre todo cualitativas), de una imagen. Hemos aprendido como utilizar estos archivos con Chatgpt, y a realizar pruebas rápidas. Sino nos creéis, tenemos las imágenes de la investigación original de referencia:
Si bien no todos los días se gana, a nosotros nos encanta, así que sacaremos otro artículo donde ver un contador de stock en acción. Nos quitaremos esta espinita, os lo prometo.
Si quieres estar al tanto de las últimas noticias de la Inteligencia Artificial, no dudes en suscribirte a nuestra newsletter. Prometemos que no damos la chapa.