Hace 10 años, hablar de inteligencia artificial todavía sonaba un poco lejano, aunque lo cierto es que ya estaba a nuestro alrededor en muchos aspectos; pero hoy por hoy, todos somos plenamente conscientes de que muchas tecnologías relacionadas con la inteligencia artificial no sólo están suficientemente maduras, sino que están por todas partes. Ya en 2016, Google se empezó a definir como una compañía “Machine Learning-First”, lo que significa que la inteligencia artificial (concretamente, Machine Learning), se convertía en un principio de diseño para todos los productos de la compañía.
Este auge se debe, principalmente, a dos motivos: el aumento de capacidad de computación (en parte facilitado por la Nube), y la gran cantidad de datos que se encuentran actualmente disponibles para las grandes compañías que trabajan en este ámbito. Y es de este segundo punto del que venimos a hablar hoy.
En particular, vamos a hablar de algunas formas quizás menos conocidas de conseguir datos para crear sistemas de IA, mecanismos en los que nos convertimos en parte fundamental del proceso de captura de información, incluso sin ser conscientes de ello. Porque sí: aunque tú no lo sepas, llevas años entrenando algoritmos. ¿Empezamos?
Captchas, ¿eres un robot… o lo entrenas?
Una estrategia perfecta: si eres un robot, los captchas te impiden acceder a un contenido (generalmente, para evitar ataques), y si no lo eres, aprenden de ti
Como seguramente sepas (y si no, aquí lo explican muy bien), los captchas son esas pequeñas “pruebas” que buscan verificar que el que se encuentra al otro lado del monitor, tratando de entrar en una web, es un humano. Hace años eran muy sencillas, normalmente escribir unas letras que se veían ligeramente distorsionadas, y con el tiempo se han ido sofisticando bastante. Lo que quizás no sabías es que cada pequeño test planteado por un captcha se utiliza para entrenar una inteligencia artificial.
Google consiguió digitalizar toda su biblioteca de contenidos de Google Books a base de captchas: en cada acceso a una web solicitaba al usuario transcribir dos palabras a partir de imágenes. El usuario no lo sabía, pero en realidad, Google sólo conocía la respuesta para una de las dos, la otra se utilizaba para recoger un nuevo valor que incorporar a la base de datos. Así, cada vez que te registrabas en una web, ayudabas a digitalizar una palabra más (realmente, cada palabra no se daba por buena con una única respuesta, sino que se comprobaba que era consistente con lo que otros usuarios estaban introduciendo).
Ahora ya no nos piden meter letras casi nunca, ¿verdad? Los captchas son más bien imágenes en las que hay que identificar dónde está algo, muy a menudo semáforos, autobuses, pasos de peatones… Pues cada vez que te toque pasar uno de éstos, puedes sentirte orgulloso: estás colaborando en la fabricación del coche autónomo. Concretamente de su sistema de reconocimiento de señales de tráfico, o de otros vehículos. La lógica es bastante parecida, realmente Google no está identificando si eres o no un robot únicamente por tu respuesta, sino por una combinación de factores asociados a tu comportamiento antes y después de hacer clic en el botón etiquetado con “no soy un robot”, de manera que, si determina que eres humano, tu respuesta se incorpora a su base de datos y dan un pasito más hacia un coche que se conduzca solo (y sin atropellar a nadie).
El caso FaceApp
A menudo se dice que, si algo es gratis, es que el producto eres tú. En el mundo digital, es más preciso decir que el producto son tus datos, y muchas veces se codician para entrenar algoritmos
Seguro que recuerdas esa app que se puso de moda hace algún año que podía modificar fotos de personas para echarles 30 años más (sigo sin entender quién querría hacerse eso a sí mismo, por cierto), o cambiarles el peinado, o el sexo, o el vello facial. Tal vez también te acuerdes de la polémica que siguió a ese boom: el rumor de que la app era una tapadera para conseguir tu foto con aviesas intenciones.
La realidad no resulta ser tan dramática, pero lo cierto es que algo de eso hay. Al aceptar las condiciones de uso de FaceApp, estamos rechazando voluntariamente cualquier derecho de propiedad sobre las fotos que subamos, y permitiendo a los dueños de la aplicación que las usen. Lo que no se autoriza es a compartirlas con terceros, por ejemplo, lo que limita bastante el posible uso malintencionado que se pudiera dar de esta información.
Pero eso no significa que FaceApp no vaya a usar esas fotos en su beneficio, por supuesto que las usan: para entrenar sus propios algoritmos y mejorarlos, o para trabajar en otras características (análisis facial o generación de deep fakes, por ejemplo). Y este modus operandi no es nada extraño: una vez más, Google hace algo parecido con las fotos que almacenas en Google Fotos, por ejemplo… y, a cambio, a ti te permite hacer búsquedas cada vez más inteligentes en tu galería.
Videojuegos en serio
Aunque parezca difícil de creer, cientos de miles de jugadores repartidos por el mundo, están ayudando a mapear el genoma de la flora intestinal mientras juegan a algo parecido al Tetris
El último caso que traigo hoy es el único de esta lista en el que la colaboración del usuario es completamente consciente. Se trata de una iniciativa lanzada por las empresas de videojuegos Gearbox Software y 2K, responsables de Borderlands 3; en colaboración con la Universidad de McGill y la iniciativa Microsetta de la Escuela de Medicina de San Diego. En un momento de la historia de Borderlands 3, se ofrece al usuario la opción de participar en un minijuego muy particular, que enlaza con investigaciones científicas del mundo real.
Antes de comenzar, se explica detalladamente en qué consiste este juego, llamado Borderlands Science. Os lo resumo: la comunidad científica está tratando de mapear genéticamente la microbiota, sin embargo, la automatización de esta tarea es compleja, y los algoritmos que trabajan en ella cometen muchos pequeños errores. En Borderlands Science se representa el genoma bacteriano como una serie de puzles en los que el usuario tiene que conectar piezas con la misma forma. Al resolver un puzle, el usuario proporciona al sistema una pista sobre la similitud entre las cadenas de ADN de los distintos microbios de la flora intestinal, permitiendo así resolver estos errores. Si os interesa el tema, Mayim Bialik (conocida por The Big Bang Theory… o Blossom, para los que recordamos los 90) lo explica mucho mejor que yo aquí:
La razón por la que esto tiene sentido es que se trata de una tarea sencilla para un humano, pero ingente en volumen. Disfrazarla de videojuego y ofrecérsela a la extensa comunidad de jugadores de Borderlands (franquicia muy exitosa y presente en multitud de plataformas) es una maniobra muy inteligente que está dando grandes resultados (el pasado diciembre ya estaban cerca de lograr el volumen de respuestas objetivo). El objetivo último de este mapeo no podría ser más relevante: mejorar el diagnóstico y el tratamiento de enfermedades que guardan algún tipo de relación con la flora intestinal, como la diabetes, la depresión o la obesidad.
RESUMIENDO
En el mundo de la Inteligencia Artificial, los volúmenes de información lo son todo, y éstas son algunas formas ingeniosas de conseguirlos. En cada caso, como usuario estás obteniendo algo a cambio de dar un pedacito de información que, aislado, apenas tiene valor, pero multiplicado por los millones de usuarios que están aceptando el mismo trato, permite alcanzar hitos tecnológicos tan increíbles como el coche autónomo o los deep fake que tanto se han popularizado recientemente (gracias, en parte, a cierto anuncio de cerveza). Desde luego, el valor agregado de nuestros pequeños granitos de arena es inmenso, lo que me lleva a preguntarme… ¿os parece que estamos bien pagados como entrenadores virtuales?
Autor: Raúl Melgosa García