TECNOLOGÍA
|Suscriptores
Cómo se trasladará la IA que impulsa ChatGPT al mundo físico
Varias empresas construyen sistemas que pueden aprender diferentes tipos de datos a la vez. Por ejemplo, analizar varias fotografías como textos que describen las mismas.
El sistema Robotic Putwall impulsado por IA de Covariant clasifica artículos de forma autónoma en la sede de la compañía en Emeryville. (Balazs Gardi/The New York Times)
Empresas como OpenAI y Midjourney crean chatbots, generadores de imágenes y otras herramientas de inteligencia artificial que operan en el mundo digital.
Pero ahora, una empresa emergente fundada por tres exinvestigadores de OpenAI está utilizando los métodos de desarrollo tecnológico detrás de los chatbots para crear tecnología de inteligencia artificial que pueda transitar por el mundo físico.
Covariant, una empresa de robótica con sede en Emeryville, California, está creando formas para que los robots recojan, muevan y clasifiquen artículos mientras transitan almacenes y centros de distribución. Su objetivo es ayudar a los robots a comprender lo que sucede a su alrededor y decidir qué deben hacer a continuación.
La tecnología también les brinda a los robots una amplia comprensión del idioma inglés, lo que les permite a las personas conversar con ellos como si estuvieran conversando con ChatGPT.
La tecnología, aún en desarrollo, no es perfecta. Pero es una señal clara de que los sistemas de IA que impulsan los chatbots y los generadores de imágenes en línea también impulsarán las máquinas en los almacenes, las carreteras y los hogares.
Al igual que los chatbots y los generadores de imágenes, esta tecnología robótica aprende sus habilidades analizando enormes cantidades de datos digitales. Eso significa que los ingenieros pueden mejorar la tecnología alimentándola con cada vez más datos.
Covariant, respaldada por 222 millones de dólares en financiación, no construye robots, sino el software que los impulsa. La compañía quiere implementar su nueva tecnología con robots de almacén, proporcionando una hoja de ruta para que otros hagan lo mismo en plantas de fabricación y tal vez incluso en carreteras con vehículos autónomos.
Los sistemas de IA que impulsan los chatbots y los generadores de imágenes se denominan redes neuronales, llamadas así por la red de neuronas del cerebro.
Al identificar patrones en grandes cantidades de datos, estos sistemas pueden aprender a reconocer palabras, sonidos e imágenes, o incluso generarlos por sí solos. Así es como OpenAI creó ChatGPT, dándole el poder de responder preguntas al instante, escribir trabajos académicos y generar programas informáticos. Aprendió estas habilidades a partir de textos seleccionados de internet. (Varios medios de comunicación, incluido The New York Times, han demandado a OpenAI por infracción de derechos de autor).
Actualmente, las empresas están construyendo sistemas que pueden aprender de diferentes tipos de datos al mismo tiempo. Por ejemplo, al analizar tanto una colección de fotografías como los textos que describen esas fotografías, un sistema puede captar las relaciones entre las dos. Puede aprender que la palabra “plátano” describe una fruta curva de color amarillo.
OpenAI empleó ese sistema para crear Sora, su nuevo generador de video. Al analizar miles de videos subtitulados, el sistema aprendió a generar videos cuando se le daba una breve descripción de una escena, como por ejemplo, “un mundo de papel hermosamente creado de un arrecife de coral, lleno de peces de colores y criaturas marinas”.
Covariant, fundada por Pieter Abbeel, profesor de la Universidad de California, campus Berkeley, y tres de sus antiguos alumnos, Peter Chen, Rocky Duan y Tianhao Zhang, utilizaron técnicas similares para construir un sistema que impulsa robots de almacén.
La empresa ayuda a operar robots de clasificación de artículos en almacenes de todo el mundo. Ha pasado años recopilando datos —de cámaras y otros sensores— que muestran cómo operan estos robots.
“Ingiere todo tipo de datos que son importantes para los robots y que pueden ayudarlos a comprender el mundo físico e interactuar con él”, explicó Chen.
Al combinar esos datos con las enormes cantidades de texto utilizadas para entrenar chatbots como ChatGPT, la compañía ha creado tecnología de inteligencia artificial que brinda a sus robots una comprensión mucho más amplia del mundo que los rodea.
Después de identificar patrones en esta mezcolanza de imágenes, datos sensoriales y texto, la tecnología le proporciona al robot el poder de manejar situaciones inesperadas en el mundo físico. El robot sabe cómo coger un plátano, aunque nunca antes haya visto uno.
También puede responder al inglés básico, como un chatbot. Si le dices que “coja un plátano”, sabrá lo que eso significa. Si le dices que “recoja una fruta amarilla”, también lo entenderá.
Estos sistemas pueden aprender a reconocer palabras, sonidos e imágenes, o incluso generarlos por sí solos. Así es como OpenAI creó ChatGPT, dándole el poder de responder preguntas al instante, escribir trabajos académicos y generar programas informáticos.
Incluso puede generar videos que predigan lo que probablemente sucederá cuando intente recoger un plátano. Estos videos no tienen ningún uso práctico en un almacén, pero muestran la comprensión del robot de lo que hay a su alrededor.
“Si puede predecir los siguientes fotogramas de un video, puede determinar la estrategia correcta a seguir”, explicó Abbeel.
La tecnología, llamada RFM (sigla en inglés de “modelo fundamental de la robótica”), comete errores, al igual que los chatbots. Aunque a menudo comprende lo que la gente le pide, siempre existe la posibilidad de que no lo haga. De vez en cuando deja caer objetos.
Gary Marcus, empresario de inteligencia artificial y profesor emérito de psicología y ciencias neuronales en la Universidad de Nueva York, afirmó que la tecnología podría ser útil en almacenes y otros entornos donde los errores son aceptables. Pero dijo que sería más difícil y riesgoso desplegarla en plantas de fabricación y otras situaciones potencialmente peligrosas.
“Todo se reduce al costo del error”, afirmó Marcus. “Si tienes un robot de 68 kilogramos que puede hacer algo dañino, ese costo puede ser alto”.
A medida que las empresas entrenen este tipo de sistemas con colecciones de datos cada vez más grandes y variadas, los investigadores creen que mejorará rápidamente.
Esto difiere mucho de la forma en que operaban los robots en el pasado. Por lo general, los ingenieros programaban robots para realizar el mismo movimiento preciso una y otra vez, como levantar una caja de cierto tamaño o colocar un remache en un lugar particular del parachoques trasero de un automóvil. Pero los robots no podían afrontar situaciones inesperadas o aleatorias.
Al aprender de datos digitales —cientos de miles de ejemplos de lo que sucede en el mundo físico—, los robots pueden comenzar a enfrentar lo inesperado. Y cuando esos ejemplos se combinan con el lenguaje, los robots también pueden responder a sugerencias de texto y voz, como lo haría un chatbot.
Esto significa que, al igual que los chatbots y los generadores de imágenes, los robots serán más hábiles.
“Lo que hay en los datos digitales se puede transferir al mundo real”, afirmó Chen.