La inteligencia artificial ahora es multimodal, recibe inversiones millonarias y mejora la productividad

Resumen de todas las noticias de las dos últimas semanas de inteligencia artificial, comentadas y enlazadas

mar 10, 2023

Amigas, amigos de la estocástica. Os traemos hoy una batería de noticias y enlaces que corresponden tanto a nuestro ya publicado episodio ocho como al futuro episodio nueve que se hará de rogar todavía un poco.

Paso adelante de OpenAI: APIs de ChatGPT y Whisper. El nuevo modelo camino de convertirse en el estándar de la industria. Además bajan de precio (véase comparativa) y anuncian que no utilizarán los datos de los clientes para entrenar sus modelos. Más información: OpenAI.

Esto nos llevó a un debate sobre los riesgos del monocultivo. Si ya la industria se ha movido a una sola tecnología (deep learning), vamos a un ecosistema en el que la inmensa mayoría de aplicaciones y servicios se va a basar en un sólo modelo.
Un caso práctico de Abbrevia.me de Jordi Martí, que es entrevistado por Javier Lacort en Xataka: la viralidad tenía un precio

Las plataformas empiezan a sufrir el aluvión de contenidos generados con IA. Es un tema tratado y analizado en Error500 bajo el título de “Qué sucederá cuando la mayoría de las "personas" con las que interactúas (en Internet) sean "falsas", sean "IAs””. Mención especial a…

monos estocásticos @monospodcast

ChatGPT + extensión para Google Drive + muchas ganas de inundar Linkedin de peticiones de conexión "auténticas"

Investigadores japoneses mostraron imágenes a personas, escanearon sus cerebros con resonancias y realizaron una reconstrucción visual de las imágenes con Stable Diffusion. El estudio aún no ha sido revisado por pares, pero es un testimonio impresionante de las sorprendentes capacidades de estos modelos.

Bing Chat en todo Microsoft: Windows 11, móviles, Dynamycs 365. En los anuncios oficiales (1,2) está toda la información. A destacar: nos gusta el poder “hablarle” a Bing Chat en el teléfono, nos intriga el fascinante mundo de posibilidades que hay ante la integración de modelos largos de lenguaje en los CRMs. Además, Microsoft permite cambiar la personalidad del chatbot de Bing para que sea más “creativo”, más “equilibrado” o más “preciso”. Seguimos añorando a Sydney.

Llega el desfotochopeador a su barrio, señora, caballero, el desfotochopeador. Publica Petapixel que “Herramienta de inteligencia artificial revela cómo se han retocado con Photoshop los rostros de las celebridades”. La iniciativa viene de un servicio para personas que sufren trastornos alimentarios, Within, que explica el proyecto. Se basan en un estudio de 2019.

Por otro lado hemos asistido a una mezcla de sorpresa, incredulidad y escándalo con el filtro Bold Glamour de Tiktok. En este hilo hay muchos ejemplos de su uso y lo que puede conseguir:

memo akten @memotv

En The Verge hay un artículo estupendo con la parte técnica de la inteligencia artificial con la que se ha hecho el filtro. Estaban algo olvidadas, pero Tiktok ha conseguido que nos acordemos de las GANs, “Generative adversarial networks”.

La Oficina del Copyright de EE.UU. da marcha atrás y retira los derechos de autor a las imágenes generadas por IA. Se los había concedido a las de una novela gráfica, Zarya of the Dawn. Ahora dice que es un error. La pieza del WSJ lo explica bien: el cómic generado con inteligencia artificial "Zarya of the Dawn" mantiene los derechos de autor pero se excluye de la concesión a imágenes clave. El argumento que ponen sobre la mesa es que “el hecho de que los usuarios no puedan predecir los resultados específicos de Midjourney hace que, a efectos de derechos de autor, Midjourney sea diferente de otras herramientas utilizadas por los artistas". El debate de fondo será si hablaremos de obras hechas con IA o hechas por IA.

Productividad e inteligencia artificial. Dos publicaciones recientes con evidencia científica sobre el aumento de productividad de herramientas de IA. Son resultados provisionales y están pendientes de revisión, pero dos investigadores del MIT publican que ChatGPT, a un grupo de consultores, analistas, managers, técnicos de RRHH, etc. les mejoró la velocidad de completitud de tareas un 35%, con un incremento de calidad sustancial, y mejoras aún mayores a los menos productivos. La paradoja es que los menos productivos tienen más dificultades para usarla, pero a la vez, son a los que más les aporta. El otro aplica a programación, es de Github y lo comentamos en edición anterior de la lista y el podcast. Sobre el primer estudio, comentario de Jorge Galindo en Linkedin.

Recordamos también: en el episodio tres ya discutimos sobre quien va a capturar el aumento de productividad que va a traer la inteligencia artificial.

El futuro de la inteligencia artificial es multimodal. Un grupo de investigadores de IA de Google y la Universidad Técnica de Berlín presentaron PaLM-E (viene de Palm “encarnado” - PaLM "embodied"), un modelo multimodal de lenguaje visual (VLM) con 562.000 millones de parámetros que integra visión y lenguaje para el control robótico. Afirman que es el mayor VLM jamás desarrollado y que puede realizar diversas tareas sin necesidad de reentrenamiento.

Danny Driess @DannyDriess

What happens when we train the largest vision-language model and add in robot experiences? The result is PaLM-E 🌴🤖, a 562-billion parameter, general-purpose, embodied visual-language generalist - across robotics, vision, and language. Website: palm-e.github.io

Un modelo de lenguaje de inteligencia artificial se considera multimodal cuando puede procesar y comprender diferentes tipos de datos, no solo texto, sino también imágenes, audio, videos, etc. En otras palabras, el modelo puede utilizar múltiples modalidades para entender mejor el contexto y el significado de las palabras y frases.

Microsoft también se apunta con el nuevo Kosmos-1. Es un Modelo Multimodal de Gran Lenguaje (MLLM). Puede entender imágenes, texto, imágenes con texto, OCR y hasta subtítulos de imágenes.

En robótica está dando que hablar. Figure (WSJ) es una empresa de IA que hasta ahora había permanecido en modo oculto. Acaba de anunciar que está desarrollando robots humanoides de uso general para ayudar a los humanos a automatizar el trabajo físico. Han recibido 100 millones de inversión y lanzará su primer producto esta primavera: las patentes sugieren que podría ser un dispositivo para llevar puesto. En robots de momento tienen un CGI:

Jean-Yves Gonin @jeanyvesgonin

Meet Figure Robot • @Figure_robot

Snapchat te ofrece un amigo “IA” para chatear, Spotify un DJ basado en inteligencia artificial. En Error500 hay un análisis de este movimiento, pero nos quedamos con este tuit:

Guido Corradi @GuidoBCor

@antonello oportunidad de llamarlo: Tony IAguilar

Chorro de inversiones en IA generativa. Character.ai y sus chatbots pescan 200 millones de dólares a una valoración de 1000 millones (FT); El cofundador de DeepMind, Mustafa Suleyman, y el creador de LinkedIn, Reid Hoffman, están construyendo un asistente personal para la web y andan buscando 675 millones de dólares (FT); Anthropic, competidora de OpenAi con su modelo Claude, capta 300 millones a una valoración de 4100 millones de dólares (Axios).

Meta “lanza” LLaMA y Zuckerberg manda a ir a por la IA. Meta ha hecho público un nuevo modelo de lenguaje de gran tamaño llamado LLaMA, diseñado para ayudar a los investigadores del procesamiento del lenguaje natural. Su plan era que sólo daría acceso a los investigadores para "mantener la integridad y evitar el mal uso". El caso es que se ha filtrado y es relativamente sencillo encontrar el torrent.

Mientras Zuckerberg anuncia que están

“creando un nuevo grupo de productos de alto nivel en Meta centrado en la IA generativa para impulsar nuestro trabajo en esta área. Estamos empezando por reunir a muchos de los equipos que trabajan en IA generativa en toda la empresa en un grupo centrado en la creación de experiencias agradables en torno a esta tecnología en todos nuestros diferentes productos. A corto plazo, nos centraremos en crear herramientas creativas y expresivas. A largo plazo, nos centraremos en desarrollar personas con IA que puedan ayudar a la gente de diversas maneras. Estamos explorando experiencias con texto (como el chat en WhatsApp y Messenger), con imágenes (como los filtros creativos de Instagram y los formatos publicitarios) y con vídeo y experiencias multimodales”

Más IA y menos metaverso, parece

Lecturas extra recomendadas

Hilo en Twitter sobre cómo se está usando Controlnet.

Consideraciones para startups nativas de IA, por Tanay Jaipuria.

Blake Lemoine en Newsweek, “Trabajé en la IA de Google. Mis temores se están haciendo realidad".

40 años de desarrollo de IA. Laconic.

Cómo Mira Murati, CTO de OpenAI, se convirtió en una de las innovadoras más influyentes de la tecnología. Fast Company.

Por una mirada híbrida: ciencias y letras en tiempos de Inteligencia Artificial. Kiko Llaneras en Letras Libres.

Noam Chomsky: La falsa promesa del ChatGPT. En NYT.

monos estocásticos

La inteligencia artificial ahora es multimodal, recibe inversiones millonarias y mejora la productividad

Resumen de todas las noticias de las dos últimas semanas de inteligencia artificial, comentadas y enlazadas

Lecturas extra recomendadas

Discusión sobre este post