Mientras Apple y Google transforman sus asistentes de voz en chatbots, OpenAI está transformando su chatbot en un asistente de voz. La startup de inteligencia artificial de San Francisco presentó recientemente una nueva versión de su chatbot ChatGPT que puede recibir y responder a comandos de voz, imágenes y vídeos.
La compañía dijo que la nueva aplicación, basada en A.I. sistema llamado GPT-4o hace malabarismos con audio, imágenes y video significativamente más rápido que las versiones anteriores de la tecnología. La aplicación estará disponible a partir del lunes, de forma gratuita, tanto para teléfonos inteligentes como para ordenadores de sobremesa.
La nueva aplicación es parte de un esfuerzo más amplio para combinar chatbots conversacionales como ChatGPT con asistentes de voz como el Asistente de Google y Siri de Apple. Mientras Google fusiona su chatbot Gemini con el Asistente de Google, Apple está preparando una nueva versión de Siri que es más conversacional.
OpenAI dijo que compartiría gradualmente la tecnología con los usuarios «durante las próximas semanas». Esta es la primera vez que ofrece ChatGPT como aplicación de escritorio.
Anteriormente, la empresa ofrecía tecnologías similares desde varios productos gratuitos y de pago. Ahora los ha integrado en un único sistema que está disponible en todos sus productos.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
La nueva aplicación no puede generar videos, pero puede generar imágenes fijas que representan fotogramas de un vídeo.
Con el debut de ChatGPT a finales de 2022, OpenAI demostró que las máquinas pueden manejar solicitudes más como las personas. En respuesta a indicaciones de texto conversacionales, podría responder preguntas, escribir trabajos finales e incluso generar código de computadora.
ChatGPT no se rige por un conjunto de reglas. Aprendió sus habilidades analizando enormes cantidades de texto seleccionado de Internet, incluidos artículos, libros y registros de chat de Wikipedia. Los expertos elogiaron la tecnología como una posible alternativa a los motores de búsqueda como Google y los asistentes de voz como Siri.
Las versiones más nuevas de la tecnología también han aprendido de sonidos, imágenes y vídeos. Los investigadores llaman a esto «IA multimodal». Básicamente, empresas como OpenAI comenzaron a combinar chatbots con I.A. generadores de imagen, audio y vídeo.