O GPT-4o (“o” para “omni”) é o mais recente modelo multimodal de linguagem grande (LLM) da OpenAI e traz grandes avanços na geração de conteúdo de texto, áudio e imagem para oferecer uma interação mais natural entre os usuários e a inteligência artificial (IA).
A OpenAI afirma que seu novo modelo de IA pode responder áudios em apenas 232 milissegundos e é significativamente mais rápido na resposta de texto em comandos que não sejam em inglês, incluindo o suporte para mais de 50 idiomas. O usuário também pode interromper a IA com novas perguntas ou esclarecimentos enquanto ela fala.
O GPT-4o possui um assistente de voz com aparência humana mais capaz, que responde em tempo real e pode observar o que está ao redor do usuário por meio da câmera do seu dispositivo. O usuário pode até dizer ao assistente para parecer mais alegre ou voltar para uma voz mais robótica. O novo modelo de IA pode traduzir mais de 50 idiomas em tempo real e funcionar como um assistente de acessibilidade para deficientes visuais.
A OpenAI demonstrou uma longa lista de recursos do GPT-4o em transmissão ao vivo. Você pode assistir a todas as novas demonstrações de recursos do GPT-4o no canal da OpenAI no YouTube (em inglês).
O GPT-4o estará disponível para usuários gratuitos do ChatGPT, enquanto aqueles do ChatGPT Plus terão limite de interação cinco vezes maior. Os recursos de texto e imagem do GPT-4o já estão disponíveis no aplicativo ChatGPT e na Web. O novo modo de voz estará disponível para os usuários do ChatGPT Plus nas próximas semanas.
A OpenAI também anunciou um aplicativo dedicado ao ChatGPT para macOS, enquanto uma versão para Windows será lançada ainda este ano, além de ter apresentado a ChatGPT Store, que oferece milhões de bots de conversas personalizados que os usuários podem acessar gratuitamente. Eis a íntegra do anúncio da OpenIA, em inglês.