ChatGPT ganha voz, interpreta imagens e fica mais rápido; veja novidades

14/05/2024 - 7:37

Para compartilhar:

A OpenAI revelou nesta segunda-feira, 13, o novo cérebro do ChatGPT: o GPT-4o. Em uma demonstração que aproxima sua ferramenta do filme Ela (Spike Jonze, 2013), a companhia de inteligência artificial (IA) mostrou avanços sobre o GPT-4 turbo e ampliou a capacidade de processamento de texto e compreensão de imagens, além de manter suporte para conversas com voz.

Segundo a companhia, em relação ao atual GPT-4, o GPT-4o é duas vezes mais rápido no processamento de respostas, 50% mais barato e tem capacidade cinco vezes maior. No novo modelo, cada 1 milhão de tokens (pedacinhos de palavras) custa US$ 5 (referente a dados de entrada), ante US$ 10 no GPT-4 Turbo. Usuários da OpenAI, incluindo não assinantes do plano ChatGPT Plus, poderão acessar gratuitamente a nova IA, diz a startup americana.

A executiva Mira Murati, chefe de tecnologia da OpenAI, realizou demonstrações que indicam a capacidade do ChatGPT ao lidar com imagens e voz. Na demonstração, a IA aparentou estar não só mais inteligente, mas também mais natural nas respostas, com resultados menos robóticos e mais “humanos”. O chatbot também demonstrou ser capaz de ler emoções humanas.

Murati anunciou que o GPT-4o também estará disponível como API (interface de aplicação de programação, na sigla em inglês), permitindo que desenvolvedores e empresas, sob uma assinatura, consigam “puxar” o ChatGPT para seus serviços e integrar o modelo de inteligência artificial em diferentes produtos. Além disso, a companhia anunciou melhorias para outros 50 idiomas.

A OpenAI também anunciou um novo aplicativo do ChatGPT para Mac, computador da Apple. A empresa afirma que vai ser mais fácil integrar o chatbot a tarefas do usuário.

O anúncio aconteceu a um dia de o Google realizar o seu principal evento do ano, o Google I/O, que também deve trazer novidades importantes na área. Especialistas esperam que a companhia demonstre a capacidade da IA Gemini como assistente pessoal.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

Golpe para Siri e Alexa

O evento da OpenAI mostrou como funcionam as capacidades de multimodalidade do ChatGPT-4o. O modelo consegue ser um assistente de voz, similar à Alexa (da Amazon) e à Siri (da Apple), e é capaz de ler imagens do mundo real a partir da câmera de um smartphone. A principal diferença para os rivais é que se trata de um único modelo capaz de realizar isso tudo.

Na demonstração, a IA consegue contar histórias com diferentes entonações na voz, como algo emocionado ou totalmente robótico. Além disso, com a câmera do celular, a IA ajuda a resolver equações matemáticas de primeiro grau escritas em uma folha de papel ou, ainda, atuar como um tradutor em tempo real de uma conversa. Segundo a OpenAI, essas funções vão chegar aos usuários nas próximas semanas.

Para compartilhar:

Para compartilhar:

Compartilhe: