ChatGPT oferecerá suporte a solicitações de voz e imagem gratuitamente

Achei que o Google desferiu um grande golpe no ChatGPT na semana passada ao incorporar o Bard em vários aplicativos. Gmail, YouTube, Google Maps e Flights são apenas alguns dos aplicativos que estão recebendo suporte do Bard. Essa é uma grande vantagem sobre o ChatGPT, mas o OpenAI não fica de braços cruzados. Há poucos dias, a OpenAI lançou uma nova versão do Dall-E que permite usar o ChatGPT para gerar imagens de IA. E agora, a OpenAI anunciou que a versão gratuita do ChatGPT funcionará com comandos de voz e imagem em um futuro muito próximo.

ANÚNCIO

Ou seja, você pode conversar com o ChatGPT em vez de digitar no iPhone e no Android. Além disso, você poderá usar imagens para obter melhores respostas. A melhor parte dessas atualizações é que você não precisará pagar pelo ChatGPT Plus para obtê-las. No entanto, os assinantes pagantes serão os primeiros a experimentá-los.

OpenAI anunciou a capacidade do ChatGPT de ouvir e falar em uma postagem de blog na segunda-feira. Os recursos estarão disponíveis inicialmente para usuários Plus e Enterprise, que os receberão nas próximas duas semanas. Então, “outros grupos de usuários, incluindo desenvolvedores”, os receberão logo depois disso. Isso significa que a experiência ChatGPT gratuita também oferece suporte a comandos de voz e imagem.

ANÚNCIO

Usando imagens em prompts do ChatGPT

Se usar imagens nos prompts do ChatGPT parece familiar, é porque já falamos sobre isso antes. É assim que funcionam os modelos multimodais de IA generativa. É semelhante a como o Google usa o Google Lens com IA. Quanto aos comandos de imagem ChatGPT, a OpenAI afirma que a compreensão da imagem é alimentada por GPT-3.5 e GPT-4 multimodais.

O exemplo de vídeo abaixo mostra um proprietário de bicicleta enviando uma foto de sua bicicleta e fazendo uma pergunta. O ChatGPT fornece uma resposta, e o usuário envia imagens adicionais para que o chatbot possa entender melhor o problema.

O usuário ainda desenha um círculo ao redor do componente da bicicleta que representa o principal tópico da discussão para que o ChatGPT possa ajustar a resposta. Além disso, o usuário carrega imagens mostrando as ferramentas à sua disposição para que o bot diga qual delas usar para abaixar o assento.

Essa é uma ótima funcionalidade para adicionar ao ChatGPT, que funcionará perfeitamente em smartphones. E o OpenAI demonstra o exemplo de entrada de imagem para a versão móvel do ChatGPT. No entanto, haverá algumas limitações no que o ChatGPT pode dizer sobre os humanos que aparecem nas imagens:

Também tomamos medidas técnicas para limitar significativamente a capacidade do ChatGPT de analisar e fazer declarações diretas sobre pessoas, uma vez que o ChatGPT nem sempre é preciso e estes sistemas devem respeitar a privacidade dos indivíduos.

Os prompts de imagens também estarão disponíveis em computadores, mas será muito mais fácil usar um smartphone para tirar fotos adicionais relevantes para um bate-papo específico com o ChatGPT.

Suporte de voz para iPhone e Android

O recurso de suporte de voz está chegando apenas aos aplicativos ChatGPT para iPhone e Android. E é algo definitivamente necessário para este tipo de aplicação. Falar com os aplicativos de IA do telefone por voz, em vez de digitar tudo, é muito mais fácil. Você só terá que ativar o recurso na seção Configurações do aplicativo assim que estiver disponível no iPhone e Android.

Você pode querer verificar como os dados de voz são tratados do ponto de vista da privacidade. OpenAI não aborda esse aspecto no anúncio. Portanto, presumo que a política de privacidade atual se aplica a todos os chats com ChatGPT; que suas instruções ajudarão a treinar o assistente de voz, a menos que você desista. A política de privacidade poderá ser atualizada assim que esse recurso começar a ser implementado.

A OpenAI ofereceu o chat ChatGPT abaixo, contando uma história para dormir, como um exemplo do que a voz pode fazer em um programa de IA generativo.

A OpenAI diz que são necessários apenas alguns segundos de amostra de fala para criar um áudio semelhante ao humano a partir do texto. Está usando um novo modelo de conversão de texto em fala para isso. Mas, para evitar abusos, a OpenAI conta com dubladores para a voz do ChatGPT:

A nova tecnologia de voz — capaz de criar vozes sintéticas realistas a partir de apenas alguns segundos de fala real — abre portas para muitas aplicações criativas e focadas na acessibilidade. No entanto, estas capacidades também apresentam novos riscos, como a possibilidade de intervenientes mal-intencionados se passarem por figuras públicas ou cometerem fraudes.

Curiosamente, a OpenAI também diz que está trabalhando com o Spotify para testar um novo recurso de tradução de voz para podcasts que permite aos criadores traduzir seu conteúdo para outros idiomas usando sua própria voz.