Gemini 1.5 Pro é lançado em versão prévia e agora compreende áudios

O Google disponibilizou uma versão prévia do Gemini 1.5 Professional (modelo de IA generativa) e o Imagen 2 (modelo de geração de imagens) em sua plataforma de desenvolvimento de inteligência artificial Vertex AI.

Durante a conferência anual Cloud Next, o Gemini 1.5 Professional será capaz de compreender imagens, vídeos, áudios e, obviamente, textos. O modelo de linguagem multimodal do Google será capaz de analisar o conteúdo de mídia de programas de Television set, filmes, transmissões de rádio e gravações de reuniões em diversos idiomas, como explica o TechCrunch. A IA também poderá gerar transcrições em texto de videoclipes.

(Imagem: Divulgação)

Atualmente, o modelo é capaz de processar cerca de um milhão de tokens (parâmetros utilizados por IAs), equivalente a uma hora de vídeo ou 11 horas de áudio. O Gemini 1.5 Professional tem muito mais tokens que o modelo mais avançado da OpenAI, o GPT-4 Turbo, que tem cerca de 128 mil tokens.

Anteriormente, o Google disse que o Professional 1.5, teve um desempenho semelhante ao Gemini 1. Ultra, o modelo de IA mais potente da empresa.

No vídeo abaixo, a equipe do Google pede que o modelo interprete um documento de 402 páginas sobre a missão Apollo 11.

Imagen 2 também foi disponibilizado no Vertex AI

Outra novidade apresentada pelo Google foi a adição do Imagen 2, modelo que transforma comandos de textos em imagens, no Vertex AI. A ferramenta foi anunciada pela primeira vez na conferência I/O em maio do ano passado, como um modelo capaz de criar e editar imagens a partir de comandos de textos, da mesma forma que o Dall-E.

Agora que o Imagen 3 está sendo disponibilizado no Vertex AI, a empresa está lançando os recursos de inpainting e outpainting, que permitem remover objetos indesejados de uma imagem ou adicionar novos componentes.

Além disso, o modelo de geração de imagens agora permite criar vídeos curtos de até quatro segundos (GIFs) a 24 quadros por segundo (fps) e resolução de 360 x 640 pixels.

Todas as imagens geradas pelo Imagen 2 utilizarão o SynthID, ferramenta do Google que united states marcas d´água criptográficas (e invisíveis) para identificar imagens produzidas por IA.

Como mencionado, o Imagen 2 e Gemini 1.5 Pro estão sendo lançados inicialmente para a plataforma de desenvolvedores de IA Vertex AI, mas no futuro elas devem ser lançadas para clientes empresariais do Google Workspace.

FIQUE POR DENTRO!

  • Gemini AI nativo no Android? Google deverá atualizar aplicativo

  • Apple investirá US$ 50 milhões no Shutterstock para treinamento de IA

  • O Circle to Search do Google agora tem tradução instantânea de idiomas

Close
Your custom text © Copyright 2024. All rights reserved.
Close