
O Google está tentando causar impacto com o Gemini, sua suíte principal de modelos, aplicativos e serviços de IA generativa. Mas o que é o Gemini? Como você pode usá-lo? E como ele se compara a outras ferramentas de IA generativa, como o ChatGPT da OpenAI, o Llama da Meta e o Copilot da Microsoft?
\n\nPara facilitar o acompanhamento do Gemini, reunimos este guia útil, que será mantido atualizado à medida que novos modelos, recursos e notícias sobre os planos do Google para o Gemini forem lançados.
\n\nO que é o Gemini?
\nO Gemini é a família de modelos de IA generativa de próxima geração do Google. Desenvolvido pelos laboratórios de pesquisa em IA do Google, DeepMind e Google Research, ele vem em várias versões:
\n\n- Gemini Ultra, um modelo muito grande. \n\n\n\n
- Gemini Pro, um modelo grande - embora menor que o Ultra. A versão mais recente, Gemini 2.0 Pro, é o carro-chefe atual do Google. \n\n\n\n
- Gemini Flash, uma versão mais rápida e "destilada" do Pro. \n\n\n\n
- Gemini Flash-Lite, uma versão um pouco menor e mais rápida do Gemini Flash. \n\n\n\n
- Gemini Flash Thinking, um modelo com capacidades de "raciocínio". \n\n\n\n
- Gemini Nano, dois modelos pequenos: Nano-1 e o um pouco mais capaz Nano-2, que é projetado para funcionar offline. \n
Todos os modelos Gemini foram treinados para serem nativamente multimodais - ou seja, capazes de trabalhar com e analisar mais do que apenas texto. O Google diz que eles foram pré-treinados e ajustados em uma variedade de áudios, imagens e vídeos públicos, proprietários e licenciados; um conjunto de códigos; e texto em diferentes idiomas.
\n\nIsso diferencia o Gemini de modelos como o LaMDA do próprio Google, que foi treinado exclusivamente em dados de texto. O LaMDA não consegue entender ou gerar nada além de texto (por exemplo, ensaios, e-mails, etc.), mas esse não é necessariamente o caso com os modelos Gemini. Por exemplo, as versões mais recentes do Gemini Flash e do Gemini Pro podem gerar nativamente imagens e áudios, além de texto.
\n\nObservamos aqui que a ética e a legalidade de treinar modelos em dados públicos, em alguns casos sem o conhecimento ou consentimento dos proprietários dos dados, são obscuras. O Google possui uma política de indenização de IA para proteger determinados clientes do Google Cloud de processos judiciais caso enfrentem, mas essa política contém exceções. Prossiga com cautela - especialmente se você pretende usar o Gemini comercialmente.
\n\nQual a diferença entre os aplicativos Gemini e os modelos Gemini?
\nO Gemini é separado e distinto dos aplicativos Gemini na web e móveis (anteriormente Bard).
\nOs aplicativos Gemini são clientes que se conectam a vários modelos Gemini e adicionam uma interface semelhante a um chatbot por cima. Pense neles como front-ends para a IA generativa do Google, análogos ao ChatGPT e aos aplicativos da família Claude da Anthropic.
\n\n
O Gemini na web está aqui. No Android, o aplicativo Gemini substitui o aplicativo Google Assistant existente. E no iOS, os aplicativos Google e Google Search servem como clientes do Gemini para essa plataforma.
\n\nNo Android, os usuários podem abrir uma sobreposição do Gemini para fazer perguntas sobre o que está em sua tela (por exemplo, um vídeo do YouTube). Pressionando e segurando o botão de energia de um smartphone compatível ou dizendo "Ok Google" chama a sobreposição.
\n\nOs aplicativos Gemini podem aceitar imagens, comandos de voz e texto - incluindo arquivos como PDFs, sejam enviados ou importados do Google Drive - e gerar imagens. Como era de se esperar, as conversas com os aplicativos Gemini no celular se transferem para o Gemini na web e vice-versa se você estiver conectado à mesma Conta Google nos dois lugares.
\n\nGemini Avançado
\n\nOs aplicativos Gemini não são a única forma de recrutar a assistência dos modelos Gemini para tarefas. Aos poucos, os recursos imbuídos de Gemini estão sendo integrados aos aplicativos e serviços principais do Google, como Gmail e Google Docs.
\n\nPara aproveitar a maioria deles, você precisará do Google One AI Premium Plan. Técnica mente parte do Google One, o plano AI Premium custa $20 por mês e fornece acesso ao Gemini nos aplicativos Google Workspace como Docs, Maps, Slides, Sheets, Drive e Meet. Ele também habilita o que o Google chama de Gemini Avançado, que traz os modelos Gemini mais sofisticados da empresa para os aplicativos Gemini.
\n\n
Os usuários do Gemini Avançado recebem extras aqui e ali, como acesso prioritário a novos recursos e modelos; a capacidade de executar e editar código Python diretamente no Gemini; e limites aumentados para o NotebookLM, a ferramenta do Google que transforma PDFs em podcasts gerados por IA. Recentemente, o Gemini Avançado ganhou um recurso de memória que armazena as preferências dos usuários e permite ao Gemini se referir a conversas antigas como contexto para chats atuais.
\n\nUm dos exclusivos do Gemini Avançado mais convincentes, Pesquisa Profunda, aproveita modelos Gemini com "raciocínio avançado" para criar briefings detalhados. Em resposta a um comando (por exemplo, "Como devo redesenhar minha cozinha?"), a Pesquisa Profunda desenvolve um plano de pesquisa em várias etapas e pesquisa na web para criar uma resposta abrangente.
\n\nGemini no Gmail, Docs, Chrome, ferramentas de desenvolvimento e muito mais
\n\nNo Gmail, o Gemini está em um painel lateral que pode escrever e resumir mensagens de e-mail. O mesmo painel pode ser encontrado no Docs, onde ajuda a escrever e refinar conteúdo e elaborar novas ideias. O Gemini nos Slides gera slides e imagens personalizadas. E o Gemini no Google Sheets rastreia e organiza dados, criando tabelas e fórmulas.
\n\nO Gemini está no Google Maps, onde pode agregar avaliações de empresas locais e oferecer recomendações sobre como passar um dia visitando uma cidade estrangeira. A abrangência do chatbot se estende ao Drive, onde pode resumir arquivos e pastas e fornecer fatos rápidos sobre um projeto.
\n\n
O Gemini recentemente chegou ao navegador Chrome do Google na forma de uma ferramenta de escrita de IA. Você pode usá-lo para escrever algo completamente novo ou reescrever textos existentes; o Google diz que considerará a página da web em que você está para fazer recomendações.
\n\nEm outros lugares, você encontrará indícios do Gemini nos produtos de banco de dados do Google, ferramentas de segurança em nuvem e plataformas de desenvolvimento de aplicativos (incluindo Firebase e Project IDX), bem como em aplicativos como o Google Photos (onde o Gemini lida com consultas de pesquisa em linguagem natural), YouTube (onde ajuda a brainstorm ideias para vídeos) e Meet (onde traduz legendas).
\n\nO Code Assist (anteriormente Duet AI for Developers), a suíte de ferramentas de assistência baseadas em IA do Google para completar e gerar código, está transferindo o trabalho computacional pesado para o Gemini. Assim como os produtos de segurança do Google fundamentados no Gemini, como o Gemini in Threat Intelligence, que pode analisar grandes porções de código potencialmente malicioso e permitir que os usuários realizem buscas em linguagem natural por ameaças em andamento ou indicadores de comprometimento.
\n\nExtensões e Gems do Gemini
\n\nOs usuários avançados do Gemini podem criar Gems, chatbots personalizados em desktop e mobile alimentados por modelos Gemini. Gems podem ser gerados a partir de descrições em linguagem natural - por exemplo, 'Você é meu treinador de corrida. Me dê um plano diário de corrida' - e compartilhados com outros usuários ou mantidos privados.
\n\n
Os aplicativos Gemini podem se conectar aos serviços do Google via o que o Google chama de "extensões do Gemini". O Gemini se integra ao Drive, Gmail, YouTube e outros para responder a consultas como 'Você poderia resumir os meus últimos três e-mails?'
\n\nBate-papos de voz detalhados ao vivo com o Gemini
\n\nUma experiência chamada Gemini Live permite que os usuários tenham bate-papos de voz 'em profundidade' com o Gemini. Está disponível nos aplicativos Gemini no celular e no Pixel Buds Pro 2, onde pode ser acessado mesmo quando o telefone está bloqueado.
\n\n
Com o Gemini Live ativado, você pode interromper o Gemini enquanto o chatbot está falando para fazer uma pergunta esclarecedora, e ele se adaptará aos seus padrões de fala em tempo real. O Live também é projetado para servir como um coach virtual, ajudando você a ensaiar para eventos, brainstorm de ideias, etc. Por exemplo, o Live pode sugerir quais habilidades destacar em uma entrevista de emprego iminente e dar dicas de falar em público.
\n\nLeia nossa análise do Gemini Live aqui.
\n\nGemini para adolescentes
\n\nO Google oferece uma experiência Gemini focada em adolescentes para estudantes.
\n\nO Gemini focado em adolescentes tem "políticas e salvaguardas adicionais", incluindo um processo de integração personalizado e um guia de alfabetização em IA. Do contrário, é praticamente idêntico à experiência Gemini padrão, até o recurso de 'verificação dupla' que procura na web para ver se as respostas do Gemini são precisas.
\n\nO que os modelos Gemini podem fazer?
\n\nPor serem multimodais, os modelos Gemini podem realizar uma variedade de tarefas multimodais, desde transcrever áudio até legendar imagens e vídeos em tempo real. Muitas dessas capacidades já chegaram ao estágio de produto, e o Google promete muito mais em um futuro próximo.
\n\nClaro, o Google não oferece uma solução para alguns dos problemas subjacentes com a tecnologia de IA generativa hoje, como seus vieses codificados e a tendência a inventar coisas (i.e., alucinar). Nem seus concorrentes, mas é algo a se ter em mente ao considerar usar ou pagar pelo Gemini.
\n\nCapacidades do Gemini Pro
\n\nO Google diz que seu último modelo Pro, Gemini 2.0 Pro, é o melhor para codificação e comandos complexos. 2.0 Pro supera seu antecessor, Gemini 1.5 Pro, em benchmarks de programação, raciocínio, matemática e precisão factual.
\n\nNa plataforma Vertex AI do Google, os desenvolvedores podem personalizar o Gemini Pro para contextos e casos de uso específicos por meio de um processo de ajuste fino ou 'fundamentação'. Por exemplo, o Pro (juntamente com outros modelos Gemini) pode ser instruído a usar dados de provedores de terceiros como Moody's, Thomson Reuters, ZoomInfo e MSCI, ou obter informações de conjuntos de dados corporativos ou da Pesquisa Google em vez de seu amplo banco de conhecimentos. O Gemini Pro também pode ser conectado a APIs externas de terceiros para executar ações específicas, como automatizar um fluxo de trabalho no back-office.
\n\nA plataforma AI Studio do Google oferece modelos para criar prompts de chat estruturados com o Pro. Os desenvolvedores podem controlar a faixa criativa do modelo e fornecer exemplos para dar instruções de tom e estilo - e também ajustar as configurações de segurança do Pro.
\n\nO Gemini Flash é leve, enquanto o Gemini Flash Thinking adiciona raciocínio
\n\nO Gemini 2.0 Flash, que pode usar ferramentas como a Pesquisa Google e interagir com APIs externas, supera alguns dos modelos maiores Gemini 1.5 em benchmarks de codificação e análise de imagem. Um desdobramento do Gemini Pro, o Flash é pequeno e eficiente - projetado para cargas de trabalho estreitas de alta frequência em IA generativa.
\n\nO Google diz que o Flash é especialmente adequado para tarefas como resumos e aplicativos de bate-papo, além de legendar imagens e vídeos e extrair dados de documentos longos e tabelas. Enquanto isso, o Gemini 2.0 Flash-Lite, uma versão mais compacta do Flash, supera o Gemini 1.5 Flash, mas funciona com o mesmo preço e velocidade, de acordo com o Google.
\n\nEm dezembro passado, o Google lançou uma versão 'pensante' do Gemini 2.0 Flash capaz de 'raciocinar'. O modelo de IA leva alguns segundos para retroceder em um problema antes de fornecer uma resposta, o que pode melhorar sua confiabilidade.
\n\nO Gemini Nano pode rodar em seu telefone
\n\nO Gemini Nano é uma versão pequena e eficiente do Gemini que pode rodar diretamente em alguns dispositivos em vez de enviar a tarefa para um servidor em algum lugar. Até o momento, o Nano alimenta algumas funcionalidades dos Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 e Samsung Galaxy S24, incluindo Resumir no Gravador e Resposta Inteligente no Gboard.
\n\nO aplicativo Gravador, que permite aos usuários pressionar um botão para gravar e transcrever áudios, inclui um resumo alimentado pelo Gemini de conversas gravadas, entrevistas, apresentações e outros trechos de áudio. Os usuários recebem resumos mesmo se não tiverem sinal ou conexão Wi-Fi - e em um gesto de privacidade, nenhum dado sai de seu telefone no processo.
\n\n
O Nano também está no Gboard, a substituição do teclado do Google. Lá, ele alimenta a Resposta Inteligente, que ajuda a sugerir o próximo passo que você deseja dizer ao conversar em um aplicativo de mensagens como o WhatsApp.
\n\nUma versão futura do Android usará o Nano para alertar os usuários sobre possíveis golpes durante chamadas. O novo aplicativo de clima em telefones Pixel usa o Gemini Nano para gerar relatórios climáticos personalizados. E o TalkBack, o serviço de acessibilidade do Google, utiliza o Nano para criar descrições auditivas de objetos para