Antigravity: Entendendo os limites de uso e dicas para otimização

AUTHOR:

fellyph

READ_TIME: ~5 MIN

Se você chegou aqui, provavelmente já bateu na parede dos limites de uso do Google Antigravity e ficou com a sensação de que “gastou mais do que devia”. No meu canal, vinha mencionando que a cota do Antigravity era muito generosa, e a conta veio: recentemente, o Google alterou as cotas do Antigravity e muita gente sentiu a mudança.

Particularmente, eu uso a conta Gemini Pro e até com a conta paga, a limitação das cotas é visível. E outros desenvolvedores estão enfrentando o mesmo problema.

Esse post é uma continuação de “Como Otimizar o Uso de Tokens e Créditos no Google Antigravity”. Lá eu cobri o lado das boas práticas de prompt, contexto e falei de uma parte importante deste quebra-cabeça: as requisições. Aqui, o foco é outro: como a cota é realmente calculada, por que ela esgota tão rápido e quais ajustes no seu fluxo de trabalho te dão mais tempo útil na ferramenta.

A primeira confusão: compute, não tokens

A maioria das pessoas assume que o Antigravity cobra por tokens, como a interface web do Gemini, do Claude ou do ChatGPT. Não é assim que funciona. O Google calcula o uso com base no trabalho computacional que o modelo precisa realizar, não na quantidade bruta de tokens que entram e saem.

Isso explica por que:

O autocomplete no editor praticamente não move a agulha.
Conversas curtas no chat consomem muito pouco.
Planejamento de arquitetura, edições em múltiplos arquivos e varredura de repositório drenam a cota rapidamente.
Loops no terminal e automação de browser são, de longe, as operações mais caras.

Ou seja: a mesma “tarefa” pode ter custos radicalmente diferentes dependendo de quanto esforço o agente precisa investir para concluí-la.

As cotas que você precisa conhecer

Segundo a documentação atual dos planos do Antigravity, o sistema tem dois limites que rodam em paralelo:

250 unidades de uso cada 5 horas, por provedor de modelo. Esse é o ciclo curto, rolling — ele se regenera à medida que o tempo passa.
2.800 unidades de uso por semana. Esse é o teto duro. Mesmo que o ciclo de 5 horas se reinicie, se você estourou o teto semanal, fica travado até a semana virar.

A confusão típica aparece exatamente aqui: o desenvolvedor espera as 5 horas, volta para trabalhar, e descobre que ainda está bloqueado porque o limite semanal já tinha estourado. Vale revisitar isso antes de culpar a ferramenta.

Multiplicadores por modelo

Outro ponto que o painel não deixa óbvio: cada modelo consome a cota em ritmos distintos. Tomando o Claude Sonnet como linha de base, a lista aproximada (confirmada nas discussões oficiais e na página de modelos) fica mais ou menos assim:

Modelo	Consumo relativo	Quando faz sentido
Gemini Flash	~10× mais barato que Sonnet	Execução de tarefas bem definidas, boilerplate, loops curtos
Gemini Pro	~1,5× Sonnet	Raciocínio intermediário, análise de código
Claude Sonnet 4.6	1× (baseline)	Driver do dia a dia para trabalho agêntico consistente
Claude Opus	~8× Sonnet	Raciocínio pesado pontual — nunca para tarefas repetitivas

Esse fator é o que mais pega a gente de surpresa. Rodar Opus em uma automação de browser pode esgotar a cota semanal inteira em cerca de 40 minutos, enquanto o Gemini Flash faria o mesmo trabalho consumindo uma fração ínfima.

Os dois gatilhos de lockout imediato

Existem duas situações em que o Antigravity não só consome a cota — ele bloqueia a conta na hora, independentemente do que restava:

Loops em terminal com permissão “always allow”. Um agente preso em um ciclo de debug pode queimar a semana inteira em um único prompt. Parece conveniente deixar o agente com todas as permissões, mas isso pode criar um problema se ele entrar em loop — e acredite, isso é algo super comum. Nunca deixe o Fast Mode rodando comandos em loop sem supervisão.
Automação externa encadeando prompts. Ferramentas como n8n, Make ou scripts próprios que disparam prompts no Antigravity são detectadas pela plataforma e geram bloqueio imediato. O Google é explícito: o Antigravity não é uma API para encadeamento externo.

Esses dois casos não aparecem na barra de cota. Eles simplesmente derrubam o acesso.

Ajustando o fluxo de trabalho

Entender o mecanismo é metade do caminho. A outra metade é redesenhar o fluxo para gastar menos computação por tarefa.

1. Combine modelo e tarefa

A regra mais importante: Sonnet 4.6 em Fast Mode é o driver diário, Opus entra só quando a tarefa exige raciocínio profundo, e Flash assume qualquer coisa que seja execução determinística. Se você está usando Opus para gerar CRUD, preencher boilerplate ou percorrer arquivos, está pagando 8× o preço por um ganho que não existe.

2. Restrinja o contexto com @mentions

Mesmo sem ser token-based, o tamanho do contexto ainda escala o custo porque o modelo precisa processar mais material. Use o comando @ para fixar exatamente o arquivo que você quer editar em vez de deixar o agente varrer o repo. Um endpoint de API não precisa do tema inteiro do WordPress carregado. Combine isso com o .geminiignore do post anterior e o ganho é significativo.

3. Mantenha um arquivo de session state

Uma prática que mudou completamente o meu consumo: antes de encerrar cada sessão, eu peço para o agente escrever um SESSION_STATE.md curto com o que foi feito, o que falta, decisões tomadas e próximos passos. Na sessão seguinte, o agente lê esse arquivo e retoma o trabalho — sem arrastar o histórico inteiro da conversa, sem refazer análises e sem pagar de novo por contexto que já tinha sido processado.

O mesmo arquivo serve como ponte entre modelos e entre ferramentas: você pode começar no Antigravity com Sonnet, passar para o Gemini CLI no terminal, voltar para o Antigravity com Flash, e todos têm o mesmo ponto de partida.

4. Rotacione entre modelos e ferramentas

As cotas são contadas por provedor. Se o pool do Claude estiver travado, mude para o pool do Gemini. Se os dois acabarem, vá para fora do Antigravity: o Gemini CLI no terminal é gratuito até 1.000 requisições por dia, e serviços como Arena AI ou GenSpark dão acesso a modelos pesados sem tocar na cota da IDE. O SESSION_STATE.md permite que qualquer um desses ambientes retome o trabalho de onde você parou.

5. Planeje fora do Antigravity

Planejamento é a atividade que mais consome compute: muitas idas e voltas, muito raciocínio, muitos tokens de reasoning. A sacada é: faça o planejamento em outro lugar e traga só o plano final para o Antigravity executar.

Meu fluxo padrão hoje é usar Arena AI (ou Gemini diretamente no AI Studio) para discutir arquitetura, listar tarefas e definir decisões com Opus 4.6 ou Gemini 3 Pro. Quando o plano está fechado, entro no Antigravity com Flash ou Sonnet e deixo o agente executar apenas. Isso economiza facilmente metade da cota semanal.

6. Crie documentações locais

Evite usar a ferramenta de consulta na web; isso consome requisições extras. Se algo é importante para o seu projeto e você vai consultar com frequência, crie uma pasta docs e salve em Markdown os arquivos relevantes. Eles podem ser referenciados no seu GEMINI.md, economizando tanto as requisições de busca quanto o compute gasto para processar páginas web inteiras a cada pergunta.

Conclusão

O Antigravity, com as mudanças recentes, trouxe a sensação de estar usando um jogo sempre na versão demo. Mas essa limitação quase sempre decorre de três causas combinadas: deixar o agente em loops desnecessários, fazer o agente varrer o repositório inteiro a cada prompt e fazer planejamento dentro da ferramenta, em vez de fora dela. Corrigindo esses três pontos, o plano Pro entrega sem esforço de 40 a 80 horas semanais de trabalho agêntico que o Google anuncia.

Se este post foi útil e você quer o outro lado da moeda, o nível de sintaxe do prompt e da configuração do projeto, vale passar no Como Otimizar o Uso de Tokens e Créditos no Google Antigravity. Os dois juntos cobrem o fluxo inteiro.

Referências oficiais

ENCODING: UTF-8

CHMOD: 644

// RELATED_ENTRIES

NEXT_READS

> cat ./comments.log

LOADING_ENTRIES…

> write ./comments.log –append