Você já montou um prompt caprichado, colocou contexto, explicou o tom, disse o que não queria, deu exemplos... e o modelo ignorou exatamente o detalhe que você mais se preocupou em especificar?
A reação natural é achar que precisa de um prompt ainda mais detalhado. Passei um tempo achando isso também.
Mas não é isso. É o contrário.
Fui pesquisar de verdade. Li 22 fontes (não eu exatamente, a AI, claro): papers acadêmicos do Stanford e MIT, publicações da Anthropic, Google e GitHub, dados de engenheiros que trabalham com IA em produção. O que encontrei mudou como eu uso IA no dia a dia.
A atenção do modelo tem formato de U
O paper mais importante foi publicado no MIT Press em 2024. “Lost in the Middle” (Liu et al.), pesquisa do Stanford com a Meta.
O experimento é simples: eles variaram a posição da informação relevante dentro de um prompt longo e mediram a performance dos modelos. O resultado foi consistente em todos os modelos testados.
LLMs prestam muito mais atenção no início e no fim do que você escreve. O meio é ignorado.
Os números: acurácia de 70-75% para informações nas extremidades. Cai para 55-60% para informações no meio. Em alguns casos, ter a informação relevante no meio gerou performance pior do que não ter informação nenhuma. O GPT-3.5-Turbo chegou a 56.1% de acurácia com informação no meio, abaixo do baseline sem contexto nenhum.
A curva de atenção tem literalmente o formato de um U.
Se você monta prompt longo e coloca a instrução mais importante no terceiro parágrafo, depois de duas seções de contexto, é ali que ela vai morrer. Não importa quão bem escrita ela está.
Existe um orçamento real de atenção
O HumanLayer, uma empresa que trabalha com agentes de IA em produção, chegou a um número concreto depois de testar com múltiplos modelos: LLMs de ponta conseguem seguir cerca de 150-200 instruções com consistência razoável.
Parece muito. Mas o comportamento de degradação é o que pega.
Quando você passa do limite, não são só as últimas instruções que perdem força. Todas perdem força uniformemente. Cada instrução nova que você adiciona dilui todas as anteriores.
Sabe quando você tem um arquivo CLAUDE.md ou system prompt com 50 regras e o modelo segue umas 30? Não é que as 20 de baixo são piores. É que 50 é demais. Se você cortar pra 15 bem escolhidas, as 15 funcionam melhor do que as 30 que funcionavam antes.
Isso inverte a lógica de “quanto mais detalhado, melhor”. Você não está sendo mais preciso. Está diluindo o que já funcionava.
Contexto irrelevante não é neutro
Esse foi o dado que mais me surpreendeu.
O Chroma Research publicou em 2025 um estudo chamado “Context Rot” testando o que acontece com a performance quando você adiciona conteúdo irrelevante ao contexto. A conclusão: performance degrada consistentemente, em todos os modelos testados, mesmo quando o conteúdo adicional não tem nada a ver com a tarefa.
E a degradação não é uniforme. Conteúdo complexo e irrelevante causa mais dano do que ruído simples.
Aquele contexto elaborado que você adicionou “só pra garantir que o modelo entenda”? Tá atrapalhando. Cada linha que não contribui diretamente pro resultado não ocupa só espaço, compete ativamente com o que importa.
É tipo poluição sonora. Você não precisa de silêncio absoluto pra trabalhar, mas se tem uma TV ligada, alguém falando no telefone e um cachorro latindo, sua produtividade cai mesmo que nenhum desses sons tenha a ver com sua tarefa.
O que mudou na prática
Três coisas que faço diferente hoje.
O mais importante vai no começo, sempre. Se tem uma instrução de tom, formato ou restrição que não pode ser ignorada, ela está na primeira linha. Não depois do contexto. Antes. Parece óbvio, mas vai olhar seus últimos prompts, aposto que a instrução principal tá enterrada no meio.
Corto contexto até doer. Pra cada bloco de um prompt longo, pergunto: se eu tirar isso, o resultado piora? Se a resposta for “talvez não”, tiro. Menos contexto com mais relevância tende a gerar resultado melhor do que mais contexto com mais completude.
Paro de repetir o que já está implícito. Se estou pedindo pra escrever um e-mail profissional, não preciso escrever “use tom profissional”. O modelo já infere. Instrução redundante consome orçamento de atenção sem retorno.
Se a palavra não tá ajudando, ela tá atrapalhando. Isso vale pra prompts simples, vale pra system prompts, e vale especialmente pra quem tá construindo agentes com contexto persistente, porque aí o lixo acumula e só piora com o tempo.
Na próxima edição falo sobre o outro lado do problema: como estruturar tarefas pra IA de forma que ela execute sem retrabalho. Um pesquisador do Manus AI publicou dados concretos sobre o overhead que tarefas mal escritas geram. O resultado é contraintuitivo e quero mostrar os números.
Bruno Bertolini