Um relatório de campo sobre como 9 modelos de IA foram observados escrevendo sobre um ecossistema open-source — e o que isso revela sobre contexto, método e execução.
O experimento não mediu apenas output. Mediu atrito, latência, contexto perdido e qualidade das decisões de cada modelo.
Sem mapa, o agente vibra. Cada execução é uma ilha. O conhecimento não acumula — evapora.
Com blueprint, ele navega. O contexto vira instrumento. A memória vira estrada.
A experiência foi conduzida como um ciclo vivo: observar o sistema, formular intervenção, executar com limites, validar evidências e condensar aprendizado.
Os resultados abaixo não são troféus. São sinais. Cada card separa o que já apareceu, o que precisa ser medido e o que deve virar próximo experimento.
| # | Modelo | NIM ID | Words | Tempo | Words/s | Status |
|---|---|---|---|---|---|---|
| 🥇 | qwen3.5-397b | qwen/qwen3.5-397b-a17b | 1.085 | 29,9s | 36,3 | ✅ OK |
| 🥈 | glm-5.1 | z-ai/glm-5.1 | 954 | 26,2s | 36,4 | ✅ OK |
| 🥉 | mistral-small-4-119b | mistralai/mistral-small-4-119b-2603 | 904 | 10,9s | 83,0 | ✅ 🚀 |
| 4 | nemotron-3-ultra-550b | nvidia/nemotron-3-ultra-550b-a55b | 865 | 56,1s | 15,4 | ✅ retry |
| 5 | deepseek-v4-pro | deepseek-ai/deepseek-v4-pro | 839 | 77,2s | 10,9 | ✅ OK |
| 6 | nemotron-3-super-120b | nvidia/nemotron-3-super-120b-a12b | 695 | 68,1s | 10,2 | ✅ OK |
| 7 | mistral-large-3-675b | mistralai/mistral-large-3-675b-instruct-2512 | 692 | 132,8s | 5,2 | ✅ OK |
| 8 | llama-4-maverick | meta/llama-4-maverick-17b-128e-instruct | 637 | 11,4s | 55,9 | ✅ OK |
| 9 | kimi-k2.6 | moonshotai/kimi-k2.6 | 172 | 20,7s | 8,3 | ⚠️ curto |
mistral-small-4-119b completou em 10,9s — 83 words/s. O mais rápido de todos.
Modelos menores com MoE eficiente superam modelos maiores em throughput.
qwen3.5-397b gerou 1.085 words — o mais verboso. Mistral-small: 904 words em 1/3 do tempo.
Volume ≠ qualidade. O próximo passo é medir relevância e aderência ao prompt.
Todos os modelos seguiram a estrutura pedida (emojis, tabelas, Quick Start). kimi-k2.6 produziu resposta curta (172w).
Alguns modelos podem ter content filter que trunca respostas longas.
8/9 modelos funcionaram na primeira tentativa. nemotron-3-ultra-550b precisou de retry (timeout 180s).
Modelos maiores têm latência mais variável. Retry é necessário para produção.
Medido: volume e velocidade. Não medido: coerência, factibilidade, aderência à voz.
O artigo do deepseek-v4-pro pareceu mais técnico. O do glm-5.1 mais acessível.
NIM free tier: 32 RPM, $50/dia. Todos os 9 modelos rodaram em ~8 minutos com custo $0.
Para content pipeline diário, NIM free tier é viável para 100+ posts/dia.
Produziu apenas 172 words — 80% menos que a média. Pode ser content filter ou rate limit.
Modelo agentic (1T MoE) pode ser otimizado para tool-use, não para geração de texto longo.
9 modelos × 1 prompt = 8 minutos. Escala: 90 modelos × 10 prompts = ~90 minutos.
A viabilidade de um content pipeline multi-modelo via NIM está demonstrada.
O momento mais importante não foi quando o agente gerou código. Foi quando o sistema começou a explicar por que aquele código deveria existir.
O blueprint deixou de ser documento e virou instrumento. Quando o prompt foi padronizado, cada modelo revelou sua personalidade: qwen é verboso, mistral-small é cirúrgico, deepseek é metódico.
O agente melhora quando sabe onde não pode mexer. O protocolo de "1 prompt, 9 modelos" removeu a variável do prompt e isolou a variável do modelo. Isso é método.
nemotron-3-ultra-550b deu timeout na primeira tentativa. Outputs bonitos ainda podem esconder ausência de retry strategy. O sistema precisou de human intervention para decidir re-testar.
kimi-k2.6 gerou 172 words — oito vezes menos que qwen. Mas sua especialidade é tool-use, não texto longo. O erro foi expectativa errada, não modelo ruim. Cada modelo tem seu habitat.
Próximo teste: medir drift entre intenção do usuário e diff final. O prompt pedia "extenso, 1500+ words" — mas nenhum modelo atingiu 1500. Isso é sinal de que o prompt precisa de calibração, não de que os modelos falharam.
Cada evidência é um artefato observável. Nada é fabricado. O que não foi medido está marcado como pendente.
Do laboratório para o terminal: como traduzir cada conceito científico em linguagem de build.
"O Hermes Blueprint funciona melhor quando deixa de ser só prompt e vira sistema operacional de contexto: memória, contrato, ferramentas, avaliação, limites e estética trabalhando juntos. Cada modelo testado é um organismo observado — e o laboratório continua aberto."