EXPERIMENTO EM CURSO

Hermes Blueprint Lab

Um relatório de campo sobre como 9 modelos de IA foram observados escrevendo sobre um ecossistema open-source — e o que isso revela sobre contexto, método e execução.

📅 2026-06-21 🧪 9 modelos NIM testados 🔬 1 prompt · 9 respostas 📊 7.842 words geradas
Hipótese
Observação
Execução
Medição
Resultado
📊 Ver Resultados 🔬 Ver Método 📁 Ver Evidências

O que estávamos testando

O experimento não mediu apenas output. Mediu atrito, latência, contexto perdido e qualidade das decisões de cada modelo.

H₀ — NULA

Um agente sem blueprint operacional perde contexto, repete trabalho e cria deriva.

Sem mapa, o agente vibra. Cada execução é uma ilha. O conhecimento não acumula — evapora.

"Sem mapa, o agente vibra."
H₁ — ALTERNATIVA

Com blueprint ancorado no repositório + memória + gates de avaliação, a execução fica mais coerente, auditável e fácil de evoluir.

Com blueprint, ele navega. O contexto vira instrumento. A memória vira estrada.

"Com blueprint, ele navega."

Método experimental

A experiência foi conduzida como um ciclo vivo: observar o sistema, formular intervenção, executar com limites, validar evidências e condensar aprendizado.

01
Observar
"escutar o código"
file map, risks
02
Instrumentar
"colocar sensores"
NIM endpoint, API key
03
Promptar
"dar a mesma pergunta"
1 prompt padrão
04
Executar
"rodar os 9 modelos"
9 chamadas sequenciais
05
Validar
"medir o que saiu"
words, chars, tempo
06
Distilar
"extrair o sinal"
ranking, insights
07
Iterar
"próximo experimento"
medir qualidade

Dashboard de sinais

Os resultados abaixo não são troféus. São sinais. Cada card separa o que já apareceu, o que precisa ser medido e o que deve virar próximo experimento.

# Modelo NIM ID Words Tempo Words/s Status
🥇 qwen3.5-397b qwen/qwen3.5-397b-a17b 1.085 29,9s 36,3 ✅ OK
🥈 glm-5.1 z-ai/glm-5.1 954 26,2s 36,4 ✅ OK
🥉 mistral-small-4-119b mistralai/mistral-small-4-119b-2603 904 10,9s 83,0 ✅ 🚀
4 nemotron-3-ultra-550b nvidia/nemotron-3-ultra-550b-a55b 865 56,1s 15,4 ✅ retry
5 deepseek-v4-pro deepseek-ai/deepseek-v4-pro 839 77,2s 10,9 ✅ OK
6 nemotron-3-super-120b nvidia/nemotron-3-super-120b-a12b 695 68,1s 10,2 ✅ OK
7 mistral-large-3-675b mistralai/mistral-large-3-675b-instruct-2512 692 132,8s 5,2 ✅ OK
8 llama-4-maverick meta/llama-4-maverick-17b-128e-instruct 637 11,4s 55,9 ✅ OK
9 kimi-k2.6 moonshotai/kimi-k2.6 172 20,7s 8,3 ⚠️ curto


Validated

⚡ Velocidade

mistral-small-4-119b completou em 10,9s — 83 words/s. O mais rápido de todos.

Modelos menores com MoE eficiente superam modelos maiores em throughput.

Validated

📝 Volume de Conteúdo

qwen3.5-397b gerou 1.085 words — o mais verboso. Mistral-small: 904 words em 1/3 do tempo.

Volume ≠ qualidade. O próximo passo é medir relevância e aderência ao prompt.

Promising

🎯 Aderência ao Prompt

Todos os modelos seguiram a estrutura pedida (emojis, tabelas, Quick Start). kimi-k2.6 produziu resposta curta (172w).

Alguns modelos podem ter content filter que trunca respostas longas.

Observed

🔄 Confiabilidade

8/9 modelos funcionaram na primeira tentativa. nemotron-3-ultra-550b precisou de retry (timeout 180s).

Modelos maiores têm latência mais variável. Retry é necessário para produção.

Pending

🧠 Qualidade Semântica

Medido: volume e velocidade. Não medido: coerência, factibilidade, aderência à voz.

O artigo do deepseek-v4-pro pareceu mais técnico. O do glm-5.1 mais acessível.

Observed

💰 Custo Efetivo

NIM free tier: 32 RPM, $50/dia. Todos os 9 modelos rodaram em ~8 minutos com custo $0.

Para content pipeline diário, NIM free tier é viável para 100+ posts/dia.

Unstable

⚠️ kimi-k2.6

Produziu apenas 172 words — 80% menos que a média. Pode ser content filter ou rate limit.

Modelo agentic (1T MoE) pode ser otimizado para tool-use, não para geração de texto longo.

Promising

🏭 Pipeline Viável

9 modelos × 1 prompt = 8 minutos. Escala: 90 modelos × 10 prompts = ~90 minutos.

A viabilidade de um content pipeline multi-modelo via NIM está demonstrada.

Observações do laboratório

O momento mais importante não foi quando o agente gerou código. Foi quando o sistema começou a explicar por que aquele código deveria existir.

Dia 01 · 2026-06-21 04:50 UTC
SINAL FORTE

O blueprint deixou de ser documento e virou instrumento. Quando o prompt foi padronizado, cada modelo revelou sua personalidade: qwen é verboso, mistral-small é cirúrgico, deepseek é metódico.

Dia 01 · 2026-06-21 04:59 UTC
INSIGHT

O agente melhora quando sabe onde não pode mexer. O protocolo de "1 prompt, 9 modelos" removeu a variável do prompt e isolou a variável do modelo. Isso é método.

Dia 01 · 2026-06-21 05:00 UTC
FALHA ÚTIL

nemotron-3-ultra-550b deu timeout na primeira tentativa. Outputs bonitos ainda podem esconder ausência de retry strategy. O sistema precisou de human intervention para decidir re-testar.

Dia 01 · 2026-06-21 05:05 UTC
SINAL FORTE

kimi-k2.6 gerou 172 words — oito vezes menos que qwen. Mas sua especialidade é tool-use, não texto longo. O erro foi expectativa errada, não modelo ruim. Cada modelo tem seu habitat.

Dia 01 · 2026-06-21 05:10 UTC
INSIGHT

Próximo teste: medir drift entre intenção do usuário e diff final. O prompt pedia "extenso, 1500+ words" — mas nenhum modelo atingiu 1500. Isso é sinal de que o prompt precisa de calibração, não de que os modelos falharam.

Wall de evidências

Cada evidência é um artefato observável. Nada é fabricado. O que não foi medido está marcado como pendente.

📄
9 Artigos .md
Coletado
📊
summary.json
Coletado
🔗
Git Commit 6b0e5c2
Coletado
⏱️
Latência por modelo
Coletado
🧠
LLM-Judge scoring
Pendente
📈
Distribuição de qualidade
Pendente
🔬
Aderência ao prompt
Pendente
💰
Custo real NIM
Pendente

Cientista × Vibe-Coding

Do laboratório para o terminal: como traduzir cada conceito científico em linguagem de build.

Científico
Hipótese
Vibe-Coding
Intenção
Científico
Controle
Vibe-Coding
Atrito
Científico
Sinal
Vibe-Coding
Sinal vivo
Científico
Ruído
Vibe-Coding
Ruído bonito
Científico
Replicabilidade
Vibe-Coding
Loop confiável
Científico
Deriva
Vibe-Coding
Drift
Científico
Protocolo
Vibe-Coding
Ritual de execução
Científico
Avaliação
Vibe-Coding
Gate de verdade
"O Hermes Blueprint funciona melhor quando deixa de ser só prompt e vira sistema operacional de contexto: memória, contrato, ferramentas, avaliação, limites e estética trabalhando juntos. Cada modelo testado é um organismo observado — e o laboratório continua aberto."