Hermes Blueprint Lab — Relatório de Campo

01 · Hipóteses

O que estávamos testando

O experimento não mediu apenas output. Mediu atrito, latência, contexto perdido e qualidade das decisões de cada modelo.

H₀ — NULA

Um agente sem blueprint operacional perde contexto, repete trabalho e cria deriva.

Sem mapa, o agente vibra. Cada execução é uma ilha. O conhecimento não acumula — evapora.

"Sem mapa, o agente vibra."

H₁ — ALTERNATIVA

Com blueprint ancorado no repositório + memória + gates de avaliação, a execução fica mais coerente, auditável e fácil de evoluir.

Com blueprint, ele navega. O contexto vira instrumento. A memória vira estrada.

"Com blueprint, ele navega."

02 · Protocolo

Método experimental

A experiência foi conduzida como um ciclo vivo: observar o sistema, formular intervenção, executar com limites, validar evidências e condensar aprendizado.

Observar

"escutar o código"

file map, risks

Instrumentar

"colocar sensores"

NIM endpoint, API key

Promptar

"dar a mesma pergunta"

1 prompt padrão

Executar

"rodar os 9 modelos"

9 chamadas sequenciais

Validar

"medir o que saiu"

words, chars, tempo

Distilar

"extrair o sinal"

ranking, insights

Iterar

"próximo experimento"

medir qualidade

03 · Resultados

Dashboard de sinais

Os resultados abaixo não são troféus. São sinais. Cada card separa o que já apareceu, o que precisa ser medido e o que deve virar próximo experimento.

#	Modelo	NIM ID	Words	Tempo	Words/s	Status
🥇	qwen3.5-397b	qwen/qwen3.5-397b-a17b	1.085	29,9s	36,3	✅ OK
🥈	glm-5.1	z-ai/glm-5.1	954	26,2s	36,4	✅ OK
🥉	mistral-small-4-119b	mistralai/mistral-small-4-119b-2603	904	10,9s	83,0	✅ 🚀
4	nemotron-3-ultra-550b	nvidia/nemotron-3-ultra-550b-a55b	865	56,1s	15,4	✅ retry
5	deepseek-v4-pro	deepseek-ai/deepseek-v4-pro	839	77,2s	10,9	✅ OK
6	nemotron-3-super-120b	nvidia/nemotron-3-super-120b-a12b	695	68,1s	10,2	✅ OK
7	mistral-large-3-675b	mistralai/mistral-large-3-675b-instruct-2512	692	132,8s	5,2	✅ OK
8	llama-4-maverick	meta/llama-4-maverick-17b-128e-instruct	637	11,4s	55,9	✅ OK
9	kimi-k2.6	moonshotai/kimi-k2.6	172	20,7s	8,3	⚠️ curto

Validated

⚡ Velocidade

mistral-small-4-119b completou em 10,9s — 83 words/s. O mais rápido de todos.

Modelos menores com MoE eficiente superam modelos maiores em throughput.

→ Próximo: medir latência p50/p99 com 100 chamadas

Validated

📝 Volume de Conteúdo

qwen3.5-397b gerou 1.085 words — o mais verboso. Mistral-small: 904 words em 1/3 do tempo.

Volume ≠ qualidade. O próximo passo é medir relevância e aderência ao prompt.

→ Próximo: scoring de qualidade por LLM-judge

Promising

🎯 Aderência ao Prompt

Todos os modelos seguiram a estrutura pedida (emojis, tabelas, Quick Start). kimi-k2.6 produziu resposta curta (172w).

Alguns modelos podem ter content filter que trunca respostas longas.

→ Próximo: testar com prompt de 3000+ words

Observed

🔄 Confiabilidade

8/9 modelos funcionaram na primeira tentativa. nemotron-3-ultra-550b precisou de retry (timeout 180s).

Modelos maiores têm latência mais variável. Retry é necessário para produção.

→ Próximo: implementar circuit breaker com fallback

Pending

🧠 Qualidade Semântica

Medido: volume e velocidade. Não medido: coerência, factibilidade, aderência à voz.

O artigo do deepseek-v4-pro pareceu mais técnico. O do glm-5.1 mais acessível.

→ Próximo: LLM-judge para scoring D1-D9

Observed

💰 Custo Efetivo

NIM free tier: 32 RPM, $50/dia. Todos os 9 modelos rodaram em ~8 minutos com custo $0.

Para content pipeline diário, NIM free tier é viável para 100+ posts/dia.

→ Próximo: medir custo real com 1000 chamadas

Unstable

⚠️ kimi-k2.6

Produziu apenas 172 words — 80% menos que a média. Pode ser content filter ou rate limit.

Modelo agentic (1T MoE) pode ser otimizado para tool-use, não para geração de texto longo.

→ Próximo: testar kimi isoladamente com prompt diferente

Promising

🏭 Pipeline Viável

9 modelos × 1 prompt = 8 minutos. Escala: 90 modelos × 10 prompts = ~90 minutos.

A viabilidade de um content pipeline multi-modelo via NIM está demonstrada.

→ Próximo: integrar com uniteia-mega-factory

04 · Notas de Campo

Observações do laboratório

O momento mais importante não foi quando o agente gerou código. Foi quando o sistema começou a explicar por que aquele código deveria existir.

Dia 01 · 2026-06-21 04:50 UTC

SINAL FORTE

O blueprint deixou de ser documento e virou instrumento. Quando o prompt foi padronizado, cada modelo revelou sua personalidade: qwen é verboso, mistral-small é cirúrgico, deepseek é metódico.

Dia 01 · 2026-06-21 04:59 UTC

INSIGHT

O agente melhora quando sabe onde não pode mexer. O protocolo de "1 prompt, 9 modelos" removeu a variável do prompt e isolou a variável do modelo. Isso é método.

Dia 01 · 2026-06-21 05:00 UTC

FALHA ÚTIL

nemotron-3-ultra-550b deu timeout na primeira tentativa. Outputs bonitos ainda podem esconder ausência de retry strategy. O sistema precisou de human intervention para decidir re-testar.

Dia 01 · 2026-06-21 05:05 UTC

SINAL FORTE

kimi-k2.6 gerou 172 words — oito vezes menos que qwen. Mas sua especialidade é tool-use, não texto longo. O erro foi expectativa errada, não modelo ruim. Cada modelo tem seu habitat.

Dia 01 · 2026-06-21 05:10 UTC

INSIGHT

Próximo teste: medir drift entre intenção do usuário e diff final. O prompt pedia "extenso, 1500+ words" — mas nenhum modelo atingiu 1500. Isso é sinal de que o prompt precisa de calibração, não de que os modelos falharam.

05 · Evidências

Wall de evidências

Cada evidência é um artefato observável. Nada é fabricado. O que não foi medido está marcado como pendente.

📄

9 Artigos .md

Coletado

📊

summary.json

Coletado

🔗

Git Commit 6b0e5c2

Coletado

⏱️

Latência por modelo

Coletado

🧠

LLM-Judge scoring

Pendente

📈

Distribuição de qualidade

Pendente

🔬

Aderência ao prompt

Pendente

💰

Custo real NIM

Pendente

06 · Dicionário

Cientista × Vibe-Coding

Do laboratório para o terminal: como traduzir cada conceito científico em linguagem de build.

Científico

Hipótese

Vibe-Coding

Intenção

Científico

Controle

Vibe-Coding

Atrito

Científico

Sinal

Vibe-Coding

Sinal vivo

Científico

Ruído

Vibe-Coding

Ruído bonito

Científico

Replicabilidade

Vibe-Coding

Loop confiável

Científico

Deriva

Vibe-Coding

Drift

Científico

Protocolo

Vibe-Coding

Ritual de execução

Científico

Avaliação

Vibe-Coding

Gate de verdade

07 · Síntese

"O Hermes Blueprint funciona melhor quando deixa de ser só prompt e vira sistema operacional de contexto: memória, contrato, ferramentas, avaliação, limites e estética trabalhando juntos. Cada modelo testado é um organismo observado — e o laboratório continua aberto."

📁 Ver Evidências no GitHub 🔬 Ver UniTeia v2 🧪 Próximo Experimento