Whet Benchmark

Quanto um LLM consegue afiar um prompt sem destruir a intenção?

Meta-prompt-following sob pressão pra preservar propósito — uma capacidade que nenhum benchmark público avalia diretamente. Aqui: delta de score antes/depois em cada modelo do corpus.

Sem amostras suficientes ainda.

O ranking ao vivo é alimentado pelas chamadas reais de /api/rewrite. Cada vez que um usuário cola um prompt na landing e clica em "Reescrever com IA", o provider que responde tem seu delta agregado aqui. Volte depois que houver uso real — ou cole um prompt na landing e veja a primeira amostra aparecer.