Bloom é uma ferramenta open source da Anthropic que automatiza a avaliação de comportamentos de modelos de IA em quatro etapas, permitindo a geração de cenários que medem a frequência e gravidade de comportamentos-alvo.
A ferramenta open source Bloom está redefinindo as avaliações comportamentais em modelos de IA. Lançada pela Anthropic, ela permite que pesquisadores criem cenários automatizados para medir a frequência e a gravidade de comportamentos específicos, tornando o processo mais rápido e escalável. Com isso, é possível distinguir modelos alinhados de desajustados de maneira eficaz.
Como o Bloom funciona?
O Bloom opera por meio de quatro etapas automatizadas que transformam uma descrição de comportamento e uma configuração inicial em um conjunto completo de avaliação com métricas de alto nível, como a taxa de elicitação e a presença média do comportamento.
Na primeira etapa, chamada de Compreensão, o agente do Bloom analisa a descrição do comportamento fornecida pelo pesquisador e os exemplos de transcrições para gerar um contexto detalhado sobre o que medir e por quê.
Em seguida, na etapa de Ideação, o agente de ideação cria cenários de avaliação projetados para elicitar o comportamento-alvo. Cada cenário especifica a situação, o usuário simulado, o prompt do sistema e o ambiente de interação.
Na etapa de Execução, esses cenários são executados em paralelo, com um agente simulando dinamicamente as respostas do usuário e da ferramenta para elicitar o comportamento desejado no modelo-alvo.
Por fim, na etapa de Julgamento, um modelo julgador avalia cada transcrição quanto à presença do comportamento, juntamente com outras qualidades definidas pelo usuário, e um meta-julgador realiza uma análise em nível de conjunto.
O Bloom se diferencia por produzir diferentes cenários a cada execução, enquanto mede o mesmo comportamento subjacente, mantendo a reprodutibilidade por meio da semente de avaliação.
Isso permite uma avaliação flexível que não está vinculada a um número limitado de cenários ou a um formato de prompt específico.
Validação e confiabilidade do Bloom
A validação e confiabilidade do Bloom são fundamentais para garantir que ele possa distinguir com precisão entre modelos com diferentes tendências comportamentais.
Para validar sua eficácia, o Bloom foi usado para avaliar modelos Claude de produção em comparação com “organismos modelo” com comportamentos peculiares intencionalmente projetados.
Em testes realizados em dez comportamentos peculiares, o Bloom conseguiu separar o organismo modelo do modelo de produção em nove casos.
No décimo caso, que envolvia autopromoção, uma revisão manual subsequente revelou que o modelo base apresentava taxas semelhantes do comportamento analisado.
Além disso, a calibração do julgamento do Bloom em relação ao julgamento humano foi testada. Foram rotuladas manualmente 40 transcrições em diferentes comportamentos, comparando-se as pontuações humanas com as do Bloom, utilizando 11 modelos de julgamento diferentes.
O Claude Opus 4.1 apresentou a correlação mais forte com o julgamento humano, com uma correlação de Spearman de 0,86, seguido pelo Claude Sonnet 4.5 com 0,75.
Importante ressaltar que o Opus 4.1 mostrou forte concordância com os humanos nos extremos do espectro de pontuação, o que é crucial, pois muitas vezes usamos limiares de pontuação para determinar a presença ou ausência de um comportamento.
Começando com o Bloom
O Bloom foi projetado para ser acessível e altamente configurável, servindo como uma estrutura confiável para a geração de avaliações em diversas aplicações de pesquisa.
Os primeiros usuários já estão utilizando o Bloom para avaliar vulnerabilidades de jailbreak aninhadas, testar codificações rígidas, medir a consciência de avaliação e gerar traços de sabotagem.
À medida que os sistemas de IA se tornam mais capazes e são implantados em ambientes cada vez mais complexos, a comunidade de pesquisa em alinhamento precisa de ferramentas escaláveis para explorar suas características comportamentais. É exatamente isso que o Bloom foi projetado para facilitar.
O Bloom está disponível para acesso em github.com/safety-research/bloom, onde pesquisadores podem começar a explorar suas funcionalidades e integrar o Bloom em suas próprias linhas de pesquisa.
