Tecnologia e Inovações

Anthropic lança Bloom para avaliação comportamental de modelos de IA

Bloom é uma ferramenta open source da Anthropic que automatiza a avaliação de comportamentos de modelos de IA em quatro etapas, permitindo a geração de cenários que medem a frequência e gravidade de comportamentos-alvo.

A ferramenta open source Bloom está redefinindo as avaliações comportamentais em modelos de IA. Lançada pela Anthropic, ela permite que pesquisadores criem cenários automatizados para medir a frequência e a gravidade de comportamentos específicos, tornando o processo mais rápido e escalável. Com isso, é possível distinguir modelos alinhados de desajustados de maneira eficaz.

Como o Bloom funciona?

O Bloom opera por meio de quatro etapas automatizadas que transformam uma descrição de comportamento e uma configuração inicial em um conjunto completo de avaliação com métricas de alto nível, como a taxa de elicitação e a presença média do comportamento.

Na primeira etapa, chamada de Compreensão, o agente do Bloom analisa a descrição do comportamento fornecida pelo pesquisador e os exemplos de transcrições para gerar um contexto detalhado sobre o que medir e por quê.

Em seguida, na etapa de Ideação, o agente de ideação cria cenários de avaliação projetados para elicitar o comportamento-alvo. Cada cenário especifica a situação, o usuário simulado, o prompt do sistema e o ambiente de interação.

Na etapa de Execução, esses cenários são executados em paralelo, com um agente simulando dinamicamente as respostas do usuário e da ferramenta para elicitar o comportamento desejado no modelo-alvo.

Por fim, na etapa de Julgamento, um modelo julgador avalia cada transcrição quanto à presença do comportamento, juntamente com outras qualidades definidas pelo usuário, e um meta-julgador realiza uma análise em nível de conjunto.

O Bloom se diferencia por produzir diferentes cenários a cada execução, enquanto mede o mesmo comportamento subjacente, mantendo a reprodutibilidade por meio da semente de avaliação.

Isso permite uma avaliação flexível que não está vinculada a um número limitado de cenários ou a um formato de prompt específico.

Validação e confiabilidade do Bloom

A validação e confiabilidade do Bloom são fundamentais para garantir que ele possa distinguir com precisão entre modelos com diferentes tendências comportamentais.

Para validar sua eficácia, o Bloom foi usado para avaliar modelos Claude de produção em comparação com “organismos modelo” com comportamentos peculiares intencionalmente projetados.

Em testes realizados em dez comportamentos peculiares, o Bloom conseguiu separar o organismo modelo do modelo de produção em nove casos.

No décimo caso, que envolvia autopromoção, uma revisão manual subsequente revelou que o modelo base apresentava taxas semelhantes do comportamento analisado.

Além disso, a calibração do julgamento do Bloom em relação ao julgamento humano foi testada. Foram rotuladas manualmente 40 transcrições em diferentes comportamentos, comparando-se as pontuações humanas com as do Bloom, utilizando 11 modelos de julgamento diferentes.

O Claude Opus 4.1 apresentou a correlação mais forte com o julgamento humano, com uma correlação de Spearman de 0,86, seguido pelo Claude Sonnet 4.5 com 0,75.

Importante ressaltar que o Opus 4.1 mostrou forte concordância com os humanos nos extremos do espectro de pontuação, o que é crucial, pois muitas vezes usamos limiares de pontuação para determinar a presença ou ausência de um comportamento.

Começando com o Bloom

O Bloom foi projetado para ser acessível e altamente configurável, servindo como uma estrutura confiável para a geração de avaliações em diversas aplicações de pesquisa.

Os primeiros usuários já estão utilizando o Bloom para avaliar vulnerabilidades de jailbreak aninhadas, testar codificações rígidas, medir a consciência de avaliação e gerar traços de sabotagem.

À medida que os sistemas de IA se tornam mais capazes e são implantados em ambientes cada vez mais complexos, a comunidade de pesquisa em alinhamento precisa de ferramentas escaláveis para explorar suas características comportamentais. É exatamente isso que o Bloom foi projetado para facilitar.

O Bloom está disponível para acesso em github.com/safety-research/bloom, onde pesquisadores podem começar a explorar suas funcionalidades e integrar o Bloom em suas próprias linhas de pesquisa.

Carlos Aono

Colunista no segmento Tecnologia e Inovações | CTOO do Grupo Ideal Trends, é especialista em tecnologia e inovação há mais de 9 anos. Sua missão como colunista do portal é traduzir tendências tecnológicas em insights estratégicos para negócios e para a sociedade.

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo