Modelos DeepSeek-GRM usam aprendizado por reforço para melhorar a IA
A DeepSeek, em colaboração com a Universidade Tsinghua, lançará os modelos de inteligência artificial DeepSeek-GRM, que utilizam uma abordagem inovadora de aprendizado por reforço para otimizar custos operacionais e aumentar a precisão.
A DeepSeek está colaborando com a Universidade Tsinghua para desenvolver modelos de IA que necessitam de menos treinamento, visando reduzir custos operacionais. A startup chinesa, conhecida por seu modelo de raciocínio de baixo custo, está focada em melhorar a eficiência dos modelos de IA por meio de uma nova abordagem de aprendizado por reforço.
Colaboração entre DeepSeek e Tsinghua
A colaboração entre a DeepSeek e a Universidade Tsinghua marca um avanço significativo na pesquisa de modelos de inteligência artificial.
O objetivo principal dessa parceria é reduzir o tempo e os recursos necessários para treinar modelos de IA, o que pode resultar em uma diminuição substancial nos custos operacionais.
Essa colaboração é impulsionada pela expertise de Tsinghua em pesquisa acadêmica e a abordagem inovadora da DeepSeek no desenvolvimento de modelos de raciocínio de baixo custo.
Juntas, as instituições estão explorando novas técnicas de aprendizado por reforço que prometem tornar os modelos de IA mais eficientes e alinhados às preferências humanas.
O trabalho conjunto resultou na criação de um artigo que detalha essas novas abordagens, destacando como a aplicação de recompensas pode melhorar a precisão e a compreensão das respostas geradas por modelos de IA.
Essa pesquisa não só contribui para o campo da inteligência artificial, mas também estabelece um novo padrão para colaborações entre empresas de tecnologia e instituições acadêmicas.
Nova abordagem de aprendizado por reforço
Uma nova abordagem de aprendizado por reforço desenvolvida pela DeepSeek e pela Universidade de Tsinghua representa um avanço significativo na eficiência dos modelos de inteligência artificial.
Essa metodologia visa otimizar o processo de aprendizado, reduzindo a necessidade de extensos recursos computacionais e tempo de treinamento.
O conceito central dessa abordagem é a introdução do que a equipe chama de “auto-crítica principiológica”.
Essa técnica permite que os modelos de IA se ajustem de forma autônoma, aprimorando suas respostas com base em critérios de recompensa que valorizam a precisão e a clareza.
Isso não apenas melhora a performance dos modelos em tarefas específicas, mas também amplia suas capacidades em aplicações mais gerais.
Os resultados obtidos com essa nova técnica superaram métodos e modelos existentes em diversos benchmarks, demonstrando um desempenho superior com menos recursos.
Essa inovação tem o potencial de transformar a maneira como os modelos de IA são treinados e aplicados, oferecendo soluções mais rápidas e eficientes para uma ampla gama de desafios tecnológicos.
Modelos DeepSeek-GRM e código aberto
Os modelos DeepSeek-GRM, ou “Generalist Reward Modeling”, representam a mais recente inovação da DeepSeek no campo da inteligência artificial.
Esses modelos foram projetados para serem mais adaptáveis e eficientes, utilizando uma abordagem de modelagem de recompensas que permite um aprendizado mais alinhado às preferências humanas e com menor consumo de recursos.
A DeepSeek anunciou que esses modelos serão disponibilizados em formato de código aberto, permitindo que a comunidade de desenvolvedores e pesquisadores tenha acesso completo às suas funcionalidades.
Essa decisão visa fomentar a colaboração e o avanço contínuo no desenvolvimento de tecnologias de IA, permitindo que outros desenvolvedores contribuam com melhorias e novas aplicações.
Com a disponibilização em código aberto, espera-se que os modelos DeepSeek-GRM sejam amplamente adotados e adaptados para uma variedade de usos, desde aplicações comerciais até pesquisas acadêmicas.
Essa iniciativa destaca o compromisso da DeepSeek em promover a inovação aberta e colaborar com a comunidade global para enfrentar os desafios da inteligência artificial.



