A OpenAI revelou recentemente o CriticGPT, um novo modelo baseado no GPT-4, com o objetivo principal de revisar e criticar as respostas geradas pelo ChatGPT. Este modelo inovador foi desenvolvido para auxiliar na detecção de erros e aprimorar a precisão das respostas através do aprendizado por reforço com feedback humano (RLHF).
De acordo com a OpenAI, o CriticGPT tem a capacidade de melhorar o código revisado em até 60% quando comparado ao código não revisado. A empresa está atualmente incorporando modelos semelhantes ao CriticGPT no pipeline de rotulagem RLHF, visando ajudar os treinadores de IA na avaliação dos resultados de sistemas avançados de IA.
A OpenAI destaca que o CriticGPT pode identificar erros sutis que podem passar despercebidos por humanos, contribuindo para tornar o ChatGPT mais preciso. O treinamento do CriticGPT envolveu a edição manual do código gerado pelo ChatGPT, a introdução de novos erros e o fornecimento de feedback amostral para que o modelo pudesse reconhecer e corrigir erros comuns e incomuns com facilidade.
Este novo modelo de IA, conforme a empresa, está sendo utilizado para produzir melhores dados RLHF para o GPT-4, com a OpenAI já planejando expandir esse trabalho no futuro.