QwQ-32B-Preview (Qwen com perguntas) contém 32,5 bilhões de parâmetros e pode considerar prompts de até 32.000 palavras, conforme relatado pelo TechCrunch. Os parâmetros poderiam ser definidos aproximadamente como as habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente têm melhor desempenho do que aqueles com menos.
De acordo com o Site Qweneles usaram estes benchmarks para testar seu modelo:
GPQA: um benchmark de perguntas e respostas à prova do Google em nível de pós-graduação, para avaliar habilidades científicas de resolução de problemas no nível do ensino fundamental
AIME: American Invitation Mathematics Evaluation, para testar a resolução de problemas matemáticos no nível do ensino médio com temas como álgebra, probabilidade entre outros.
MATH-500: Os 500 casos de teste do MATEMÁTICA benchmark, um conjunto de dados abrangente que testa a resolução de problemas matemáticos.
Descubra as histórias de seu interesse
LiveCodeBench: Uma referência para avaliar a geração de código e habilidades de resolução de problemas em cenários de programação do mundo real. De acordo com o TechCrunch, o QwQ-32B-Preview supera os modelos o1 da OpenAI nos testes AIME e MATH. Ao contrário da maioria da IA, o QwQ-32B-Preview e modelos semelhantes verificam os fatos por conta própria, ajudando a evitar erros comuns que normalmente atrapalham os modelos, mas muitas vezes demoram mais para encontrar soluções.
O modelo tem algumas limitações. Qwen, em sua postagem no blog, observa que o modelo pode misturar linguagens ou entrar em padrões de raciocínio circular. O blog também alertou os usuários a ficarem atentos ao usar o modelo devido a questões de segurança. QwQ-32B-Preview pode ser executado e baixado do IA plataforma de desenvolvimento Abraçando o rostoconforme TechCrunch.