OLMo 2 atende aos Código aberto A definição da iniciativa de IA de código abertoo que significa que as ferramentas e os dados utilizados para desenvolvê-lo estão disponíveis publicamente. A Open Source Initiative é uma organização que visa definir e “administrar” todas as coisas de código aberto, de acordo com o TechCrunch.
O site da Ai2 afirma que desde o lançamento do primeiro OLMo em fevereiro de 2024, eles viram “um rápido crescimento no ecossistema de modelos de linguagem aberta e uma redução na lacuna de desempenho entre modelos abertos e proprietários”.
De acordo com o blog da Ai2, “OLMo 2 é uma família de modelos de linguagem totalmente abertos, desenvolvidos do início ao fim com dados de treinamento abertos e acessíveis, código de treinamento de código aberto, receitas de treinamento reproduzíveis, avaliações transparentes, pontos de verificação intermediários e muito mais. Ao compartilhar abertamente nossos dados, receitas e descobertas, esperamos fornecer à comunidade de código aberto os recursos necessários para descobrir abordagens novas e inovadoras para melhorar o pré-treinamento de modelos.”
A família OLMo 2 possui dois modelos: um com 7 bilhões de parâmetros (OLMo 7B) e outro com 13 bilhões de parâmetros (OLMo 13B). De acordo com o TechCrunch, os parâmetros poderiam ser definidos aproximadamente como as habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente têm melhor desempenho do que aqueles com menos.
Os modelos de linguagem do OLMo 2, semelhantes a outros, podem executar tarefas baseadas em texto, como responder perguntas, resumir documentos e escrever código.
Descubra as histórias de seu interesse
Ai2 usou um conjunto de dados de 5 trilhões de tokens para treinar os modelos. O TechCrunch diz que os tokens representam bits de dados brutos – 1 milhão de tokens equivale a cerca de 750.000 palavras. O conjunto de treinamento incluía sites “filtrados por alta qualidade”, artigos acadêmicos, fóruns de discussão de perguntas e respostas e livros de matemática “tanto sintéticos quanto gerados por humanos”. Em seu blog, a Ai2 disse: “Não apenas observamos uma melhoria dramática no desempenho em todos tarefas em comparação com nosso modelo OLMo 0424 anterior, mas, notavelmente, o OLMo 2 7B supera o (Meta) Llama-3”.
Os modelos OLMo 2 e todos os seus componentes podem ser baixados no site da Ai2. Eles podem ser usados comercialmente, pois estão sob a Licença Apache 2.0.