Categories
Tecnologia

OLMo 2: OLMo 2: o segundo modelo de linguagem aberta da Ai2

Ai2a organização sem fins lucrativos de pesquisa em IA fundada recentemente Microsoft cofundador Paulo Allenlançou a segunda família de modelos de sua série OLMo (Modelo de linguagem aberta), nomeado OLMo 2na terça-feira.

OLMo 2 atende aos Código aberto A definição da iniciativa de IA de código abertoo que significa que as ferramentas e os dados utilizados para desenvolvê-lo estão disponíveis publicamente. A Open Source Initiative é uma organização que visa definir e “administrar” todas as coisas de código aberto, de acordo com o TechCrunch.

O site da Ai2 afirma que desde o lançamento do primeiro OLMo em fevereiro de 2024, eles viram “um rápido crescimento no ecossistema de modelos de linguagem aberta e uma redução na lacuna de desempenho entre modelos abertos e proprietários”.

De acordo com o blog da Ai2, “OLMo 2 é uma família de modelos de linguagem totalmente abertos, desenvolvidos do início ao fim com dados de treinamento abertos e acessíveis, código de treinamento de código aberto, receitas de treinamento reproduzíveis, avaliações transparentes, pontos de verificação intermediários e muito mais. Ao compartilhar abertamente nossos dados, receitas e descobertas, esperamos fornecer à comunidade de código aberto os recursos necessários para descobrir abordagens novas e inovadoras para melhorar o pré-treinamento de modelos.”

A família OLMo 2 possui dois modelos: um com 7 bilhões de parâmetros (OLMo 7B) e outro com 13 bilhões de parâmetros (OLMo 13B). De acordo com o TechCrunch, os parâmetros poderiam ser definidos aproximadamente como as habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente têm melhor desempenho do que aqueles com menos.


Os modelos de linguagem do OLMo 2, semelhantes a outros, podem executar tarefas baseadas em texto, como responder perguntas, resumir documentos e escrever código.

Descubra as histórias de seu interesse


Ai2 usou um conjunto de dados de 5 trilhões de tokens para treinar os modelos. O TechCrunch diz que os tokens representam bits de dados brutos – 1 milhão de tokens equivale a cerca de 750.000 palavras. O conjunto de treinamento incluía sites “filtrados por alta qualidade”, artigos acadêmicos, fóruns de discussão de perguntas e respostas e livros de matemática “tanto sintéticos quanto gerados por humanos”. Em seu blog, a Ai2 disse: “Não apenas observamos uma melhoria dramática no desempenho em todos tarefas em comparação com nosso modelo OLMo 0424 anterior, mas, notavelmente, o OLMo 2 7B supera o (Meta) Llama-3”.

Os modelos OLMo 2 e todos os seus componentes podem ser baixados no site da Ai2. Eles podem ser usados ​​comercialmente, pois estão sob a Licença Apache 2.0.



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *