MPT-7B da MosaicML: Um Novo Padrão para LLMs de Código Aberto Comercialmente Viáveis

Introdução ao MPT-7B da MosaicML

O campo da Inteligência Artificial (IA) testemunhou recentemente um marco significativo com o lançamento do MPT-7B pela MosaicML Foundation. Este novo Modelo de Linguagem Grande (LLM) de código aberto não é apenas uma adição ao crescente arsenal de ferramentas de IA, mas representa um novo padrão para modelos que são tanto acessíveis quanto comercialmente utilizáveis. Lançado em 5 de maio de 2023, o MPT-7B foi projetado para superar as limitações de modelos anteriores, oferecendo desempenho comparável e, em alguns casos, superior ao renomado LLaMA-7B, mas com a vantagem crucial da viabilidade comercial desde o início. Este artigo explora em profundidade o MPT-7B, suas características inovadoras, os diferentes modelos derivados e o impacto potencial que essa tecnologia pode ter na comunidade de IA e em diversas indústrias.

O Que Torna o MPT-7B da MosaicML Revolucionário?

O MPT-7B, que significa MosaicML Pretrained Transformer, é um modelo do tipo transformer treinado do zero, utilizando um colossal volume de 1 trilhão de tokens de texto e código. Conforme detalhado pela MosaicML em seu blog oficial, o treinamento foi realizado na plataforma da própria empresa em apenas 9,5 dias, com um custo aproximado de US$200.000 e, notavelmente, sem intervenção humana direta. Essa eficiência no treinamento já demonstra um avanço considerável. O objetivo da MosaicML com o MPT-7B é oferecer um modelo de alta qualidade, comparável ao LLaMA-7B, mas com uma licença que permite o uso comercial, o que representa uma mudança significativa no panorama dos LLMs de código aberto.

Principais Características e Vantagens do MPT-7B da MosaicML

O MPT-7B se destaca por uma série de atributos técnicos e práticos:

  • Licença para Uso Comercial: Diferentemente de alguns LLMs de código aberto que possuem restrições de uso comercial, o modelo base MPT-7B e o MPT-7B-StoryWriter-65k+ são licenciados sob Apache 2.0, permitindo sua aplicação em produtos e serviços comerciais. Outras variantes, como o MPT-7B-Instruct (CC-By-SA-3.0) e o MPT-7B-Chat (CC-By-NC-SA-4.0), possuem licenças específicas que devem ser consultadas.
  • Treinamento com Grande Volume de Dados: Com 1 trilhão de tokens, o MPT-7B foi exposto a uma quantidade de informação substancialmente maior do que muitos de seus predecessores, contribuindo para sua robustez e capacidade de generalização.
  • Suporte a Entradas de Texto Extremamente Longas: Graças à técnica ALiBi (Attention with Linear Biases), o MPT-7B pode processar contextos de até 65.000 tokens, com capacidade de extrapolação para até 84.000 tokens. Isso é um salto imenso em comparação com os 2.000 a 4.000 tokens suportados por muitos outros modelos de código aberto, abrindo portas para aplicações que exigem a compreensão de documentos longos, como sumarização de livros ou análise de extensos históricos de conversação.
  • Otimização para Treinamento e Inferência Rápidos: O modelo incorpora otimizações como FlashAttention e FasterTransformer, que aceleram significativamente tanto o processo de treinamento quanto a velocidade de inferência, tornando-o mais eficiente e econômico para implantar.
  • Código de Treinamento Aberto e Eficiente: A MosaicML disponibilizou o código utilizado para treinar o MPT-7B, fomentando a transparência e permitindo que a comunidade construa sobre seu trabalho. A eficiência do treinamento (40-60% MFU - Model Flops Utilization) é um testemunho da expertise da equipe.
  • Treinamento Autônomo: A capacidade de treinar um modelo dessa magnitude com zero intervenção humana demonstra a maturidade da plataforma de treinamento da MosaicML.

Explorando a Família de Modelos MPT-7B da MosaicML

A MosaicML não se limitou a lançar apenas o modelo base, mas também apresentou uma família de modelos MPT-7B fine-tuned para tarefas específicas, todos disponíveis no Hugging Face da MosaicML:

MPT-7B Base: A Fundação

O MPT-7B Base é um transformer do tipo decoder com 6.7 bilhões de parâmetros. Treinado em 1 trilhão de tokens de texto e código, este modelo fundamental incorpora FlashAttention para treinamento e inferência rápidos e ALiBi para extrapolação para comprimentos de contexto longos. Sua licença Apache-2.0 permite uso comercial.

MPT-7B-StoryWriter-65k+: Para Narrativas Extensas

Projetado especificamente para ler e escrever histórias com contextos super longos, o MPT-7B-StoryWriter-65k+ foi construído através do fine-tuning do MPT-7B com um comprimento de contexto de 65k tokens em um subconjunto filtrado do dataset books3. Em tempo de inferência, graças ao ALiBi, ele pode extrapolar para além dos 65k tokens, alcançando até 84k tokens em um único nó de GPU A100-80GB. Também possui licença Apache-2.0.

MPT-7B-Instruct: Seguindo Instruções Curtas

O MPT-7B-Instruct é um modelo otimizado para seguir instruções de formato curto. Foi resultado do fine-tuning do MPT-7B em um dataset que inclui dados do Databricks Dolly-15k e do Helpful and Harmless da Anthropic. Este modelo é licenciado sob CC-By-SA-3.0, que permite uso comercial com atribuição.

MPT-7B-Chat: Geração de Diálogos

Como o nome sugere, o MPT-7B-Chat é um modelo estilo chatbot para geração de diálogos. Seu fine-tuning foi realizado sobre o MPT-7B utilizando datasets como ShareGPT-Vicuna, HC3, Alpaca e Evol-Instruct. Sua licença é CC-By-NC-SA-4.0, o que restringe seu uso para fins não comerciais.

MPT-7B da MosaicML vs. LLaMA e Outros LLMs

Uma das principais alegações da MosaicML é que o MPT-7B iguala a qualidade do LLaMA-7B. A empresa apresentou benchmarks em diversas tarefas acadêmicas onde o MPT-7B não apenas se compara, mas em várias métricas, supera o LLaMA-7B e outros modelos de código aberto com 7 a 20 bilhões de parâmetros. Essa comparação é vital, pois o LLaMA, apesar de seu forte desempenho, foi lançado inicialmente com uma licença restritiva para pesquisa.

As principais diferenças do MPT-7B em relação a muitos LLMs existentes residem na sua licença permissiva para uso comercial (para o modelo base), no volume massivo de dados de treinamento (1T tokens) e, crucialmente, na sua capacidade de lidar com contextos de texto muito mais longos. Enquanto muitos modelos abertos lutam com entradas superiores a 2k ou 4k tokens, o MPT-7B, especialmente na sua variante StoryWriter, redefine esse limite.

A tabela comparativa apresentada no blog da MosaicML mostra o desempenho do MPT-7B em tarefas como LAMBADA (OpenAI), HellaSwag, PIQA, ARC-Easy, ARC-Challenge, COPA, entre outras, destacando sua competitividade. O MPT-7B demonstra pontuações mais altas em 6 de 12 tarefas quando comparado diretamente com o LLaMA-7B, segundo os dados da MosaicML.

Implicações do MPT-7B da MosaicML para a Comunidade de IA

O lançamento do MPT-7B pela MosaicML é mais do que apenas a introdução de um novo modelo; é um passo em direção à democratização de LLMs de alta performance. Ao fornecer um modelo robusto, comercialmente viável e com código de treinamento aberto, a MosaicML capacita desenvolvedores, pesquisadores e empresas a:

  • Construir Aplicações Comerciais Inovadoras: A licença permissiva remove uma barreira significativa para a criação de produtos e serviços baseados em IA generativa avançada.
  • Avançar na Pesquisa em LLMs: A disponibilidade do código e dos checkpoints de treinamento permite que a comunidade explore, modifique e melhore o MPT-7B, acelerando o ciclo de inovação.
  • Reduzir Custos de Desenvolvimento: A eficiência do treinamento e a capacidade de fine-tuning em datasets próprios tornam o desenvolvimento de LLMs especializados mais acessível.

A MosaicML está claramente posicionada para impulsionar a fronteira da IA, não apenas através de seus modelos, mas também com sua plataforma de treinamento. A capacidade de lidar com contextos de texto longos, como demonstrado pelo MPT-7B-StoryWriter-65k+, abre novas possibilidades para análise de documentos, criação de conteúdo e muito mais. O gráfico de "Comprimentos Máximos de Entrada de Diferentes LLMs" exibido pela MosaicML ilustra vividamente essa vantagem, onde o MPT-7B-StoryWriter-65k+ lidera com folga.

Conclusão

O MPT-7B da MosaicML representa um avanço notável no mundo dos Modelos de Linguagem Grande. Sua combinação de desempenho de ponta, código aberto, viabilidade comercial e características técnicas inovadoras, como o suporte a contextos longos e treinamento eficiente, o estabelece como um novo padrão e uma ferramenta poderosa para a comunidade de IA. As variantes especializadas, como StoryWriter, Instruct e Chat, ampliam ainda mais seu alcance e utilidade. A iniciativa da MosaicML de fornecer não apenas os modelos, mas também a infraestrutura e o conhecimento para seu treinamento e implantação, é um catalisador para a inovação e a adoção mais ampla de IA generativa. Para aqueles interessados em explorar as fronteiras da IA, o MPT-7B e os recursos da MosaicML são, sem dúvida, dignos de atenção e exploração.