Como Treinar Grandes Modelos de Linguagem com Otimização Computacional?

Introdução

Recentemente, um LLM com apenas 70B de parâmetros superou o GPT-3. Esse LLM, chamado Chinchilla, foi desenvolvido por Hoffmann e seus colegas. Em seu trabalho, eles afirmam que os LLMs atuais não são otimizados computacionalmente. Por que isso? Como eles treinaram o chamado LLM otimizado computacionalmente, o Chinchilla? Quais são as limitações da abordagem deles e como podemos superá-las? Neste blog, analisaremos essas perguntas uma a uma.

O que são Grandes Modelos de Linguagem Otimizados Computacionalmente?

A ideia central por trás de um LLM otimizado computacionalmente é encontrar o equilíbrio certo entre o tamanho do modelo (número de parâmetros) e a quantidade de dados de treinamento utilizados. Isso contrasta com abordagens anteriores que aumentavam o tamanho do modelo de forma mais agressiva do que os dados de treinamento, resultando em modelos significativamente subtreinados em relação à sua capacidade.

Quais são as características principais de um LLM otimizado computacionalmente?

Característica 1: Escalonamento Equilibrado do Tamanho do Modelo e dos Dados de Treinamento

Em vez de escalar o tamanho do modelo exponencialmente enquanto aumenta apenas incrementalmente os dados de treinamento, os LLMs otimizados computacionalmente aumentam tanto o tamanho do modelo quanto os dados de treinamento em proporção igual. Isso garante que a capacidade do modelo seja totalmente utilizada pelos dados de treinamento disponíveis.

Característica 2: Otimização para Eficiência Computacional Geral

O objetivo é encontrar o ponto ideal entre o tamanho do modelo e os dados de treinamento que ofereça o melhor desempenho por unidade de computação. Isso permite maximizar a capacidade do modelo dentro de um orçamento computacional fixo, em vez de simplesmente levar o tamanho do modelo a novos recordes.

Característica 3: Menos Recursos Computacionais para Ajuste Fino e Inferência

Isso aumenta ainda mais sua eficiência e praticidade no mundo real, pois a implantação e o uso do modelo se tornam mais econômicos.

Esses LLMs Populares Não São Otimizados Computacionalmente?

Infelizmente, de acordo com Hoffmann et al. (2022), esses LLMs populares não são otimizados computacionalmente. Primeiro, vamos retornar às ideias que impactaram os LLMs atuais.

O Foco no Tamanho do Modelo

Pesquisas anteriores de Kaplan et al. (2020) demonstraram uma relação de lei de potência convincente entre o tamanho do modelo de linguagem e o desempenho. Especificamente, eles descobriram que, à medida que o número de parâmetros em um modelo aumentava exponencialmente, o desempenho do modelo em vários benchmarks melhorava a uma taxa consistente de lei de potência.

Este trabalho seminal teve um impacto profundo no campo dos grandes modelos de linguagem (LLMs), levando pesquisadores e engenheiros a focar fortemente no aumento do tamanho do modelo como o principal eixo de melhoria. A lógica era clara — se o desempenho escala tão previsivelmente com o tamanho do modelo, então o caminho para melhores LLMs deve ser simplesmente construir modelos cada vez maiores.

Redirecionando o Foco para a Quantidade de Dados de Treinamento

Hoffmann et al. (2022) argumentam que esse foco singular no escalonamento do modelo teve um custo significativo. Eles postulam que os LLMs atuais do estado da arte são, na verdade, severamente subtreinados, com a ênfase da pesquisa colocada diretamente no aumento do tamanho do modelo, em vez de aumentar proporcionalmente a quantidade de dados de treinamento.

Esta crítica é uma contribuição crucial do artigo. Os autores afirmam que o campo perdeu de vista o trade-off fundamental entre modelo e dados, tornando-se preocupado em levar o tamanho do modelo a novos recordes sem garantir que esses modelos fossem treinados em uma quantidade proporcional de dados de alta qualidade. O resultado, eles argumentam, é uma situação em que os LLMs podem ter contagens de parâmetros impressionantes, mas são, em última análise, subótimos em seu desempenho dados os recursos computacionais investidos em seu treinamento.

Ao redirecionar a atenção para esse trade-off central entre capacidade do modelo e dados de treinamento, os autores preparam o terreno para sua investigação empírica sobre o equilíbrio verdadeiramente ótimo entre esses dois fatores-chave. Suas descobertas, detalhadas nas seções seguintes, oferecem um novo paradigma para o desenvolvimento de grandes modelos de linguagem com eficiência computacional.

Como Treinar Grandes Modelos de Linguagem com Otimização Computacional?

Nesta seção, vamos nos aprofundar no artigo de Hoffmann et al. (2022) intitulado “Training Compute-Optimal Large Language Models”. Como sempre, se os detalhes da pesquisa parecerem muito técnicos para você, apenas pegue esta conclusão e pule esta seção: para treinamento otimizado computacionalmente, o tamanho do modelo e o número de tokens de treinamento devem ser escalados igualmente — para cada duplicação do tamanho do modelo, o número de tokens de treinamento também deve dobrar.

Estimando Empiricamente o Trade-off Ótimo entre Modelo e Dados

Para investigar o trade-off ótimo entre tamanho do modelo e dados de treinamento, os autores treinam mais de 400 modelos variando de 70 milhões a 16 bilhões de parâmetros, em conjuntos de dados de 5 a 500 bilhões de tokens. Eles modelam a perda final de pré-treinamento como uma função tanto do tamanho do modelo quanto do número de tokens de treinamento.

Principais Descobertas

Os autores descobrem que, para treinamento otimizado computacionalmente, o tamanho do modelo e o número de tokens de treinamento devem ser escalados igualmente — para cada duplicação do tamanho do modelo, o número de tokens de treinamento também deve dobrar. Isso contrasta com as recomendações de Kaplan et al., que sugeriam um aumento menor nos tokens de treinamento em comparação com o tamanho do modelo.

Treinando um Modelo Otimizado Computacionalmente: Chinchilla

Aplicando suas descobertas, os autores treinam um modelo de 70 bilhões de parâmetros chamado Chinchilla, usando o mesmo orçamento computacional do modelo Gopher de 280 bilhões de parâmetros. O Chinchilla supera significativamente o Gopher, GPT-3, Jurassic-1 e Megatron-Turing NLG em uma ampla gama de tarefas downstream, ao mesmo tempo que requer substancialmente menos computação para ajuste fino e inferência.

Considerações Finais

O artigo demonstra que os grandes modelos de linguagem atuais são significativamente subtreinados e fornece uma abordagem fundamentada para determinar o tamanho ideal do modelo e os dados de treinamento para um determinado orçamento computacional. Isso tem implicações importantes para o desenvolvimento eficiente de futuros modelos de linguagem em larga escala.

Se você quiser saber mais detalhes técnicos, sinta-se à vontade para ler o artigo original.

Limitações da Abordagem de Treinamento de Grandes Modelos de Linguagem Otimizados Computacionalmente

Embora a abordagem descrita neste artigo sobre grandes modelos de linguagem otimizados computacionalmente (LLMs) apresente uma estrutura teórica convincente, existem algumas limitações potenciais:

Disponibilidade de Grandes Quantidades de Dados de Treinamento

Os princípios dependem do acesso a conjuntos de dados extremamente grandes e de alta qualidade para treinar os modelos.
Adquirir e curar esses conjuntos de dados massivos pode ser desafiador, demorado e caro.
Isso pode limitar a capacidade de implementar praticamente a abordagem, especialmente para equipes de pesquisa ou organizações menores.

Restrições de Hardware e Computação

Treinar modelos muito grandes com quantidades proporcionais de dados requer imensos recursos computacionais.
O acesso ao hardware necessário (por exemplo, GPUs poderosas, TPUs) e à infraestrutura de eletricidade/refrigeração necessária pode ser um fator limitante.
Os custos computacionais gerais associados a essa abordagem podem ser proibitivos para muitos.

Desempenho Específico de Domínio

O artigo foca em modelos de linguagem de propósito geral, mas o equilíbrio ideal entre tamanho do modelo e dados de treinamento pode variar para modelos destinados a domínios ou tarefas específicas.
Certas aplicações podem exigir uma abordagem de trade-off diferente para alcançar os melhores resultados.

Falta de Validação Empírica

Embora os princípios apresentados sejam logicamente sólidos, o artigo não fornece evidências empíricas ou estudos de caso demonstrando a eficácia da abordagem otimizada computacionalmente.
Pesquisas adicionais e implementação no mundo real seriam necessárias para validar as alegações e quantificar os benefícios.

Potenciais Impactos Sociais

Aumentar o tamanho do modelo e os dados de treinamento poderia agravar preocupações em torno da segurança da IA, segurança digital e impacto ambiental do aprendizado de máquina em larga escala.
Essas implicações sociais não são abordadas no artigo e exigiriam consideração cuidadosa.

No geral, a implementação prática da abordagem de LLM otimizada computacionalmente pode enfrentar desafios significativos relacionados a dados, hardware, especificidade de domínio e considerações de impacto mais amplas. Seriam necessárias avaliações empíricas e pesquisas adicionais para avaliar completamente sua viabilidade e benefícios.

Uma Maneira Alternativa de Obter Melhores Desempenhos de LLMs

Embora a abordagem otimizada computacionalmente descrita anteriormente apresente uma estrutura convincente para o desenvolvimento de LLMs de alto desempenho, existe uma solução alternativa que pode oferecer ainda mais flexibilidade e eficiência: APIs de LLM.

Em vez de depender de um único LLM fixo, a API de LLM da Novita AI fornece acesso a uma gama diversificada de modelos de linguagem, cada um com suas próprias capacidades únicas e áreas de especialização. Isso permite que os usuários selecionem o modelo mais apropriado para suas necessidades específicas.

Além disso, a API de Modelo da Novita AI capacita os usuários com a capacidade de ajustar facilmente parâmetros-chave do modelo, como top p (governa o processo de seleção de palavras do modelo para promover uma geração de texto mais diversa e significativa), temperature (modula o grau de aleatoriedade e exploração na produção de texto do modelo), max tokens (restringe o comprimento da saída do modelo) e presence penalty (penaliza o modelo por repetição excessiva de palavras, incentivando-o a gerar texto mais variado). Esse nível de personalização permite ajustar o desempenho do LLM para atender aos requisitos únicos de cada projeto ou caso de uso, resultando em resultados mais otimizados e personalizados.

Além dos parâmetros ajustáveis, outro recurso de destaque da API de Modelo da Novita AI é o suporte para entrada de prompt do sistema. Os usuários podem fornecer prompts ou modelos personalizados para orientar o comportamento do modelo de linguagem, permitindo respostas mais direcionadas e intencionais. Isso pode ser particularmente valioso para aplicações que exigem um tom, estilo ou conhecimento específico de domínio.

Conclusão

O trabalho de Hoffmann et al. representa um passo significativo em direção à otimização do treinamento de grandes modelos de linguagem dentro de restrições computacionais práticas. Sua ideia central de equilibrar a capacidade do modelo e a escala dos dados de treinamento é tanto teoricamente fundamentada quanto empiricamente validada através de seu modelo Chinchilla. Ao evitar as armadilhas do subtreinamento severo, essa abordagem otimizada computacionalmente desbloqueia novos níveis de desempenho e eficiência em comparação com LLMs anteriores do estado da arte, como o GPT-3.

No entanto, implementar esse treinamento otimizado computacionalmente em escala não é isento de desafios. A curadoria dos conjuntos de dados enormes e de alta qualidade necessários apresenta dificuldades. A disponibilidade de recursos computacionais suficientes, desde hardware até custos de energia, também pode dificultar a adoção — especialmente para organizações menores. Uma abordagem alternativa que oferece mais flexibilidade é aproveitar APIs avançadas de modelos de linguagem, como a API de Modelo da Novita AI. Essas APIs fornecem aos usuários acesso a uma gama diversificada de modelos pré-treinados adaptados para diferentes casos de uso.

Novita AI, a plataforma completa para criatividade ilimitada que oferece acesso a mais de 100 APIs. Desde geração de imagens e processamento de linguagem até aprimoramento de áudio e manipulação de vídeo, pagamento conforme o uso barato, libera você das dores de cabeça da manutenção de GPU enquanto constrói seus próprios produtos. Experimente gratuitamente.

Leitura Recomendada

O Que Acontecerá Quando Grandes Modelos de Linguagem Codificarem Conhecimento Clínico?

Como Grandes Modelos de Linguagem Podem se Autoaperfeiçoar?

Como Treinar Grandes Modelos de Linguagem com Otimização Computacional?

Introdução

O que são Grandes Modelos de Linguagem Otimizados Computacionalmente?

Quais são as características principais de um LLM otimizado computacionalmente?

Característica 1: Escalonamento Equilibrado do Tamanho do Modelo e dos Dados de Treinamento

Característica 2: Otimização para Eficiência Computacional Geral

Característica 3: Menos Recursos Computacionais para Ajuste Fino e Inferência

Esses LLMs Populares Não São Otimizados Computacionalmente?

O Foco no Tamanho do Modelo

Redirecionando o Foco para a Quantidade de Dados de Treinamento

Como Treinar Grandes Modelos de Linguagem com Otimização Computacional?

Estimando Empiricamente o Trade-off Ótimo entre Modelo e Dados

Principais Descobertas

Treinando um Modelo Otimizado Computacionalmente: Chinchilla

Considerações Finais

Limitações da Abordagem de Treinamento de Grandes Modelos de Linguagem Otimizados Computacionalmente

Disponibilidade de Grandes Quantidades de Dados de Treinamento

Restrições de Hardware e Computação

Desempenho Específico de Domínio

Falta de Validação Empírica

Potenciais Impactos Sociais

Uma Maneira Alternativa de Obter Melhores Desempenhos de LLMs

Conclusão

Product

RESOURCES

Partners

Company

Introdução

O que são Grandes Modelos de Linguagem Otimizados Computacionalmente?

Quais são as características principais de um LLM otimizado computacionalmente?

Característica 1: Escalonamento Equilibrado do Tamanho do Modelo e dos Dados de Treinamento

Característica 2: Otimização para Eficiência Computacional Geral

Característica 3: Menos Recursos Computacionais para Ajuste Fino e Inferência

Esses LLMs Populares Não São Otimizados Computacionalmente?

O Foco no Tamanho do Modelo

Redirecionando o Foco para a Quantidade de Dados de Treinamento

Como Treinar Grandes Modelos de Linguagem com Otimização Computacional?

Estimando Empiricamente o Trade-off Ótimo entre Modelo e Dados

Principais Descobertas

Treinando um Modelo Otimizado Computacionalmente: Chinchilla

Considerações Finais

Limitações da Abordagem de Treinamento de Grandes Modelos de Linguagem Otimizados Computacionalmente

Disponibilidade de Grandes Quantidades de Dados de Treinamento

Restrições de Hardware e Computação

Desempenho Específico de Domínio

Falta de Validação Empírica

Potenciais Impactos Sociais

Uma Maneira Alternativa de Obter Melhores Desempenhos de LLMs

Conclusão

Posts relacionados

Product

RESOURCES

Partners

Company