As Habilidades Emergentes dos Grandes Modelos de Linguagem são uma Miragem ou Não?

As Habilidades Emergentes dos Grandes Modelos de Linguagem são uma Miragem ou Não?

Introdução

As habilidades emergentes dos grandes modelos de linguagem são uma miragem? A resposta curta para esta pergunta é: na maioria, sim. Alguns estudiosos de Stanford argumentam que é tudo uma questão de métricas. Para ser específico, LLMs desenvolvem suas habilidades gradualmente, não abruptamente de acordo com a maioria das métricas, enquanto esses milagres emergentes só aparecem em determinadas métricas. Neste blog, exploramos a definição original de habilidades emergentes de grandes modelos de linguagem, como esses estudiosos desafiam a afirmação e as implicações de suas descobertas no mundo da IA.

O Que São Habilidades Emergentes de Grandes Modelos de Linguagem?

Habilidades emergentes referem-se a novas capacidades ou comportamentos que surgem em sistemas complexos à medida que eles aumentam em tamanho ou complexidade. No contexto dos LLMs, são habilidades inesperadas ou melhorias de desempenho que supostamente não estavam presentes em modelos menores, mas aparecem à medida que o modelo cresce.

Característica 1: Agudeza

Agudeza no contexto de habilidades emergentes refere-se ao aumento súbito e dramático no desempenho em uma tarefa específica. É como se o modelo tivesse um “momento eureka” em que transita de não conseguir realizar uma tarefa para fazê-la perfeitamente. Isso é frequentemente visualizado como uma curva íngreme em um gráfico, mostrando métricas de desempenho como precisão ou taxa de conclusão de tarefa saltando de um valor baixo para um alto sem muita transição.

Imagine que você tem uma série de modelos de linguagem com tamanhos variados, de pequeno a muito grande. Você testa a capacidade deles de traduzir texto do inglês para o francês. Os modelos menores podem ter dificuldade, fornecendo traduções ruins com muitos erros. No entanto, ao testar modelos cada vez maiores, você pode de repente descobrir que, em um determinado tamanho, as traduções do modelo são quase perfeitas, com poucos ou nenhum erro. Essa melhoria súbita é o que se refere como “agudeza” da habilidade emergente.

Característica 2: Imprevisibilidade

Imprevisibilidade diz respeito à dificuldade de prever quando ou em qual tamanho um modelo exibirá uma habilidade emergente. Não há uma tendência clara e gradual que você possa apontar e dizer: “Quando atingirmos esse tamanho ou complexidade, o modelo será capaz de fazer X.” Em vez disso, a aparência dessas habilidades parece surgir do nada, sem um padrão ou aviso óbvio.

Continuando com o exemplo da tradução, você pode esperar que, à medida que aumenta o tamanho do modelo, sua capacidade de tradução melhore constantemente. No entanto, a imprevisibilidade significa que você não pode prever com confiabilidade em qual tamanho exato de modelo as traduções se tornarão excelentes. Um modelo pode mostrar um salto de habilidade quando tem 100 milhões de parâmetros, enquanto outro pode não mostrar o mesmo salto até ter um bilhão de parâmetros. Não há uma regra clara que lhe diga quando isso vai acontecer, tornando o surgimento da habilidade imprevisível.

Desafiando a Afirmação de Emergência: Apenas uma Miragem

O artigo intitulado “As Habilidades Emergentes dos Grandes Modelos de Linguagem são uma Miragem?” de Rylan Schaeffer, Brando Miranda e Sanmi Koyejo do Departamento de Ciência da Computação da Universidade de Stanford, desafia a noção de que LLMs exibem habilidades emergentes. Como sempre, se você não estiver interessado nos detalhes da pesquisa, pegue esta conclusão e vá para a próxima seção: as “habilidades emergentes” percebidas em grandes modelos de linguagem podem ser na verdade uma ilusão criada pela escolha das métricas de desempenho, em vez de uma mudança genuína e abrupta nas capacidades dos modelos à medida que eles aumentam de tamanho.

Contexto da Pesquisa e Pergunta de Pesquisa

O artigo começa discutindo o conceito de propriedades emergentes em sistemas complexos, que ganhou atenção no aprendizado de máquina devido a observações de grandes modelos de linguagem (LLMs) exibindo habilidades não vistas em modelos menores. Essas habilidades emergentes são caracterizadas por sua agudeza e imprevisibilidade.

A pergunta de pesquisa proposta pelo artigo é se essas habilidades emergentes são uma propriedade fundamental do escalonamento de modelos de IA ou um artefato das métricas usadas para medir o desempenho.

Design do Experimento

Os autores propõem uma explicação alternativa para as habilidades emergentes, sugerindo que elas podem ser resultado da escolha da métrica, em vez de um comportamento intrínseco do modelo. Eles apresentam um modelo matemático para demonstrar isso e testam sua hipótese por meio de três abordagens complementares:

  1. Eles testaram sua ideia usando uma família de modelos de IA bem conhecida (InstructGPT/GPT-3) em tarefas onde as pessoas diziam que essas habilidades especiais apareciam. Eles analisaram como a mudança das pontuações dos testes (métricas) alterava o que viam.
  2. Eles realizaram uma meta-análise de habilidades emergentes em um conjunto de testes (BIG-Bench) para ver se essas habilidades especiais só apareciam ao usar certas formas de pontuação (métricas).
  3. Eles induziram habilidades aparentemente emergentes em várias tarefas de visão em diversas redes profundas, alterando as métricas de avaliação.

Descobertas

  • Os Resultados dos Testes: Quando os pesquisadores mudaram a forma como mediam o desempenho da IA (as métricas), eles viram algo interessante. Em vez de um salto súbito nas habilidades da IA, encontraram uma melhoria suave e constante à medida que os modelos de IA ficavam maiores. Isso era o oposto do que esperavam se a IA realmente tivesse “habilidades especiais” que aparecessem do nada.

  • Métricas Diferentes, Histórias Diferentes: Eles descobriram que certas formas de medir o desempenho faziam parecer que a IA melhorava muito rapidamente. Mas quando usavam métricas diferentes que avaliavam a IA de forma mais justa, as melhorias eram mais graduais. Era como se a IA não estivesse ficando subitamente mais inteligente; estava apenas sendo testada de uma forma que a fazia parecer assim.

  • O Grande Teste (Meta-Análise): Quando analisaram um conjunto de diferentes testes (o BIG-Bench), viram que essas “habilidades especiais” só apareciam quando certas métricas eram usadas. Era como se essas habilidades estivessem escondidas e só aparecessem quando o teste era configurado de uma certa maneira.
  • Fazendo Habilidades Aparecerem: Finalmente, os pesquisadores mostraram que podiam fazer essas “habilidades especiais” aparecerem em outros tipos de tarefas de IA (como reconhecimento de imagens) apenas mudando a forma como mediam o desempenho da IA. Era como mágica, mas em vez de um truque de mágica real, era sobre como estavam olhando para as habilidades da IA.

Implicações para a Pesquisa e Desenvolvimento de IA

Seleção de Métricas

Os pesquisadores devem considerar cuidadosamente a escolha das métricas ao avaliar modelos de IA. O artigo sugere que métricas não lineares ou descontínuas podem criar uma percepção enganosa das capacidades do modelo. Escolher métricas apropriadas que reflitam com precisão as melhorias graduais é crucial para uma avaliação válida e confiável.

Design de Benchmarks

O design de benchmarks deve levar em conta a influência potencial da escolha da métrica nas habilidades percebidas dos modelos de IA. Os benchmarks devem usar uma variedade de métricas para fornecer uma avaliação abrangente e evitar superenfatizar resultados de métricas que possam induzir a aparência de habilidades emergentes.

Interpretação dos Resultados

Os pesquisadores devem ser cautelosos ao interpretar resultados que sugerem habilidades emergentes. O artigo incentiva uma compreensão mais matizada do desempenho do modelo, levando em consideração a possibilidade de que comportamentos ‘emergentes’ observados possam ser artefatos do processo de medição.

Transparência e Reprodutibilidade do Modelo

O artigo destaca a importância de disponibilizar modelos e suas saídas publicamente para verificação independente. Essa transparência é essencial para que a comunidade científica valide afirmações e reproduza resultados, garantindo a integridade da pesquisa em IA.

Segurança e Alinhamento da IA

Se as habilidades emergentes forem percebidas como surgindo imprevisivelmente, isso pode ter implicações para a segurança e o alinhamento da IA. No entanto, se essas habilidades são resultado da escolha da métrica, sugere que os pesquisadores têm mais controle sobre o desenvolvimento das capacidades de IA do que se pensava anteriormente, o que poderia ser aproveitado para guiar o desenvolvimento da IA em direção a resultados benéficos.

Alocação de Recursos

Entender que as habilidades emergentes podem ser uma miragem pode informar a alocação de recursos no desenvolvimento de IA. Em vez de focar em escalar modelos para alcançar habilidades imprevisíveis, os recursos podem ser melhor gastos no refinamento de algoritmos, conjuntos de dados e processos de treinamento para produzir resultados desejados de maneira mais previsível.

Considerações Éticas

As implicações éticas das capacidades de IA estão intimamente ligadas à nossa compreensão do que a IA pode e não pode fazer. Se as habilidades emergentes são menos comuns ou menos abruptas do que se acreditava, isso pode afetar a forma como abordamos as diretrizes éticas e regulamentações para o desenvolvimento e implantação da IA.

Comunicação Pública

Comunicar as capacidades da IA ao público com precisão é importante para gerenciar expectativas e abordar preocupações sobre a IA. As descobertas do artigo sugerem que deve-se ter cautela para não exagerar as capacidades da IA e fornecer uma imagem clara e realista das habilidades atuais e futuras potenciais da IA.

Priorização da Pesquisa

As descobertas podem levar os pesquisadores a priorizar a compreensão dos mecanismos fundamentais por trás das melhorias de desempenho da IA em vez da busca por habilidades emergentes elusivas. Isso poderia envolver mais foco em melhorias algorítmicas, qualidade dos dados e técnicas de treinamento.

Tenha Experiência Prática com as Capacidades dos LLMs

Embora os autores neguem que as capacidades dos LLMs sejam emergentes, eles não indicam que as capacidades dos LLMs não são sólidas. As habilidades dos LLMs para resolver problemas em cenários da vida real são inquestionáveis. Se você está ansioso para ter experiência prática com as capacidades dos LLMs, a Novita AI fornece a startups de IA APIs de LLM para aproveitar o poder dos LLMs.

Você pode usar nosso teste gratuito de LLM para comparar desempenhos de diferentes LLMs que são integrados à nossa API posteriormente. Além disso, ajustes de parâmetros e prompts de sistema também são permitidos no chat gratuito para atender às suas necessidades específicas de saídas de LLM.

Conclusão

O debate sobre se os grandes modelos de linguagem (LLMs) exibem habilidades emergentes genuínas ou se estas são uma miragem, como sugerido por pesquisadores de Stanford, coloca em foco o papel central das métricas de desempenho na avaliação de IA. O estudo postula que as melhorias nítidas e imprevisíveis atribuídas aos LLMs podem ser um artefato de certas métricas, em vez de uma capacidade intrínseca do modelo.

Essa perspectiva leva a comunidade de IA a reconsiderar o design de benchmarks e a interpretação de resultados, defendendo transparência, métricas diversificadas e uma compreensão mais profunda do progresso incremental da IA. As implicações são claras: à medida que avançamos na pesquisa de IA, devemos examinar criticamente as ferramentas de nossa avaliação para garantir um caminho de desenvolvimento realista e ético que esteja alinhado com as expectativas sociais e os padrões de segurança.

Fique atento para explorar as descobertas mais recentes da academia de IA!

Novita AI, a plataforma única para criatividade ilimitada que oferece acesso a mais de 100 APIs. Desde geração de imagens e processamento de linguagem até aprimoramento de áudio e manipulação de vídeo, com pagamento conforme o uso, libera você das dores de cabeça da manutenção de GPU enquanto constrói seus próprios produtos. Experimente gratuitamente.

Leitura Recomendada

Como e Por Que Grandes Modelos de Linguagem Aprendem no Contexto de Forma Diferente?

Tudo o Que Você Precisa Saber sobre o Prompting Automático de Cadeia de Pensamento em Grandes Modelos de Linguagem

Mergulhando na Fronteira Acadêmica: Uma Introdução à Privacidade Diferencial de Grandes Modelos de Linguagem