Introdução
À medida que grandes modelos de linguagem (LLMs) como GPT-3, PaLM, ChatGPT e outros ganham imensa popularidade, a necessidade de avaliar minuciosamente suas capacidades tornou-se crucial. Esses modelos avançados de IA podem entender e gerar texto semelhante ao humano, tornando-se ferramentas poderosas em várias aplicações.
No entanto, com grande poder vem grande responsabilidade — devemos garantir que os LLMs sejam confiáveis, imparciais e que seus riscos potenciais sejam bem compreendidos. Neste blog, discutiremos o artigo acadêmico “Uma Pesquisa sobre Avaliação de Grandes Modelos de Linguagem”, que oferece uma visão geral abrangente de como avaliar LLMs de forma eficaz.

O Que São Grandes Modelos de Linguagem?
Grandes Modelos de Linguagem (LLMs) representam uma categoria de modelos avançados de aprendizado profundo que revolucionaram o campo do processamento de linguagem natural (PLN). Esses modelos se distinguem por seu enorme tamanho e pré-treinamento extensivo em vastas quantidades de dados textuais provenientes da internet. A arquitetura fundamental subjacente a muitos LLMs é conhecida como Transformer, que consiste em camadas de módulos codificadores e decodificadores equipados com mecanismos de autoatenção.
A arquitetura Transformer permite que os LLMs se destaquem na compreensão e geração de texto semelhante ao humano. Ao contrário dos modelos tradicionais que processam texto sequencialmente, os Transformers podem processar sequências inteiras de dados em paralelo, aproveitando o poder computacional das GPUs para acelerar significativamente os tempos de treinamento. Essa capacidade de processamento paralelo é crucial para lidar com a complexidade e escala dos dados envolvidos no treinamento de grandes modelos.
Os LLMs são treinados de forma não supervisionada ou auto-supervisionada, ou seja, aprendem a prever a próxima palavra ou sequência de palavras em um texto baseando-se apenas nos padrões e na estrutura inerentes aos dados. Essa abordagem permite que os LLMs capturem padrões linguísticos complexos, regras sintáticas e relações semânticas entre idiomas e domínios.

Além disso, os LLMs são capazes de aprendizado por transferência, onde podem ser ajustados para tarefas específicas com quantidades relativamente pequenas de dados específicos da tarefa. Essa adaptabilidade os torna ferramentas versáteis em uma ampla gama de aplicações, incluindo, mas não se limitando a tradução de idiomas, análise de sentimentos, sumarização de texto, resposta a perguntas e até mesmo escrita criativa ou geração de código. Muitas empresas, como a Novita AI, fornecem APIs de LLM para programadores aproveitarem o poder dos LLMs.
Quais Aspectos dos LLMs Avaliar?
O artigo “Uma Pesquisa sobre Avaliação de Grandes Modelos de Linguagem” categoriza a avaliação de LLMs em várias áreas-chave:
Processamento de Linguagem Natural (PLN)
Testar habilidades centrais de PLN, como classificação de texto, inferência de linguagem natural, sumarização, tradução, resposta a perguntas, etc.
Raciocínio
Avaliar raciocínio lógico, raciocínio de senso comum, raciocínio aritmético de múltiplas etapas.
Robustez
Examinar o desempenho do modelo sob entradas adversariais, amostras fora da distribuição, corrupções de dados, etc.
Ética e Vieses
Avaliar vieses relacionados a gênero, raça, religião e testar a adesão a princípios éticos.
Confiabilidade
Medir a confiabilidade, veracidade e precisão factual das saídas do modelo.
E muitas outras áreas, como desempenho multilíngue, aplicações médicas, engenharia, matemática e resposta a perguntas científicas.
Onde Avaliar os LLMs?
Para avaliar LLMs de forma abrangente, os autores do artigo “Uma Pesquisa sobre Avaliação de Grandes Modelos de Linguagem” apontam que precisamos de conjuntos de dados e benchmarks cuidadosamente selecionados em diferentes áreas:
Benchmarks Gerais:
- BIG-bench, HELM, PromptBench testam diversas capacidades em um único benchmark
Benchmarks Especializados de PLN:
- GLUE, SuperGLUE para compreensão geral da linguagem
- SQuAD, NarrativeQA para resposta a perguntas
Benchmarks de Raciocínio:
- StrategyQA, PIE para raciocínio de senso comum / múltiplas etapas
Benchmarks de Robustez:
- GLUE-X, CheckList para avaliar robustez a várias perturbações
Benchmarks de Ética e Vieses:
- Winogender, CrowS-Pairs para viés de gênero
- CANDELA para avaliar discurso de ódio
Benchmarks Multilíngues:
- XGLUE, XTREME para generalização cross-lingual
- M3Exam para capacidades multilíngues
Benchmarks de domínio especializado para matemática, ciências, código, testes de personalidade e muito mais.
Benchmarks Multimodais:
- Combinando texto com imagens, áudio, vídeos, etc.
- MMBench, MMLU, LAMM, MME entre outros
Como Avaliar os LLMs?
“Uma Pesquisa sobre Avaliação de Grandes Modelos de Linguagem” discute vários protocolos para avaliação de LLMs:
Avaliação Automática:
- Uso de métricas como BLEU, ROUGE, F1, Acurácia para pontuar saídas em relação a referências
- Funciona para tarefas bem definidas, mas tem limitações
Avaliação Humana:
- Recrutar humanos para avaliar subjetivamente as saídas
- Mais caro, mas pode capturar aspectos abertos
- Usado para raciocínio de senso comum, geração aberta
Humano no Loop:
- Humanos fornecem feedback interativo para refinar prompts/saídas do modelo
- Ex: AdaFilter que filtra saídas tóxicas
Teste com Crowdsourcing:
- Crowdsourcing de templates de pessoas para criar novos casos de teste
- Plataformas como DynaBench fazem testes de estresse contínuos
Checklists:
- Casos de teste selecionados cobrindo capacidades e modos de falha
- Inspirado em checklists de teste de software

Quais São os LLMs Populares com Desempenho Excepcional em Benchmarks?
Anthropic: Claude 3.5 Sonnet
O Claude 3.5 Sonnet oferece capacidades melhores que o Opus, velocidades mais rápidas que o Sonnet, pelos mesmos preços do Sonnet. O Sonnet é particularmente bom em programação, aumentando a expertise humana em ciência de dados, navegando em dados não estruturados enquanto usa múltiplas ferramentas para insights, processamento visual e tarefas agentivas. A API Claude 3.5 Sonnet é fornecida pela Anthropic.

Meta: Llama 3 70B Instruct
A mais nova classe de modelo da Meta (Llama 3) foi lançada com uma variedade de tamanhos e versões. Esta versão ajustada por instruções de 70B foi otimizada para casos de uso de diálogo de alta qualidade. Demonstrou desempenho forte em comparação com modelos líderes de código fechado em avaliações humanas. Os principais provedores da API Llama 3 70B Instruct incluem DeepInfra, Novita AI, OctoAI, Lepton, Together, Fireworks e Perplexity.

OpenAI: GPT-4o
GPT-4o (“o” de “omni”) é o modelo de IA mais recente da OpenAI, suportando entradas de texto e imagem com saídas de texto. Mantém o nível de inteligência do GPT-4 Turbo enquanto é duas vezes mais rápido e 50% mais econômico. GPT-4o também oferece desempenho melhorado no processamento de idiomas não ingleses e capacidades visuais aprimoradas. Os principais provedores do GPT-4o incluem OpenAI e Azure.

WizardLM-2 8x22B
O WizardLM-2 8x22B é o modelo Wizard mais avançado da Microsoft AI. Demonstra desempenho altamente competitivo em comparação com modelos proprietários líderes, e supera consistentemente todos os modelos de código aberto de última geração existentes. Os principais provedores da API WizardLM-2 8x22B incluem Novita AI, DeepInfra, Lepton, OctoAI e Together.

Mistral: Mistral 7B Instruct
O Mistral 7B Instruct é um modelo de alto desempenho e padrão industrial com 7,3B parâmetros, com otimizações para velocidade e comprimento de contexto. Os principais provedores do Mistral 7B Instruct incluem Novita AI, Lepton, DeepInfra, OctoAI e Together.

Quais São os Desafios Futuros da Avaliação de LLMs?
Os autores de “Uma Pesquisa sobre Avaliação de Grandes Modelos de Linguagem” apontam alguns desafios futuros para os leitores considerarem:
Projetar Benchmarks de IAG:
- Necessidade de benchmarks que possam testar de forma abrangente a inteligência geral artificial
- Devem cobrir capacidades multitarefa, multimodais e abertas
Teste Comportamental Completo:
- Teste de estresse para todas as possíveis distribuições de entrada e comportamentos
- Garantir confiabilidade e segurança em implantações do mundo real
Avaliação de Robustez:
- Ataques adversariais, mudanças de distribuição, riscos de segurança
- Necessidade de estruturas baseadas em princípios além dos métodos ad-hoc atuais
Avaliação Dinâmica:
- Atualizar avaliações conforme os LLMs evoluem para lidar com novos riscos/capacidades
- Ex: LLMs se tornando melhores em programação ou raciocínio matemático
Avaliação Unificada:
- Necessidade de estruturas unificadas para avaliar consistentemente diversos LLMs
- A abordagem atual é ad-hoc e carece de padronização
Avaliação Confiável:
- O próprio processo de avaliação deve ser imparcial, seguro e fiel
- Prevenir trapaças por LLMs ou anotações humanas não confiáveis
Conclusão
Avaliar rigorosamente grandes modelos de linguagem é crucial para construir confiança e permitir sua implantação segura e ética. “Uma Pesquisa sobre Avaliação de Grandes Modelos de Linguagem” fornece uma visão geral aprofundada dos principais aspectos, conjuntos de dados, protocolos e desafios em aberto na avaliação de LLMs. À medida que esses poderosos modelos de IA continuam avançando, a pesquisa em avaliação deve acompanhar o ritmo para examinar seu desempenho e proteger contra riscos potenciais para a sociedade. Seguir práticas de avaliação baseadas em princípios é vital para aproveitar de forma responsável o potencial transformador dos LLMs.
Referências
Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., Ye, W., Zhang, Y., Chang, Y., Yu, P. S., Yang, Q., & Xie, X. (2018). Uma pesquisa sobre avaliação de grandes modelos de linguagem. Journal of the ACM, 37(4), Artigo 111. https://arxiv.org/abs/2307.03109
Novita AI é a plataforma completa em nuvem que impulsiona suas ambições de IA. Com APIs integradas perfeitamente, computação serverless e aceleração GPU, fornecemos as ferramentas econômicas que você precisa para construir e escalar rapidamente seu negócio baseado em IA. Elimine as dificuldades de infraestrutura e comece gratuitamente — a Novita AI torna seus sonhos de IA realidade.
