Introdução
Além do discurso predominante sobre a integração de LLMs nas práticas empresariais, está surgindo um debate menos divulgado sobre a comparação entre modelos tradicionais de Machine Learning (ML) e Large Language Models (LLMs). Surge a pergunta: os modelos convencionais de ML estão se tornando obsoletos, com os LLMs prestes a dominar o cenário da IA? A novidade é inerentemente superior?
Este artigo tem como objetivo dissecar o discurso ML vs. LLM, explorando suas disparidades, funcionalidades e instâncias onde um pode superar o outro em várias aplicações de IA.
Traçando uma linha entre ML e LLM
Inicialmente, é essencial reconhecer que os Large Language Models (LLMs) são um subconjunto do Machine Learning (ML). O Machine Learning abrange uma vasta gama de algoritmos e modelos, desde os mais básicos como Naive Bayes até os mais complexos como Redes Neurais. Os LLMs, um avanço recente, devem sua existência a conceitos como Redes Neurais e retropropagação para treinamento, que revolucionaram áreas como visão computacional, processamento de linguagem natural (NLP) e aprendizado por reforço. No entanto, o potencial transformador das Redes Neurais não foi totalmente percebido até cerca de uma década atrás, principalmente devido a limitações no armazenamento de dados e poder computacional, que foram superadas com a adoção generalizada de GPUs e métodos acessíveis de armazenamento e coleta de dados.
Compreendendo Machine Learning
Os modelos tradicionais de ML há muito dependem da extração de características, um processo crucial para várias aplicações em setores como finanças e saúde. Técnicas como Support Vector Machines e Decision Trees, bem como Redes Neurais rasas, que são fundamentais para os LLMs, dependiam fortemente da qualidade da engenharia de características realizada nos dados disponíveis. No entanto, essa abordagem tinha limitações devido à capacidade finita dos humanos de conceber transformações matemáticas complexas. As Redes Neurais Profundas, particularmente aquelas que empregam arquiteturas Transformer e CNN, representam um salto significativo ao automatizar e aprimorar a extração de características. Esses modelos aproveitam técnicas de aprendizado autossupervisionado para explorar grandes quantidades de dados não estruturados, reduzindo a necessidade de pré-processamento extenso. Embora as soluções de Deep Learning se destaquem em tarefas como sistemas de recomendação e busca, elas nem sempre são adequadas para tarefas que exigem técnicas de aprendizado para classificação, onde soluções tradicionais de ML como Boosting Trees podem ser mais apropriadas.
Compreendendo NLP (Processamento de Linguagem Natural)
No domínio do NLP, técnicas tradicionais de processamento de texto como TF-IDF e Bag of Words foram fundamentais para vetorizar texto antes do surgimento de modelos como Word2Vec e FastText. Antes do surgimento de modelos como BERT, uma parte considerável dos esforços de NLP se concentrava em aperfeiçoar as etapas de pré-processamento. Os Transformers, começando com o BERT, abriram caminho para os LLMs, que são treinados em enormes quantidades de dados textuais da internet. Esses modelos se destacam em tarefas linguísticas complexas, como tradução, resposta a perguntas e sumarização, devido aos seus extensos dados de treinamento e grandes tamanhos de parâmetros.
Se você tem interesse na diferença entre NLP e LLM, pode conferir nosso blog: NLP vs LLM: Principais Diferenças e Sinergias
A distinção entre ML e LLMs depende dos requisitos específicos da aplicação. Os LLMs são frequentemente preferíveis para tarefas que exigem compreensão sutil da linguagem ou IA Generativa, como chatbots ou sumarização de texto, devido às suas capacidades avançadas. No entanto, o ML tradicional se destaca em cenários onde a interpretabilidade e a eficiência computacional são cruciais, como análise de dados estruturados ou ambientes com recursos limitados, como dispositivos de borda.
Em certas áreas, como análise de sentimentos ou sistemas de recomendação, tanto ML quanto LLMs podem oferecer soluções viáveis, cada um com vantagens únicas. Esses métodos podem ser complementares em vez de concorrentes, dependendo do caso de uso específico. A seção seguinte abordará detalhes de implementação e considerações para cada técnica, auxiliando no processo de tomada de decisão para vários casos de uso.
A matriz de decisão para ML vs. LLM
Os LLMs se destacam em tarefas generativas que exigem compreensão abrangente da linguagem, enquanto o ML tradicional mantém sua eficácia em tarefas discriminativas devido à sua eficiência e menores requisitos de recursos. Por exemplo, o ML pode ser preferido para análise de sentimentos ou previsão de rotatividade de clientes, enquanto os LLMs são preferidos para tarefas complexas como geração de código ou conclusão de texto.

Pipelines de demonstração: ML vs. DL vs. LLM
Vamos nos aprofundar em um cenário onde pretendemos construir um modelo de análise de sentimentos para avaliar a positividade ou negatividade de avaliações em uma plataforma de e-commerce.
Examinaremos três metodologias distintas: empregando Machine Learning com XGBoost, aproveitando Deep Learning com TensorFlow e realizando previsão de análise de sentimentos utilizando um Large Language Model da OpenAI.
ML com XGBoost
Para começar, vou me aprofundar na utilização do XGBoost, um algoritmo de Machine Learning robusto e eficiente, para análise de sentimentos. Esta demonstração destacará as etapas envolvidas na extração de características de dados textuais, treinamento do modelo e avaliação de seu desempenho, ressaltando a capacidade do XGBoost de lidar efetivamente com dados estruturados.

Este trecho de código ilustra a implementação de um pipeline de Machine Learning projetado para análise de sentimentos, utilizando XGBoost, um renomado framework de gradient boosting, em conjunto com TF-IDF para vetorização de texto. O conceito fundamental envolve converter dados textuais em vetores numéricos usando TF-IDF, uma técnica que captura a importância das palavras em um corpus, seguida pela aplicação do XGBoost, um algoritmo eficiente e potente baseado em Boosting Trees, para uma tarefa de classificação binária. Este pipeline se mostra particularmente eficaz para conjuntos de dados estruturados e é ideal para cenários que priorizam interpretabilidade e eficiência computacional. No entanto, é importante notar que, neste cenário, assumimos que os dados de texto fornecidos ao pipeline estão em condição impecável, o que muitas vezes não é o caso. Normalmente, as etapas anteriores envolvem tarefas de processamento de texto, como remoção de stop words e normalização de texto.
DL com TensorFlow:
No exemplo a seguir, mostrarei uma abordagem de Deep Learning empregando TensorFlow. Aqui, construímos uma rede neural simples (rasa) para lidar com dados de texto, visando ilustrar como o Deep Learning pode discernir padrões intrincados na linguagem percorrendo camadas de redes neurais. Abaixo está uma ilustração usando TensorFlow com Keras:

Transitando da demonstração anterior de um método convencional de Machine Learning para análise de sentimentos, este trecho de código muda o foco para uma abordagem de Deep Learning utilizando TensorFlow, um framework robusto para construir modelos baseados em redes neurais. No centro desta ilustração de Deep Learning está a camada de embedding, um conceito notavelmente popularizado pelo Word2Vec. Esta camada traduz palavras em vetores densos dentro de um espaço de alta dimensão, capturando relações semânticas de uma maneira que vai além da simples vetorização numérica. Em contraste com a abordagem anterior de TF-IDF e XGBoost, este modelo de deep learning aprende representações de palavras em contexto, permitindo-lhe captar sutilezas no uso da linguagem. O modelo emprega uma arquitetura de rede neural básica compreendendo uma camada de embedding, uma camada de pooling para redução de dimensionalidade e uma camada densa para classificação.
Vale ressaltar que, por simplicidade, a Rede Neural implementada apresenta apenas uma camada oculta. Para aproveitar totalmente os recursos de extração de características das Redes Neurais Profundas (DNNs), seria necessária uma rede neural com maior profundidade e complexidade. Esta metodologia se mostra potente para conjuntos de dados extensos e intrincados, onde a captura de padrões linguísticos sutis é primordial. Serve como um exemplo primordial de como o Deep Learning pode simplificar e aprimorar a extração de características, uma tarefa tradicionalmente exigente de intervenção manual extensa e conhecimento de domínio.
LLM com GPT-3
Finalmente, exploro um exemplo empregando um Large Language Model, especificamente o GPT-3, mostrando como esses modelos sofisticados, pré-treinados em conjuntos de dados extensos, podem ser utilizados para análise de sentimentos com configuração mínima, embora dependam de APIs e recursos externos. Abaixo está uma ilustração utilizando a API GPT-3 da OpenAI para análise de sentimentos:

Este último trecho de código apresenta uma abordagem alternativa para análise de sentimentos, aproveitando o GPT-3 (modelo Davinci) da OpenAI, um avançado Large Language Model (LLM).
Aqui, as complexidades do treinamento do modelo e da extração de características são abstraídas, pois você está essencialmente pegando um atalho ao utilizar um modelo pré-treinado. Ao contrário dos exemplos anteriores, onde os modelos foram treinados em conjuntos de dados específicos adaptados à tarefa, o GPT-3 passou por treinamento em conjuntos de dados vastos e diversos, equipando-o com a capacidade de compreender e gerar texto semelhante ao humano.
A principal vantagem desta abordagem reside na sua simplicidade e versatilidade. Com apenas algumas linhas de código e alguma engenharia de prompt, você pode aproveitar as capacidades dos modelos GPT para executar uma ampla gama de tarefas, incluindo análise de sentimentos, sem a necessidade de extenso pré-processamento de dados ou treinamento de modelo. Este trecho comunica texto à API GPT-3 e recupera uma avaliação de sentimento, mostrando como os LLMs podem ser facilmente implantados para uso imediato. Ele ressalta os avanços alcançados no processamento de linguagem natural, onde a complexidade da compreensão da linguagem está incorporada no modelo pré-treinado, tornando-o altamente potente e fácil de usar em várias aplicações.
No entanto, embora esta solução seja mais fácil de implementar e potencialmente mais robusta, ela obscurece o intrincado processo de treinamento envolvido no desenvolvimento de um Large Language Model. Este aspecto pode suscitar considerações técnicas e financeiras, nas quais nos aprofundaremos a seguir.
Aprofundando-se nas considerações técnicas
Explorar o terreno técnico dos Large Language Models envolve navegar tanto pela dívida técnica quanto pelas considerações de custo. Embora esses modelos simplifiquem a implantação e aliviem as complexidades, conforme ilustrado nos exemplos acima, eles também acarretam implicações financeiras. Esta transição dos desafios técnicos para os financeiros ressalta a necessidade de um exame mais aprofundado das compensações entre eficiência técnica e os custos tangíveis ligados à implantação e manutenção de LLMs.
Dívida técnica e custo
Refletindo sobre os exemplos anteriores, é evidente que, embora LLMs como GPT-4 ou Llambda ofereçam processamento simplificado e facilidade de uso, eles também apresentam desafios em termos de custos. Esses modelos, adeptos a compreender e responder a vários prompts, simplificam notavelmente o processo de implantação e aliviam as complexidades tipicamente associadas ao desenvolvimento e manutenção de modelos. Isso contrasta fortemente com métodos de ML como XGBoost, que exigem um envolvimento mais prático na engenharia de características e otimização do modelo.

Ao considerar aplicações de LLMs, eles podem ser vistos como um meio de transformar as complexidades e obstáculos técnicos associados à construção de pipelines de machine learning e deep learning em um custo financeiro. Isso porque os transformers, a arquitetura subjacente desses modelos, lidam com a intrincada tarefa de extração de características, que tradicionalmente exige recursos computacionais substanciais e expertise. No entanto, essa conveniência vem com uma compensação na forma de maior dependência de unidades de processamento gráfico (GPUs) potentes. Essas GPUs representam uma despesa direta se alguém hospedar seu próprio LLM, como o Llambda, ou esse custo é integrado à taxa de serviço ao utilizar um serviço gerenciado, como com os modelos da OpenAI. Essencialmente, o ônus da complexidade técnica é transformado em um financeiro, tornando a tecnologia acessível, mas a um preço.
Latência e natureza da tarefa
Em aplicações voltadas para o usuário, a velocidade com que os modelos de IA podem processar e responder às entradas, conhecida como latência, é de suma importância.

Os modelos tradicionais de ML, conhecidos por suas capacidades de processamento rápido, são ideais para aplicações em tempo real de alta velocidade, como executar algoritmos de negociação financeira, fornecer recomendações ou gerenciar sistemas de resposta a emergências, onde decisões em frações de segundo são críticas.
Por anos, a academia e a indústria investiram esforços significativos em otimizar e escalar os custos computacionais associados à previsão e treinamento de modelos de ML.
No entanto, o cenário muda ao lidar com LLMs. Tome, por exemplo, um assistente virtual em uma aplicação de suporte ao cliente. Embora as respostas imediatas permaneçam essenciais, a compreensão abrangente da linguagem dos LLMs pode melhorar marcadamente a qualidade e profundidade das interações, justificando um ligeiro atraso nas respostas. Essa compensação sutil também é evidente em tarefas de geração de conteúdo, onde a riqueza e coerência do texto ou imagens gerados por LLMs podem superar a necessidade de resultados instantâneos tipicamente vistos em outras aplicações.
Essencialmente, a escolha entre modelos tradicionais de ML e LLMs requer uma avaliação meticulosa da natureza específica e urgência das tarefas em questão. O equilíbrio entre latência e compreensão da linguagem surge como um fator crítico para determinar a solução ideal para um determinado contexto técnico, ressaltando a necessidade de abordagens personalizadas e o reconhecimento de que diversas aplicações exigem considerações distintas.
No entanto, esforços contínuos estão em andamento para otimizar os recursos computacionais exigidos por esses LLMs, a fim de fornecer respostas mais rápidas em maior escala.
Conclusão
Ao considerar ML versus LLMs, é essencial compreender seus pontos fortes e fracos únicos. A decisão depende, em última análise, dos requisitos e restrições específicos da aplicação, como custo, latência e a natureza da tarefa. No entanto, duas considerações principais devem sempre estar em primeiro plano ao avaliar suas opções.
novita.ai, a plataforma única para criatividade ilimitada que oferece acesso a mais de 100 APIs. Desde geração de imagens e processamento de linguagem até aprimoramento de áudio e manipulação de vídeo, com pagamento conforme o uso e baixo custo, ela libera você das dores de cabeça de manutenção de GPU enquanto constrói seus próprios produtos. Experimente gratuitamente.
Leitura recomendada
Novita AI LLM Inference Engine: a maior taxa de transferência e a inferência mais barata disponível
