Destaques Principais
Treinamento
DeepSeek V3: Segue um pipeline tradicional de pré-treinamento (14,8T tokens) → Ajuste Fino Supervisionado (SFT) → Aprendizado por Reforço (RL).
DeepSeek R1: Foca em uma abordagem de treinamento centrada em RL, começando com ajuste fino a frio e integrando múltiplos estágios de RL para otimização de raciocínio.
Desempenho em Benchmarks
DeepSeek V3: Desempenho geral forte em benchmarks, alcançando 87,4% no MMLU e 90,0% no MATH-500.
DeepSeek R1: Excelência em tarefas que exigem raciocínio intenso, com 96,3% no Codeforces e 97,3% no MATH-500, superando o V3 em desafios específicos de domínio.
Aplicações
DeepSeek V3: Um modelo versátil de propósito geral, adequado para compreensão de linguagem natural, codificação e geração de texto, amplamente aplicável em educação, criação de conteúdo e automação empresarial.
DeepSeek R1: Otimizado para tarefas avançadas de raciocínio, como inferência lógica e resolução de problemas em múltiplas etapas, ideal para saúde, finanças, serviços jurídicos e outros casos de uso específicos da indústria.
Se você está avaliando os modelos V3 e R1 da DeepSeek em seus próprios casos de uso — Ao se registrar, a Novita AI oferece um crédito de $0,50 para você começar!
O cenário de IA foi revolucionado pela introdução dos modelos DeepSeek V3 e R1. Esses modelos de linguagem avançados representam marcos significativos nas capacidades de processamento de linguagem natural e raciocínio. Este artigo fornece uma comparação detalhada entre DeepSeek V3 e DeepSeek R1, explorando suas características, desempenho e aplicações práticas.
Introdução Básica dos Modelos
Para iniciar nossa comparação, primeiro entendemos as características fundamentais de cada modelo.
DeepSeek V3
- Data de Lançamento: 27 de dezembro de 2024
- Escala do Modelo:
- Principais Características:
- Tamanho do Modelo: 671B parâmetros (37B ativos/token)
- Tokenizador: Tokenizador multilíngue baseado em SentencePiece
- Idiomas Suportados: Foco em chinês, inglês e japonês
- Multimodal: Apenas texto
- Janela de Contexto: 128K tokens
- Formatos de Armazenamento: Inferência FP8/BF16
- Arquitetura: Mixture of Experts (MoE) + Multi-Head Latent Attention
- Método de Treinamento: Pré-treinamento → Ajuste Fino Supervisionado (SFT) → Aprendizado por Reforço (RL)
- Dados de Treinamento: 14,8T tokens para pré-treinamento
DeepSeek R1
- Data de Lançamento: 21 de janeiro de 2025
- Escala do Modelo:
- Principais Características:
- Tamanho do Modelo: 671B parâmetros (37B ativos/token)
- Tokenizador: Tokenizador aprimorado com tags de auto-reflexão
- Idiomas Suportados: Multilíngue com adaptação cultural
- Multimodal: Apenas texto
- Janela de Contexto: 128K tokens
- Formatos de Armazenamento: Suporte a quantização Q8/Q5
- Arquitetura: Mixture of Experts (MoE) + pipeline de treinamento aprimorado com RL
- Método de Treinamento: Construído sobre a base V3 com pipeline RL (SFT → RL → SFT → RL)
- Dados de Treinamento: Base V3 + dados de otimização RL

Comparação de Modelos

Semelhanças:
- Ambos têm o mesmo tamanho de modelo (671B parâmetros, 37B parâmetros ativos por token).
- Ambos usam a arquitetura Mixture-of-Experts (MoE).
- Ambos são modelos multilíngues com excelência em inglês e chinês.
Principais Diferenças:
- Métodos de Treinamento: V3 usa um pipeline tradicional de pré-treinamento, ajuste fino supervisionado (SFT) e aprendizado por reforço (RL). Em contraste, R1 foca em uma abordagem centrada em RL, incorporando ajuste fino a frio e mecanismos de recompensa para aprimorar as capacidades de raciocínio.

Comparação de Velocidade
Se você quiser testar por conta própria, pode iniciar uma avaliação gratuita no site da Novita AI.

Experimente o DeepSeek V3 Demo Agora!
Comparação de Velocidade



fonte: artificialanalysis
Comparação de Custo

fonte: artificialanalysis
O DeepSeek R1 supera o DeepSeek V3 em velocidade de saída, mas possui um tempo total de resposta maior. Os preços de entrada e saída do DeepSeek R1 são significativamente mais altos que os do DeepSeek V3.
Comparação de Benchmarks
Agora que estabelecemos as características básicas de cada modelo, vamos nos aprofundar em seu desempenho em diversos benchmarks. Esta comparação ajudará a ilustrar seus pontos fortes em diferentes áreas.
| Benchmark | DeepSeek-R1 (%) | DeepSeek-V3 (%) |
|---|---|---|
| Codeforces | 96,3 | 63,6 |
| GPQA Diamond | 71,5 | 62,1 |
| MATH-500 | 97,3 | 90,0 |
| MMLU | 90,8 | 87,4 |
Esses resultados sugerem que o DeepSeek-R1 é mais otimizado para tarefas que exigem raciocínio intenso e específicas de domínio (por exemplo, Codeforces e MATH-500), enquanto o DeepSeek-V3 oferece um desempenho sólido, embora ligeiramente inferior, nesses benchmarks.
Se você quiser ver mais comparações, confira estes artigos:
- Deepseek v3 vs Llama 3.3 70b: Tarefas de Linguagem vs Código e Matemática
- Llama 3.2 3B vs DeepSeek V3: Comparando Eficiência e Desempenho.
Aplicações e Casos de Uso
DeepSeek V3
- Projetado para uma ampla gama de tarefas, incluindo compreensão de linguagem natural, codificação e resolução básica de problemas.
- Aplicável em diversos setores, como educação, criação de conteúdo e automação empresarial.
- Excelência em áreas como geração de texto, conclusão de código e raciocínio matemático.
- Um modelo versátil de propósito geral, adequado para várias aplicações.
DeepSeek R1
- Adaptado para tarefas que exigem raciocínio avançado, inferência lógica e resolução de problemas matemáticos.
- Ideal para enfrentar desafios complexos e específicos da indústria em áreas como saúde, finanças e serviços jurídicos.
- Particularmente eficaz em tarefas que demandam raciocínio extenso de Cadeia de Pensamento (CoT), como diagnosticar problemas intrincados, analisar cenários de múltiplas etapas e sintetizar insights a partir de grandes conjuntos de dados.
Acessibilidade e Implantação através da Novita AI
Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer a nuvem GPU acessível e confiável para construir e escalar.
Passo 1: Faça Login e Acesse a Biblioteca de Modelos
Faça login na sua conta e clique no botão Model Library.

Passo 2: Escolha Seu Modelo
Navegue pelas opções disponíveis e selecione o modelo que atende às suas necessidades.

Passo 3: Inicie Sua Avaliação Gratuita
Comece sua avaliação gratuita para explorar as capacidades do modelo selecionado.

Passo 4: Obtenha Sua Chave de API
Para autenticar com a API, forneceremos a você uma nova chave de API. Acesse a página Settings e copie a chave de API conforme indicado na imagem.

Passo 5: Instale a API
Instale a API usando o gerenciador de pacotes específico da sua linguagem de programação.

Após a instalação, importe as bibliotecas necessárias para o seu ambiente de desenvolvimento. Inicialize a API com sua chave de API para começar a interagir com o LLM da Novita AI. Este é um exemplo de uso da API de chat completions para usuários Python.
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<SUA CHAVE DE API Novita AI>",
)
model = "deepseek/deepseek_v3"
stream = True # ou False
max_tokens = 2048
system_content = """Seja um assistente útil"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Olá!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Ao se registrar, a Novita AI oferece um crédito de $0,50 para você começar!
Se os créditos gratuitos acabarem, você pode pagar para continuar usando.
DeepSeek V3 e DeepSeek R1 são LLMs poderosos com pontos fortes distintos. DeepSeek V3 é um modelo versátil de propósito geral, conhecido por sua eficiência e forte desempenho em várias tarefas. DeepSeek R1, por outro lado, é um modelo especializado otimizado para raciocínio avançado. A escolha entre eles depende dos requisitos específicos da aplicação. Ambos os modelos representam avanços significativos no campo, desafiando os modelos existentes com seu desempenho, eficiência e acessibilidade de código aberto.
Perguntas Frequentes
Qual é a principal diferença entre DeepSeek V3 e R1?*
DeepSeek V3 é um modelo de propósito geral, enquanto R1 é projetado especificamente para tarefas avançadas de raciocínio.
Esses modelos precisam de hardware especial?
Sim, ambos os modelos são grandes e exigem hardware de alto desempenho, especialmente GPUs com VRAM significativa.
Como os modelos são treinados?
DeepSeek V3 é pré-treinado em 14,8 trilhões de tokens. DeepSeek R1 é baseado no DeepSeek V3, usando ajuste fino e aprendizado por reforço para habilidades de raciocínio.
Novita AI é a plataforma completa em nuvem que impulsiona suas ambições de IA. APIs integradas, serverless, GPU Instance — as ferramentas custo-efetivas que você precisa. Elimine a infraestrutura, comece gratuitamente e torne sua visão de IA realidade.
