OCRはもはや単なる「テキスト抽出」ではありません。現代のチームが求めるのはドキュメントインテリジェンス、すなわち大規模な読み順、レイアウト、表、構造化された出力を、エンタープライズOCRの価格帯なしで実現することです。DeepSeek OCR2 は、新しい視覚的エンコードパラダイムでこの流れをさらに推し進め、Novita AI はAPIと透明性のあるトークン課金により、本番環境への導入を実用的なものにしています。
DeepSeek OCR2 とは
基本紹介
DeepSeek-OCR 2 は、DeepSeek AI社によるマルチモーダル文書認識モデルであり、DeepSeek-OCR(第1世代)のアップグレード版として位置づけられています。その主要な変更点は DeepEncoder V2 で、視覚処理を従来の固定された「ラスタースキャン」(左上→右下)から、意味的で因果関係を考慮した読み取りへと移行させます。これは、複雑な文書における論理構造を人間が追う方法に近いものです。
従来のOCRパイプラインは、複数カラムのPDF、密度の高い財務諸表、表と脚注が混在する文書、読み順が難しいフォームなどでしばしば破綻します。OCR2は「文字を認識する」だけでなく、ページを理解するように設計されています。
| 機能 | DeepSeek OCR2 |
| 組織 | DeepSeek AI |
| モデルタイプ | マルチモーダル文書認識(OCR+レイアウト認識) |
| 主要な革新 | DeepEncoder V2が画像のセマンティクスに基づいて視覚トークンを並べ替える(「固定スキャン」→「意味的推論」) |
| コンテキストウィンドウ / 最大出力 | 8,192 / 8,192 |
| 入力 / 出力 | 入力:テキスト、画像 / 出力:テキスト |
| 量子化 | bf16 |
| ライセンス | Apache-2.0 |

DeepSeek-OCR 2: Visual Causal Flow
🔍概要レベルでの説明:
- エンコーダ側:DeepEncoder V2は、LLM形式のデコードステップの前に、画像のセマンティクスに基づいて視覚トークンを並べ替えることができます。
- システム設計:OCR2は、DeepSeek-3B-MoEデコーダを保持しながら、元のCLIPベースのエンコーダを軽量LLMコンポーネント(Qwen2-0.5B)に置き換えたものと説明されています。
- トークン効率:OCR2は、制限された視覚トークン予算(複雑さに応じて256~1120の範囲と報告)を使用して文書をカバーします。
ベンチマークパフォーマンス
OCR2の改善は、文書中心のベンチマークで最も顕著に現れています。
- OmniDocBench v1.5では、DeepSeek-OCR 2 が総合91.09%を達成し、前世代から+3.73%の向上、読み順編集距離を0.085 → 0.057に低減しました。
- OmniDocBenchは、多様な文書タイプ、レイアウト、言語にわたる実際のPDF解析を評価するために設計されています。
請求書処理、クレーム処理、コンプライアンスPDF、マニュアルのRAGなど、文書ワークフローを構築している場合、これらの指標は一般的な「OCR精度」よりも重要です。なぜなら、文字レベルの認識だけでなく、構造+レイアウトの理解を測定するからです。
AI APIプロバイダーを評価する方法:5つの主要指標
モデルを選ぶことは決定の半分に過ぎません。プロバイダーが、信頼性をもってスケールできるかどうかを決定します。
| 指標 | 主な焦点 | ビジネスへの影響 | Novita AI / DeepSeek-OCR2 のコンテキスト |
| コンテキスト長 | トークン制限 | チャンク数削減→呼び出し回数削減→パイプライン簡略化 | 8,192トークンのコンテキストは、複数ページの解析を1回のパスで処理するのに役立つ |
| トークンコスト | API料金 | 大規模抽出のROIに直接影響 | 高ボリュームOCRワークロード向けに最適化された料金(詳細は後述) |
| レイテンシ(TTFT/TPOT) | 応答速度 | ユーザー向けOCRエクスペリエンスの向上 | 低レイテンシにより、高速なプレビューと応答性の高いアプリを実現 |
| スループット | RPS / 同時実行数 | バッチ処理とピーク時トラフィック処理を可能にする | バッチおよび同時ジョブ向けの高い同時実行容量 |
| 統合のしやすさ | 互換性 | 既存ツールを再利用することで導入を迅速化 | OpenAI互換ツールで動作。Anthropicスタイルの統合もサポート |
なぜNovita AIを選ぶべきか?
注:OpenAI互換APIに加えて、Novita AIはAnthropic互換インターフェースも提供しており、チームは既存のClaudeスタイルのツールやプロンプトを最小限の変更で再利用できます。
開発効率
統合が速いほど、価値実現までの時間も短くなります。NovitaはOpenAI互換のインターフェースを提供しているため、ほとんどのチームは次の項目を変更するだけでOCR2を統合できます。
- base_url:
https://api.novita.ai/openai - api_key:
<Your API Key> - モデル名:
deepseek/deepseek-ocr-2
コスト面でのメリット
NovitaはOCR2に対して非常にシンプルな料金を掲示しています。入力トークンと出力トークンで同じ低レートであり、OCR負荷の高いワークロードの予測を容易にします。
また、Novitaはサーバーレスエンドポイントを実行するため、通常は以下の運用負担を回避できます。
- GPUのプロビジョニング
- 推論サーバーのオートスケーリング
- CUDA + 推論スタックのメンテナンス
DeepSeek OCR2 のAPI料金
Novitaの料金ページでは、deepseek/deepseek-ocr-2 は次のように表示されています。
- 入力:$0.03 / 100万トークン
- 出力:$0.03 / 100万トークン
DeepSeek OCR2 API へのアクセス
クイックスタート:Novita PlaygroundでDeepSeek OCR2を即座に試す
ドキュメントに対してOCR2を検証する最も速い方法は、Novita Playgroundで実際のサンプルをいくつか実行することです。セットアップは不要です。
⚠ 注意:決定論的で安定した出力を得るには、
temperatureとtop_kの両方を0に設定してください。これによりランダム性が無効になり、実行間で一貫した結果が得られます。
APIキーを取得する
- ステップ1:アカウントを作成またはログイン
[**https://novita.ai**](https://novita.ai) にアクセスし、新規登録 するか、既存のアカウントにログインします。
- ステップ2:キー管理に移動
ログイン後、「API Keys」を見つけます。

- ステップ3:新しいキーを作成
「Add New Key」ボタンをクリックします。

- ステップ4:すぐにキーを保存
生成されたらすぐにキーをコピーして保存してください。通常は一度だけ表示され、後で取得することはできません。パスワードマネージャーや暗号化されたメモなど、安全な場所に保管してください。
APIの使用(Python)
以下のコード例を使用してAPIと統合できます。
from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="deepseek/deepseek-ocr-2",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=8192,
temperature=0.7
)
print(response.choices[0].message.content)
上記の例ではPythonを使用していますが、NovitaのAPIはTypeScript、Java、Go、Shellなどの他の言語でも同様に機能します。クライアントライブラリが変わるだけです。
結論
DeepSeek OCR2は、視覚エンコードを固定スキャンから意味的かつ因果関係を考慮した読み取りに移行させることで、ドキュメントインテリジェンスを向上させます。特に、表、複数カラムのPDF、密度の高いフォームなど、複雑なレイアウトに有効です。OCR2 APIプロバイダーとしてNovita AIを利用すれば、OpenAI互換の統合、迅速なオンボーディング、そして入力トークン100万トークンあたり$0.03、出力トークン100万トークンあたり$0.03という透明な料金体系が得られます。本番環境のOCRワークフロー(PDF→Markdown/JSON、請求書抽出、ドキュメントto-RAG)を構築しているなら、Novitaはプロトタイプからスループットまでクリーンでスケーラブルなパスを提供します。
Novita AI は、開発者がシンプルなAPIを使用してAIモデルを簡単にデプロイできるだけでなく、手頃な価格で信頼性の高いGPUクラウドを提供するAIクラウドプラットフォームです。
よくある質問
DeepSeekはOCRをサポートしていますか?
はい。DeepSeekは、文書および画像のテキスト認識に強力なレイアウト理解を備えた第2世代OCRモデル DeepSeek OCR2 を通じてOCR機能を提供しています。
DeepSeek OCRは無料ですか?
DeepSeek OCR2はモデルレベルではオープンソースですが、APIの利用は無料ではありません。 Novita AI を利用することで、コスト効率が高く、透明性のある従量課金制の料金で、インフラのオーバーヘッドなしに利用できます。これは、本番環境でのセルフホスティングよりもはるかに実用的で経済的です。
DeepSeek OCRにアクセスするには?
DeepSeek OCR2にアクセスするには、オープンソースモデルをセルフホスティングするか、Novita AI のようなクラウドAPIプロバイダーを利用します。Novita AIは、即時のAPIアクセス、プレイグラウンド、SDK互換の統合を提供します。

