PaddleOCR-VL теперь доступен на Novita AI Платформа, предоставляющая передовые возможности анализа многоязычных документов благодаря сверхкомпактной модели Vision-Language с разрешением 0.9 Б. Это инновационное решение объединяет визуальный кодировщик динамического разрешения в стиле NaViT с языковой моделью ERNIE-4.5-0.3 Б, обеспечивая точное распознавание элементов на 109 языках.
PaddleOCR-VL-0.9B — это компактная, но мощная модель машинного обучения, которая превосходно распознаёт сложные элементы, такие как текст, таблицы, формулы и диаграммы, при минимальном потреблении ресурсов. Благодаря комплексным испытаниям на широко используемых общедоступных и внутренних тестах, PaddleOCR-VL достигает производительности SOTA как при разборе документов на уровне страниц, так и при распознавании на уровне элементов.
Он значительно превосходит существующие решения, демонстрирует сильную конкурентоспособность по сравнению с VLM высшего уровня и обеспечивает высокую скорость вывода, подходящую для практического развертывания в реальных сценариях.
Что такое PaddleOCR-VL?
PaddleOCR-VL — это ресурсоэффективная модель SOTA, специально разработанная для анализа документов. Её основным компонентом является PaddleOCR-VL-0.9B — компактная, но мощная модель машинного обучения, которая объединяет визуальный кодировщик динамического разрешения в стиле NaViT с языковой моделью ERNIE-4.5-0.3B для обеспечения точного распознавания элементов.
Эта инновационная модель эффективно поддерживает 109 языков и превосходно распознаёт сложные элементы, включая текст, таблицы, формулы и диаграммы, при минимальном потреблении ресурсов. Благодаря комплексным испытаниям на широко используемых общедоступных и внутренних тестах, PaddleOCR-VL достигает производительности SOTA как при разборе документов на уровне страниц, так и при распознавании на уровне элементов.
Модель значительно превосходит существующие решения, демонстрирует высокую конкурентоспособность по сравнению с топовыми VLM и обеспечивает высокую скорость вывода. Эти преимущества делают её весьма подходящей для практического применения в реальных условиях.
Основные особенности
Компактная, но мощная архитектура VLM
PaddleOCR-VL представляет собой новую модель распознавания текста на основе зрительного восприятия, специально разработанную для ресурсоэффективного вывода, что позволяет добиться выдающейся производительности распознавания элементов. Благодаря интеграции динамического визуального кодировщика высокого разрешения в стиле NaViT с облегчённой языковой моделью ERNIE-4.5-0.3B система значительно расширяет возможности распознавания и повышает эффективность декодирования. Такая интеграция обеспечивает высокую точность при одновременном снижении вычислительных затрат, что делает её идеально подходящей для эффективных и практичных приложений обработки документов.
Производительность SOTA при разборе документов
PaddleOCR-VL демонстрирует высочайшую производительность как при разборе документов на уровне страниц, так и при распознавании на уровне элементов. Он значительно превосходит существующие конвейерные решения и демонстрирует высокую конкурентоспособность по сравнению с ведущими моделями машинного обучения в области разбора документов. Более того, PaddleOCR-VL превосходно распознаёт сложные элементы документов, такие как текст, таблицы, формулы и диаграммы, что делает его пригодным для широкого спектра сложных типов контента, включая рукописный текст и исторические документы. Это делает его чрезвычайно универсальным инструментом, подходящим для широкого спектра типов документов и сценариев.
Мультиязычная поддержка
PaddleOCR-VL поддерживает 109 языков, включая основные мировые языки, включая, помимо прочего, китайский, английский, японский, латинский и корейский. Кроме того, он поддерживает языки с различными системами письма и структурами, такие как русский (кириллица), арабский, хинди (деванагари) и тайский.
Такой широкий языковой охват существенно расширяет возможности применения системы в многоязычных и глобализированных сценариях обработки документов.
Модельная архитектура

Динамический визуальный кодировщик высокого разрешения в стиле NaViT позволяет модели эффективно обрабатывать документы с различным разрешением, обеспечивая высокое качество извлечения признаков в документах разных типов и макетов. Облегченная языковая модель ERNIE-4.5-0.3B обеспечивает надежное понимание и генерацию языка, обрабатывая визуальные признаки для формирования структурированных результатов.
Такая архитектурная конструкция обеспечивает оптимальный баланс между размером модели, скоростью вывода и точностью распознавания, что делает PaddleOCR-VL-0.9B идеальным для практического развертывания, где критически важными требованиями являются производительность и эффективность.
Тесты производительности

PaddleOCR-VL демонстрирует исключительную производительность по нескольким параметрам оценки, зарекомендовав себя как передовое решение для анализа документов и распознавания элементов.
Анализ документа на уровне страницы
OmniDocBench v1.5: PaddleOCR-VL достигает производительности SOTA для общего анализа, текста, формул, таблиц и порядка чтения на OmniDocBench v1.5.
Модель стабильно превосходит конкурирующие решения по всем оцениваемым категориям, демонстрируя свои возможности всестороннего понимания документов.
OmniDocBench v1.0: PaddleOCR-VL достигает производительности SOTA почти по всем общим показателям, показателям текста, формул, таблиц и порядка чтения в OmniDocBench v1.0.
Эти результаты подтверждают надежные возможности модели для документов разных типов и уровней сложности.
Примечание: Метрики взяты из MinerU, OmniDocBench и внутренних оценок.
Распознавание на уровне элементов
Распознавание текста: Надежные и универсальные возможности PaddleOCR-VL по обработке различных типов документов делают его ведущим методом в оценке производительности OmniDocBench-OCR-block.
Внутренняя оценка OCR позволяет оценить эффективность распознавания текста на разных языках и в разных типах текстов. PaddleOCR-VL демонстрирует исключительную точность с минимальными расстояниями редактирования во всех оцениваемых сценариях.
Распознавание таблиц: Самостоятельно созданный оценочный набор содержит разнообразные типы изображений таблиц, такие как китайские, английские и смешанные китайско-английские таблицы, таблицы с полными, частичными или отсутствующими границами, форматы книг/руководств, списки, научные статьи, таблицы с объединенными ячейками, а также таблицы низкого качества и таблицы с водяными знаками.
PaddleOCR-VL демонстрирует выдающиеся результаты во всех категориях.
Распознавание формулы: Оценочный набор содержит простые отпечатки, сложные отпечатки, сканы с камеры и рукописные формулы.
PaddleOCR-VL демонстрирует лучшие результаты во всех категориях.
Распознавание диаграмм: Оценочный набор в целом разделен на 11 категорий диаграмм, включая гибридные столбчатые диаграммы, круговые диаграммы, 100% составные столбчатые диаграммы, диаграммы с областями, столбчатые диаграммы, пузырьковые диаграммы, гистограммы, линейные диаграммы, диаграммы рассеяния, составные столбчатые диаграммы и составные столбчатые диаграммы.
PaddleOCR-VL не только превосходит экспертные OCR VLM, но и превосходит некоторые многомодальные языковые модели уровня 72B.
Варианты использования и приложения
Оцифровка документов
Преобразуйте бумажные документы в цифровые форматы с возможностью поиска с помощью мощного распознавания текста PaddleOCR-VL на 109 языках. Эффективно обрабатывайте счета-фактуры, квитанции, контракты и деловые документы, сохраняя высокую точность даже при низком качестве сканирования или наличии водяных знаков.
Академическое исследование
Извлекайте математические формулы, таблицы и текст из исследовательских работ и научных публикаций. Исключительная способность PaddleOCR-VL распознавать формулы позволяет обрабатывать как простые, так и сложные математические выражения, что делает его идеальным инструментом для анализа литературы и извлечения данных из академических материалов.
Обработка финансовых документов
Автоматизируйте извлечение данных из финансовых отчетов, балансов и отчётов. Расширенные возможности распознавания таблиц модели позволяют точно анализировать сложные таблицы с объединёнными ячейками, многоязычной версткой и различными стилями форматирования, часто встречающимися в финансовых документах.
Оцифровка исторического архива
Сохраняйте исторические документы и рукописи с помощью PaddleOCR-VL, который эффективно обрабатывает сложные материалы, включая рукописный текст, старые шрифты, выцветшие чернила и состаренную бумагу. Модель сохраняет точность даже при работе с историческими документами, написанными на разных языках и в разных письменностях.
Анализ диаграмм и данных
Извлекайте ценную информацию из визуальных представлений данных с помощью 11 типов диаграмм, включая столбчатые, круговые, линейные графики и сложные гибридные визуализации. Идеально подходит для приложений бизнес-аналитики и автоматизированных систем отчётности.
Начало работы с PaddleOCR на Novita AI Платформа
Доступ к PaddleOCR-VL через Novita AI Предлагает несколько вариантов развития, адаптированных под разные уровни технической подготовки и сценарии использования. Независимо от того, являетесь ли вы бизнес-пользователем, изучающим возможности ИИ, или разработчиком, создающим производственные приложения, Novita AI предоставляет необходимые инструменты.
Используйте игровую площадку (доступно сейчас — кодирование не требуется)
- Мгновенный доступ: Зарегистрируйтесь и начните экспериментировать с PaddleOCR-VL в секундах
- Интерактивный интерфейс: Тестирование анализа документов и визуализация результатов в режиме реального времени
- Сравнение моделей: Сравните PaddleOCR-VL с другими ведущими моделями для вашего конкретного варианта использования
Площадка позволяет тестировать различные типы документов и мгновенно видеть результаты без какой-либо технической подготовки. Идеально подходит для создания прототипов, тестирования идей и изучения возможностей модели перед её полной реализацией.
Интеграция через API (готово к использованию — для разработчиков)
Подключите PaddleOCR-VL к своим приложениям с помощью Novita AIунифицированный REST API.
Вариант 1: Прямая интеграция API (пример на Python)
из openai импорт OpenAI клиент = OpenAI( base_url="https://api.novita.ai/openai", api_key="", ) model = "paddlepaddle/paddleocr-vl" stream = True # или False max_tokens = 8192 system_content = "Будьте полезным помощником" temperature = 1 top_p = 1 min_p = 0 top_k = 50 principal_penalty = 0 frequency_penalty = 0 repeat_penalty = 1 response_format = { "type": "text" } chat_completion_res = client.chat.completions.create( model=model, messages=[ { "role": "system", "content": system_content, }, { "role": "user", "content": "Привет!", } ], stream=stream, max_tokens=max_tokens, temperature=temperature, top_p=top_p, principal_penalty=presence_penalty, frequency_penalty= frequency_penalty, response_format=response_format, extra_body={ "top_k": top_k, "repetition_penalty": repeat_penalty, "min_p": min_p } ) если поток: для фрагмента в chat_completion_res: print(chunk.choices[0].delta.content или "", end="") иначе: print(chat_completion_res.choices[0].message.content)
Вариант 2: Многоагентные рабочие процессы с OpenAI Agents SDK
Создавайте сложные многоагентные системы, используя расширенные возможности анализа документов PaddleOCR-VL:
- Интеграция Plug-and-Play: Используйте PaddleOCR-VL в любом рабочем процессе OpenAI Agents
- Расширенные возможности агента: Поддержка передач, маршрутизации и интеграции инструментов с пониманием документов
- Масштабируемая архитектура: Разработка агентов, которые используют возможности многоязычного OCR и распознавания элементов PaddleOCR-VL
Вариант 3: подключение к сторонним платформам
Development Tools: Простая интеграция с популярными IDE и средами разработки, такими как Cursor, Trae и Cline, через API, совместимые с OpenAI и Anthropic.
Платформы оркестрации: подключайтесь к LangChain, Dify, CrewAI, Langflow и другим платформам оркестровки ИИ с помощью официальных коннекторов.
Интеграция с обнимающим лицом: Novita AI выступает в качестве официального поставщика выводов Hugging Face, обеспечивая широкую совместимость с экосистемой.
Заключение
PaddleOCR включен Novita AI PaddleOCR-VL обеспечивает передовые возможности анализа многоязычных документов благодаря сверхкомпактной модели распознавания текста на языке 0.9 млрд символов, сочетающей исключительную точность с впечатляющей эффективностью. Благодаря поддержке 109 языков, производительности SOTA в тестах OmniDocBench и превосходному распознаванию сложных элементов документов, включая текст, таблицы, формулы и диаграммы, PaddleOCR-VL представляет собой окончательный выбор для современных приложений по обработке документов.
Компактная архитектура модели, высокая скорость вывода и эффективное использование ресурсов делают её идеально подходящей для практического применения в реальных условиях. PaddleOCR-VL — это инструмент, который поможет вам в обработке многоязычных документов, извлечении данных из сложных таблиц, распознавании математических формул или анализе диаграмм. Novita AI обеспечивает необходимую вам производительность и надежность.
Начать изучать PaddleOCR-VLреволюционные возможности анализа документов на Novita AI сегодня и ощутите будущее интеллектуальной обработки документов с помощью нашей удобной для разработчиков платформы и возможностей бесшовной интеграции.
Novita AI — это облачная платформа ИИ, которая предлагает разработчикам простой способ развертывания моделей ИИ с помощью нашего простого API, а также предоставляет доступный и надежный GPU облако для строительства и масштабирования.
Узнайте больше от Novita
Подпишитесь, чтобы получать последние публикации на вашу электронную почту.





