PaddleOCR на Novita AI: Ультракомпактная 0.9B зрительно-языковая модель для парсинга документов

Содержание

Что такое PaddleOCR-VL?
Основные возможности
Архитектура модели
Бенчмарки производительности
Сценарии использования и применения
Начало работы с PaddleOCR на платформе Novita AI
Заключение

Модель PaddleOCR-VL теперь доступна на платформе Novita AI, предоставляя передовые возможности многоязычного парсинга документов благодаря ультракомпактной 0.9B зрительно-языковой модели. Это инновационное решение объединяет визуальный энкодер с динамическим разрешением в стиле NaViT и языковую модель ERNIE-4.5-0.3B, что обеспечивает точное распознавание элементов на 109 языках.

PaddleOCR-VL-0.9B — это компактная, но мощная зрительно-языковая модель, которая отлично справляется с распознаванием сложных элементов, таких как текст, таблицы, формулы и диаграммы, при минимальном потреблении ресурсов. По результатам комплексных оценок на широко используемых публичных бенчмарках и внутренних бенчмарках PaddleOCR-VL достигает передовых (SOTA) результатов как в парсинге документов на уровне страницы, так и в распознавании отдельных элементов.

Модель значительно превосходит существующие решения, демонстрирует высокую конкурентоспособность по сравнению с топовыми зрительно-языковыми моделями (VLM) и обеспечивает высокую скорость инференса, подходящую для практического развертывания в реальных сценариях использования.

Попробовать PaddleOCR сейчас

Что такое PaddleOCR-VL?

PaddleOCR-VL — это передовая (SOTA) и ресурсоэффективная модель, созданная специально для парсинга документов. Её основным компонентом является PaddleOCR-VL-0.9B — компактная, но мощная зрительно-языковая модель, которая объединяет визуальный энкодер с динамическим разрешением в стиле NaViT и языковую модель ERNIE-4.5-0.3B для обеспечения точного распознавания элементов.

Эта инновационная модель эффективно поддерживает 109 языков и отлично справляется с распознаванием сложных элементов, включая текст, таблицы, формулы и диаграммы, при минимальном потреблении ресурсов. По результатам комплексных оценок на широко используемых публичных и внутренних бенчмарках PaddleOCR-VL достигает передовых (SOTA) результатов как в парсинге документов на уровне страницы, так и в распознавании отдельных элементов.

Модель значительно превосходит существующие решения, демонстрирует высокую конкурентоспособность по сравнению с топовыми зрительно-языковыми моделями (VLM) и обеспечивает высокую скорость инференса. Эти преимущества делают её идеально подходящей для практического развертывания в реальных сценариях использования.

Основные возможности

Компактная, но мощная архитектура зрительно-языковой модели

PaddleOCR-VL представляет собой новую зрительно-языковую модель, специально разработанную для ресурсоэффективного инференса, которая достигает выдающихся результатов в распознавании элементов. Благодаря интеграции визуального энкодера с динамическим высоким разрешением в стиле NaViT и легковесной языковой модели ERNIE-4.5-0.3B система значительно повышает возможности распознавания модели и эффективность декодирования. Такая интеграция сохраняет высокую точность при снижении вычислительных требований, что делает модель хорошо подходящей для эффективных и практических приложений обработки документов.

Передовые (SOTA) результаты в парсинге документов

PaddleOCR-VL достигает передовых (SOTA) результатов как в парсинге документов на уровне страницы, так и в распознавании отдельных элементов. Модель значительно превосходит существующие решения на основе конвейерной обработки и демонстрирует высокую конкурентоспособность по сравнению с ведущими зрительно-языковыми моделями в области парсинга документов. Более того, PaddleOCR-VL отлично справляется с распознаванием сложных элементов документов, таких как текст, таблицы, формулы и диаграммы, что делает её подходящей для широкого спектра сложных типов контента, включая рукописный текст и исторические документы. Это делает модель крайне универсальной и подходящей для множества типов документов и сценариев использования.

Многоязычная поддержка

PaddleOCR-VL поддерживает 109 языков, включая основные мировые языки, в том числе китайский, английский, японский, латинский и корейский. Модель также поддерживает языки с разными системами письма и структурами, такие как русский (кириллица), арабский, хинди (деванагари) и тайский.

Широкий охват языков значительно расширяет применимость системы в многоязычных и глобальных сценариях обработки документов.

Архитектура модели

Визуальный энкодер с динамическим высоким разрешением в стиле NaViT позволяет модели эффективно обрабатывать документы с разным разрешением, сохраняя высокое качество извлечения признаков для различных типов и макетов документов. Легковесная языковая модель ERNIE-4.5-0.3B обеспечивает надежные возможности понимания и генерации языка, обрабатывая визуальные признаки для создания структурированных выходных данных.

Такая архитектурная конструкция обеспечивает оптимальный баланс между размером модели, скоростью инференса и точностью распознавания, что делает PaddleOCR-VL-0.9B идеальным для практического развертывания в сценариях, где критически важны как производительность, так и эффективность.

Бенчмарки производительности

PaddleOCR-VL демонстрирует исключительные результаты по нескольким оценочным измерениям, подтверждая свой статус передового решения для парсинга документов и распознавания элементов.

Парсинг документов на уровне страницы

OmniDocBench v1.5: PaddleOCR-VL достигает передовых (SOTA) результатов по общим показателям, распознаванию текста, формул, таблиц и порядку чтения на OmniDocBench v1.5. Модель стабильно превосходит конкурирующие решения во всех оцениваемых категориях, демонстрируя свои всесторонние возможности понимания документов.

OmniDocBench v1.0: PaddleOCR-VL достигает передовых (SOTA) результатов почти по всем метрикам общих показателей, распознавания текста, формул, таблиц и порядку чтения на OmniDocBench v1.0. Эти результаты подтверждают надежные возможности модели при работе с разнообразными типами документов и уровнями сложности.

Примечание: Метрики получены из MinerU, OmniDocBench и внутренних оценок.

Распознавание отдельных элементов

Распознавание текста: Надежная и универсальная возможность PaddleOCR-VL обрабатывать разнообразные типы документов делает её ведущим методом в оценке производительности OmniDocBench-OCR-block. Внутренняя оценка OCR позволяет оценить производительность на нескольких языках и типах текста. PaddleOCR-VL демонстрирует выдающуюся точность с наименьшими расстояниями редактирования во всех оцениваемых системах письма.

Распознавание таблиц: Собственный набор для оценки содержит разнообразные типы изображений таблиц: китайские, английские и смешанные китайско-английские таблицы, таблицы с полными, частичными или отсутствующими рамками, в формате книг/руководств, списки, научные статьи, таблицы с объединенными ячейками, а также низкокачественные и таблицы с водяными знаками. PaddleOCR-VL достигает выдающихся результатов во всех категориях.

Распознавание формул: Набор для оценки содержит простые печатные формулы, сложные печатные формулы, сканированные с камеры формулы и рукописные формулы. PaddleOCR-VL демонстрирует лучшие результаты в каждой категории.

Распознавание диаграмм: Набор для оценки разделен на 11 категорий диаграмм, включая гибридные столбчато-линейные, круговые, 100% накопленные столбчатые, площадные, столбчатые, пузырьковые, гистограммы, линейные, диаграммы рассеяния, накопленные площадные и накопленные столбчатые диаграммы. PaddleOCR-VL не только превосходит экспертные зрительно-языковые модели для OCR, но и опережает некоторые многоязыковые языковые модели уровня 72B.

Сценарии использования и применения

Оцифровка документов

Преобразуйте бумажные документы в поисковые цифровые форматы с помощью мощного распознавания текста PaddleOCR-VL на 109 языках. Эффективно обрабатывайте счета, квитанции, контракты и бизнес-документы, сохраняя высокую точность даже при работе с низкокачественными сканами или контентом с водяными знаками.

Научные исследования

Извлекайте математические формулы, таблицы и текст из научных статей и публикаций. Исключительные возможности распознавания формул PaddleOCR-VL позволяют работать как с простыми, так и со сложными математическими выражениями, что делает модель идеальной для обзора литературы и извлечения данных из академического контента.

Обработка финансовых документов

Автоматизируйте извлечение данных из финансовых отчетов, балансов и бухгалтерской отчетности. Продвинутое распознавание таблиц модели точно парсит сложные таблицы с объединенными ячейками, несколькими языками и различными стилями форматирования, обычно встречающимися в финансовых документах.

Оцифровка исторических архивов

Сохраняйте исторические документы и рукописи благодаря надежной обработке сложного контента PaddleOCR-VL, включая рукописный текст, старые шрифты, выцветшую краску и состаренную бумагу. Модель сохраняет точность даже при работе с историческими документами на различных системах письма и языках.

Анализ диаграмм и данных

Извлекайте инсайты из визуальных представлений данных 11 типов диаграмм, включая столбчатые диаграммы, круговые диаграммы, линейные графики и сложные гибридные визуализации. Идеально подходит для приложений бизнес-аналитики и автоматизированных систем отчетности.

Начало работы с PaddleOCR на платформе Novita AI

Доступ к PaddleOCR-VL через Novita AI предоставляет несколько путей, адаптированных под разные уровни технической экспертизы и сценарии использования. Независимо от того, являетесь ли вы бизнес-пользователем, изучающим возможности ИИ, или разработчиком, создающим производственные приложения, Novita AI предоставляет все необходимые инструменты.

Используйте Playground (доступно сейчас — не требуется написание кода)

Мгновенный доступ: Зарегистрируйтесь и начните экспериментировать с PaddleOCR-VL за считанные секунды
Интерактивный интерфейс: Тестируйте парсинг документов и визуализируйте результаты в реальном времени
Сравнение моделей: Сравнивайте PaddleOCR-VL с другими ведущими моделями для вашего конкретного сценария использования

Playground позволяет тестировать различные типы документов и получать мгновенные результаты без какой-либо технической настройки. Идеально подходит для прототипирования, тестирования идей и понимания возможностей модели перед полной реализацией.

Интеграция через API (работает и готово к использованию — для разработчиков)

Подключите PaddleOCR-VL к вашим приложениям с помощью унифицированного REST API Novita AI.

Вариант 1: Прямая интеграция через API (пример на Python)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="",
)

model = "paddlepaddle/paddleocr-vl"
stream = True # or False
max_tokens = 8192
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Вариант 2: Многоагентные рабочие процессы с помощью OpenAI Agents SDK

Создавайте сложные многоагентные системы, используя продвинутые возможности парсинга документов PaddleOCR-VL:

Интеграция без дополнительной настройки: Используйте PaddleOCR-VL в любом рабочем процессе OpenAI Agents
Продвинутые возможности агентов: Поддержка передачи задач, маршрутизации и интеграции инструментов с возможностью понимания документов
Масштабируемая архитектура: Проектируйте агентов, которые используют многоязычные возможности OCR и распознавания элементов PaddleOCR-VL

Вариант 3: Подключение к сторонним платформам

Инструменты для разработки: Бесшовно интегрируйтесь с популярными IDE и средами разработки, такими как Cursor, Trae и Cline, через совместимые с OpenAI API и совместимые с Anthropic API.

Оркестрационные фреймворки: Подключайтесь к LangChain, Dify, CrewAI, Langflow и другим платформам для оркестрации ИИ с помощью официальных коннекторов.

Интеграция с Hugging Face: Novita AI является официальным провайдером инференса Hugging Face, что обеспечивает широкую совместимость с экосистемой.

Заключение

PaddleOCR на Novita AI предоставляет передовые возможности многоязычного парсинга документов благодаря ультракомпактной 0.9B зрительно-языковой модели, которая сочетает исключительную точность и высокую эффективность. При поддержке 109 языков, передовых (SOTA) результатах на бенчмарках OmniDocBench и выдающихся возможностях распознавания сложных элементов документов, включая текст, таблицы, формулы и диаграммы, PaddleOCR-VL является однозначным выбором для современных приложений обработки документов.

Компактная архитектура модели, высокая скорость инференса и ресурсоэффективность делают её крайне подходящей для практического развертывания в реальных сценариях. Независимо от того, обрабатываете ли вы многоязычные документы, извлекаете данные из сложных таблиц, распознаете математические формулы или анализируете диаграммы, PaddleOCR-VL на Novita AI предоставляет необходимую вам производительность и надежность.

Начните изучать революционные возможности парсинга документов PaddleOCR-VL на Novita AI уже сегодня и ощутите будущее интеллектуальной обработки документов с нашей удобной для разработчиков платформой и бесшовными вариантами интеграции.

Novita AI — это облачная платформа ИИ, которая предлагает разработчикам простой способ развертывания моделей ИИ с помощью нашего простого API, а также предоставляет доступное и надежное облако GPU для разработки и масштабирования.

PaddleOCR на Novita AI: Ультракомпактная 0.9B зрительно-языковая модель для парсинга документов

Что такое PaddleOCR-VL?

Основные возможности

Компактная, но мощная архитектура зрительно-языковой модели