PaddleOCR включен Novita AI: Ультракомпактная 0.9-байтовая модель Vision-Language для анализа документов

PaddleOCR включен Novita AI

PaddleOCR-VL теперь доступен на Novita AI Платформа, предоставляющая передовые возможности анализа многоязычных документов благодаря сверхкомпактной модели Vision-Language с разрешением 0.9 Б. Это инновационное решение объединяет визуальный кодировщик динамического разрешения в стиле NaViT с языковой моделью ERNIE-4.5-0.3 Б, обеспечивая точное распознавание элементов на 109 языках.

PaddleOCR-VL-0.9B — это компактная, но мощная модель машинного обучения, которая превосходно распознаёт сложные элементы, такие как текст, таблицы, формулы и диаграммы, при минимальном потреблении ресурсов. Благодаря комплексным испытаниям на широко используемых общедоступных и внутренних тестах, PaddleOCR-VL достигает производительности SOTA как при разборе документов на уровне страниц, так и при распознавании на уровне элементов.

Он значительно превосходит существующие решения, демонстрирует сильную конкурентоспособность по сравнению с VLM высшего уровня и обеспечивает высокую скорость вывода, подходящую для практического развертывания в реальных сценариях.

Что такое PaddleOCR-VL?

PaddleOCR-VL — это ресурсоэффективная модель SOTA, специально разработанная для анализа документов. Её основным компонентом является PaddleOCR-VL-0.9B — компактная, но мощная модель машинного обучения, которая объединяет визуальный кодировщик динамического разрешения в стиле NaViT с языковой моделью ERNIE-4.5-0.3B для обеспечения точного распознавания элементов.

Эта инновационная модель эффективно поддерживает 109 языков и превосходно распознаёт сложные элементы, включая текст, таблицы, формулы и диаграммы, при минимальном потреблении ресурсов. Благодаря комплексным испытаниям на широко используемых общедоступных и внутренних тестах, PaddleOCR-VL достигает производительности SOTA как при разборе документов на уровне страниц, так и при распознавании на уровне элементов.

Модель значительно превосходит существующие решения, демонстрирует высокую конкурентоспособность по сравнению с топовыми VLM и обеспечивает высокую скорость вывода. Эти преимущества делают её весьма подходящей для практического применения в реальных условиях.

Основные особенности

Компактная, но мощная архитектура VLM

PaddleOCR-VL представляет собой новую модель распознавания текста на основе зрительного восприятия, специально разработанную для ресурсоэффективного вывода, что позволяет добиться выдающейся производительности распознавания элементов. Благодаря интеграции динамического визуального кодировщика высокого разрешения в стиле NaViT с облегчённой языковой моделью ERNIE-4.5-0.3B система значительно расширяет возможности распознавания и повышает эффективность декодирования. Такая интеграция обеспечивает высокую точность при одновременном снижении вычислительных затрат, что делает её идеально подходящей для эффективных и практичных приложений обработки документов.

Производительность SOTA при разборе документов

PaddleOCR-VL демонстрирует высочайшую производительность как при разборе документов на уровне страниц, так и при распознавании на уровне элементов. Он значительно превосходит существующие конвейерные решения и демонстрирует высокую конкурентоспособность по сравнению с ведущими моделями машинного обучения в области разбора документов. Более того, PaddleOCR-VL превосходно распознаёт сложные элементы документов, такие как текст, таблицы, формулы и диаграммы, что делает его пригодным для широкого спектра сложных типов контента, включая рукописный текст и исторические документы. Это делает его чрезвычайно универсальным инструментом, подходящим для широкого спектра типов документов и сценариев.

Мультиязычная поддержка

PaddleOCR-VL поддерживает 109 языков, включая основные мировые языки, включая, помимо прочего, китайский, английский, японский, латинский и корейский. Кроме того, он поддерживает языки с различными системами письма и структурами, такие как русский (кириллица), арабский, хинди (деванагари) и тайский.

Такой широкий языковой охват существенно расширяет возможности применения системы в многоязычных и глобализированных сценариях обработки документов.

Модельная архитектура

Архитектура модели pf paddle ocr vl

Динамический визуальный кодировщик высокого разрешения в стиле NaViT позволяет модели эффективно обрабатывать документы с различным разрешением, обеспечивая высокое качество извлечения признаков в документах разных типов и макетов. Облегченная языковая модель ERNIE-4.5-0.3B обеспечивает надежное понимание и генерацию языка, обрабатывая визуальные признаки для формирования структурированных результатов.

Такая архитектурная конструкция обеспечивает оптимальный баланс между размером модели, скоростью вывода и точностью распознавания, что делает PaddleOCR-VL-0.9B идеальным для практического развертывания, где критически важными требованиями являются производительность и эффективность.

Тесты производительности

modelel benchmark

PaddleOCR-VL демонстрирует исключительную производительность по нескольким параметрам оценки, зарекомендовав себя как передовое решение для анализа документов и распознавания элементов.

Анализ документа на уровне страницы

OmniDocBench v1.5: PaddleOCR-VL достигает производительности SOTA для общего анализа, текста, формул, таблиц и порядка чтения на OmniDocBench v1.5.

Модель стабильно превосходит конкурирующие решения по всем оцениваемым категориям, демонстрируя свои возможности всестороннего понимания документов.

OmniDocBench v1.0: PaddleOCR-VL достигает производительности SOTA почти по всем общим показателям, показателям текста, формул, таблиц и порядка чтения в OmniDocBench v1.0.

Эти результаты подтверждают надежные возможности модели для документов разных типов и уровней сложности.

Примечание: Метрики взяты из MinerU, OmniDocBench и внутренних оценок.

Распознавание на уровне элементов

Распознавание текста: Надежные и универсальные возможности PaddleOCR-VL по обработке различных типов документов делают его ведущим методом в оценке производительности OmniDocBench-OCR-block.

Внутренняя оценка OCR позволяет оценить эффективность распознавания текста на разных языках и в разных типах текстов. PaddleOCR-VL демонстрирует исключительную точность с минимальными расстояниями редактирования во всех оцениваемых сценариях.

Распознавание таблиц: Самостоятельно созданный оценочный набор содержит разнообразные типы изображений таблиц, такие как китайские, английские и смешанные китайско-английские таблицы, таблицы с полными, частичными или отсутствующими границами, форматы книг/руководств, списки, научные статьи, таблицы с объединенными ячейками, а также таблицы низкого качества и таблицы с водяными знаками.

PaddleOCR-VL демонстрирует выдающиеся результаты во всех категориях.

Распознавание формулы: Оценочный набор содержит простые отпечатки, сложные отпечатки, сканы с камеры и рукописные формулы.

PaddleOCR-VL демонстрирует лучшие результаты во всех категориях.

Распознавание диаграмм: Оценочный набор в целом разделен на 11 категорий диаграмм, включая гибридные столбчатые диаграммы, круговые диаграммы, 100% составные столбчатые диаграммы, диаграммы с областями, столбчатые диаграммы, пузырьковые диаграммы, гистограммы, линейные диаграммы, диаграммы рассеяния, составные столбчатые диаграммы и составные столбчатые диаграммы.

PaddleOCR-VL не только превосходит экспертные OCR VLM, но и превосходит некоторые многомодальные языковые модели уровня 72B.

Варианты использования и приложения

Оцифровка документов

Преобразуйте бумажные документы в цифровые форматы с возможностью поиска с помощью мощного распознавания текста PaddleOCR-VL на 109 языках. Эффективно обрабатывайте счета-фактуры, квитанции, контракты и деловые документы, сохраняя высокую точность даже при низком качестве сканирования или наличии водяных знаков.

Академическое исследование

Извлекайте математические формулы, таблицы и текст из исследовательских работ и научных публикаций. Исключительная способность PaddleOCR-VL распознавать формулы позволяет обрабатывать как простые, так и сложные математические выражения, что делает его идеальным инструментом для анализа литературы и извлечения данных из академических материалов.

Обработка финансовых документов

Автоматизируйте извлечение данных из финансовых отчетов, балансов и отчётов. Расширенные возможности распознавания таблиц модели позволяют точно анализировать сложные таблицы с объединёнными ячейками, многоязычной версткой и различными стилями форматирования, часто встречающимися в финансовых документах.

Оцифровка исторического архива

Сохраняйте исторические документы и рукописи с помощью PaddleOCR-VL, который эффективно обрабатывает сложные материалы, включая рукописный текст, старые шрифты, выцветшие чернила и состаренную бумагу. Модель сохраняет точность даже при работе с историческими документами, написанными на разных языках и в разных письменностях.

Анализ диаграмм и данных

Извлекайте ценную информацию из визуальных представлений данных с помощью 11 типов диаграмм, включая столбчатые, круговые, линейные графики и сложные гибридные визуализации. Идеально подходит для приложений бизнес-аналитики и автоматизированных систем отчётности.

Начало работы с PaddleOCR на Novita AI Платформа

Доступ к PaddleOCR-VL через Novita AI Предлагает несколько вариантов развития, адаптированных под разные уровни технической подготовки и сценарии использования. Независимо от того, являетесь ли вы бизнес-пользователем, изучающим возможности ИИ, или разработчиком, создающим производственные приложения, Novita AI предоставляет необходимые инструменты.

Используйте игровую площадку (доступно сейчас — кодирование не требуется)

  • Мгновенный доступ: Зарегистрируйтесь и начните экспериментировать с PaddleOCR-VL в секундах
  • Интерактивный интерфейс: Тестирование анализа документов и визуализация результатов в режиме реального времени
  • Сравнение моделей: Сравните PaddleOCR-VL с другими ведущими моделями для вашего конкретного варианта использования

Площадка позволяет тестировать различные типы документов и мгновенно видеть результаты без какой-либо технической подготовки. Идеально подходит для создания прототипов, тестирования идей и изучения возможностей модели перед её полной реализацией.

Интеграция через API (готово к использованию — для разработчиков)

Подключите PaddleOCR-VL к своим приложениям с помощью Novita AIунифицированный REST API.

Вариант 1: Прямая интеграция API (пример на Python)

из openai импорт OpenAI клиент = OpenAI( base_url="https://api.novita.ai/openai", api_key="", ) model = "paddlepaddle/paddleocr-vl" stream = True # или False max_tokens = 8192 system_content = "Будьте полезным помощником" temperature = 1 top_p = 1 min_p = 0 top_k = 50 principal_penalty = 0 frequency_penalty = 0 repeat_penalty = 1 response_format = { "type": "text" } chat_completion_res = client.chat.completions.create( model=model, messages=[ { "role": "system", "content": system_content, }, { "role": "user", "content": "Привет!", } ], stream=stream, max_tokens=max_tokens, temperature=temperature, top_p=top_p, principal_penalty=presence_penalty, frequency_penalty= frequency_penalty, response_format=response_format, extra_body={ "top_k": top_k, "repetition_penalty": repeat_penalty, "min_p": min_p } ) если поток: для фрагмента в chat_completion_res: print(chunk.choices[0].delta.content или "", end="") иначе: print(chat_completion_res.choices[0].message.content)
  
  

Вариант 2: Многоагентные рабочие процессы с OpenAI Agents SDK

Создавайте сложные многоагентные системы, используя расширенные возможности анализа документов PaddleOCR-VL:

  • Интеграция Plug-and-Play: Используйте PaddleOCR-VL в любом рабочем процессе OpenAI Agents
  • Расширенные возможности агента: Поддержка передач, маршрутизации и интеграции инструментов с пониманием документов
  • Масштабируемая архитектура: Разработка агентов, которые используют возможности многоязычного OCR и распознавания элементов PaddleOCR-VL

Вариант 3: подключение к сторонним платформам

Development Tools: Простая интеграция с популярными IDE и средами разработки, такими как Cursor, Trae и Cline, через API, совместимые с OpenAI и Anthropic.

Платформы оркестрации: подключайтесь к LangChain, Dify, CrewAI, Langflow и другим платформам оркестровки ИИ с помощью официальных коннекторов.

Интеграция с обнимающим лицом: Novita AI выступает в качестве официального поставщика выводов Hugging Face, обеспечивая широкую совместимость с экосистемой.

Заключение

PaddleOCR включен Novita AI PaddleOCR-VL обеспечивает передовые возможности анализа многоязычных документов благодаря сверхкомпактной модели распознавания текста на языке 0.9 млрд символов, сочетающей исключительную точность с впечатляющей эффективностью. Благодаря поддержке 109 языков, производительности SOTA в тестах OmniDocBench и превосходному распознаванию сложных элементов документов, включая текст, таблицы, формулы и диаграммы, PaddleOCR-VL представляет собой окончательный выбор для современных приложений по обработке документов.

Компактная архитектура модели, высокая скорость вывода и эффективное использование ресурсов делают её идеально подходящей для практического применения в реальных условиях. PaddleOCR-VL — это инструмент, который поможет вам в обработке многоязычных документов, извлечении данных из сложных таблиц, распознавании математических формул или анализе диаграмм. Novita AI обеспечивает необходимую вам производительность и надежность.

Начать изучать PaddleOCR-VLреволюционные возможности анализа документов на Novita AI сегодня и ощутите будущее интеллектуальной обработки документов с помощью нашей удобной для разработчиков платформы и возможностей бесшовной интеграции.

Novita AI — это облачная платформа ИИ, которая предлагает разработчикам простой способ развертывания моделей ИИ с помощью нашего простого API, а также предоставляет доступный и надежный GPU облако для строительства и масштабирования.


Узнайте больше от Novita

Подпишитесь, чтобы получать последние публикации на вашу электронную почту.

Оставьте комментарий

Наверх

Узнайте больше от Novita

Подпишитесь сейчас, чтобы продолжить чтение и получить доступ к полному архиву.

Подробнее