Novita AI의 PaddleOCR: 문서 파싱을 위한 초소형 0.9B 비전-언어 모델

PaddleOCR-VL이란?
핵심 기능
모델 아키텍처
성능 벤치마크
사용 사례 및 응용
Novita AI 플랫폼에서 PaddleOCR 시작하기
결론

PaddleOCR-VL이 이제 Novita AI 플랫폼에서 제공되어, 초소형 0.9B 비전-언어 모델을 통해 최첨단 다국어 문서 파싱 기능을 제공합니다. 이 혁신적인 솔루션은 NaViT 스타일의 동적 해상도 시각 인코더와 ERNIE-4.5-0.3B 언어 모델을 통합하여 109개 언어에 걸쳐 정확한 요소 인식을 가능하게 합니다.

PaddleOCR-VL-0.9B는 텍스트, 표, 수식, 차트와 같은 복잡한 요소를 인식하는 데 탁월한 성능을 보이면서도 최소한의 리소스 소비를 유지하는 소형이면서도 강력한 비전-언어 모델입니다. 널리 사용되는 공개 벤치마크와 자체 벤치마크에 대한 포괄적인 평가를 통해 PaddleOCR-VL은 페이지 수준 문서 파싱과 요소 수준 인식 모두에서 최고 수준의 성능을 달성합니다.

기존 솔루션을 크게 능가하며, 최고 수준의 VLM과도 경쟁력을 보여주고, 실제 시나리오에서 실용적인 배포에 적합한 빠른 추론 속도를 제공합니다.

지금 PaddleOCR 사용해보기

PaddleOCR-VL이란?

PaddleOCR-VL은 문서 파싱에 특화된 최첨단이면서도 리소스 효율적인 모델입니다. 핵심 구성 요소는 PaddleOCR-VL-0.9B로, NaViT 스타일의 동적 해상도 시각 인코더와 ERNIE-4.5-0.3B 언어 모델을 통합하여 정확한 요소 인식을 가능하게 하는 소형이면서도 강력한 비전-언어 모델입니다.

이 혁신적인 모델은 109개 언어를 효율적으로 지원하며, 텍스트, 표, 수식, 차트 등 복잡한 요소를 인식하는 데 탁월한 성능을 보이면서도 최소한의 리소스 소비를 유지합니다. 널리 사용되는 공개 벤치마크와 자체 벤치마크에 대한 포괄적인 평가를 통해 PaddleOCR-VL은 페이지 수준 문서 파싱과 요소 수준 인식 모두에서 최고 수준의 성능을 달성합니다.

이 모델은 기존 솔루션을 크게 능가하며, 최고 수준의 VLM과도 경쟁력을 보여주고, 빠른 추론 속도를 제공합니다. 이러한 강점 덕분에 실제 시나리오에서 실용적인 배포에 매우 적합합니다.

핵심 기능

소형이면서도 강력한 VLM 아키텍처

PaddleOCR-VL은 리소스 효율적인 추론을 위해 특별히 설계된 새로운 비전-언어 모델을 제시하며, 요소 인식에서 뛰어난 성능을 달성합니다. NaViT 스타일의 동적 고해상도 시각 인코더와 경량 ERNIE-4.5-0.3B 언어 모델을 통합함으로써 시스템은 모델의 인식 능력과 디코딩 효율성을 크게 향상시킵니다. 이러한 통합은 높은 정확도를 유지하면서 계산 요구 사항을 줄여 효율적이고 실용적인 문서 처리 애플리케이션에 적합합니다.

문서 파싱에서 최고 수준의 성능

PaddleOCR-VL은 페이지 수준 문서 파싱과 요소 수준 인식 모두에서 최고 수준의 성능을 달성합니다. 기존 파이프라인 기반 솔루션을 크게 능가하며, 문서 파싱 분야의 선도적인 비전-언어 모델과도 강력한 경쟁력을 보여줍니다. 또한 PaddleOCR-VL은 텍스트, 표, 수식, 차트와 같은 복잡한 문서 요소를 인식하는 데 탁월하여 필기 텍스트 및 역사 문서를 포함한 다양한 까다로운 콘텐츠 유형에 적합합니다. 따라서 다양한 문서 유형과 시나리오에 매우 다재다능하고 적합합니다.

다국어 지원

PaddleOCR-VL은 109개 언어를 지원하며, 중국어, 영어, 일본어, 라틴어, 한국어를 포함한 주요 글로벌 언어를 포괄합니다. 또한 러시아어(키릴 문자), 아랍어, 힌디어(데바나가리 문자), 태국어와 같이 다른 문자 체계와 구조를 가진 언어도 지원합니다.

이러한 광범위한 언어 지원은 다국어 및 글로벌화된 문서 처리 시나리오에서 시스템의 적용 가능성을 크게 향상시킵니다.

모델 아키텍처

NaViT 스타일의 동적 고해상도 시각 인코더는 모델이 다양한 해상도의 문서를 효율적으로 처리할 수 있게 하여, 다양한 문서 유형과 레이아웃에서 고품질 특징 추출을 유지합니다. 경량 ERNIE-4.5-0.3B 언어 모델은 강력한 언어 이해 및 생성 능력을 제공하며, 시각적 특징을 처리하여 구조화된 출력을 생성합니다.

이 아키텍처 설계는 모델 크기, 추론 속도 및 인식 정확도 간의 최적의 균형을 달성하여, PaddleOCR-VL-0.9B가 성능과 효율성이 모두 중요한 요구 사항인 실제 배포에 이상적입니다.

성능 벤치마크

PaddleOCR-VL은 여러 평가 차원에서 탁월한 성능을 보여주며, 문서 파싱 및 요소 인식을 위한 최첨단 솔루션으로 자리매김하고 있습니다.

페이지 수준 문서 파싱

OmniDocBench v1.5: PaddleOCR-VL은 OmniDocBench v1.5에서 전체, 텍스트, 수식, 표 및 읽기 순서에 대해 최고 수준의 성능을 달성합니다.

이 모델은 평가된 모든 범주에서 경쟁 솔루션을 지속적으로 능가하며, 포괄적인 문서 이해 능력을 입증합니다.

OmniDocBench v1.0: PaddleOCR-VL은 OmniDocBench v1.0에서 전체, 텍스트, 수식, 표 및 읽기 순서의 거의 모든 지표에서 최고 수준의 성능을 달성합니다.

이러한 결과는 다양한 문서 유형과 복잡성 수준에서 모델의 강력한 능력을 검증합니다.

참고: 지표는 MinerU, OmniDocBench 및 내부 평가에서 가져온 것입니다.

요소 수준 인식

텍스트 인식: PaddleOCR-VL의 다양한 문서 유형을 처리하는 강력하고 다재다능한 능력은 OmniDocBench-OCR-block 성능 평가에서 선도적인 방법으로 자리매김하게 합니다.

자체 OCR 평가는 여러 언어 및 텍스트 유형에 걸친 성능 평가를 제공합니다. PaddleOCR-VL은 평가된 모든 문자 체계에서 가장 낮은 편집 거리로 뛰어난 정확도를 보여줍니다.

표 인식: 자체 구축 평가 세트에는 중국어, 영어, 중영 혼합 표, 전체/부분/테두리 없음 표, 책/매뉴얼 형식, 목록, 학술 논문, 병합 셀이 있는 표, 저품질 및 워터마크 표 등 다양한 유형의 표 이미지가 포함되어 있습니다.

PaddleOCR-VL은 모든 범주에서 놀라운 성능을 달성합니다.

수식 인식: 평가 세트에는 단순 인쇄, 복잡 인쇄, 카메라 스캔 및 필기 수식이 포함되어 있습니다.

PaddleOCR-VL은 모든 범주에서 최고의 성능을 보여줍니다.

차트 인식: 평가 세트는 막대-선 혼합, 파이, 100% 누적 막대, 영역, 막대, 버블, 히스토그램, 선, 산점도, 누적 영역, 누적 막대 등 11가지 차트 범주로 광범위하게 분류됩니다.

PaddleOCR-VL은 전문 OCR VLM뿐만 아니라 일부 72B급 다중 모드 언어 모델도 능가합니다.

사용 사례 및 응용

문서 디지털화

PaddleOCR-VL의 109개 언어에 걸친 강력한 텍스트 인식으로 종이 문서를 검색 가능한 디지털 형식으로 변환하세요. 저품질 스캔이나 워터마크 콘텐츠에서도 높은 정확도를 유지하면서 송장, 영수증, 계약서 및 비즈니스 문서를 효율적으로 처리합니다.

학술 연구

연구 논문 및 과학 출판물에서 수학 수식, 표 및 텍스트를 추출합니다. PaddleOCR-VL의 탁월한 수식 인식은 단순 및 복잡한 수학 표현식을 모두 처리하므로 학술 콘텐츠의 문헌 검토 및 데이터 추출에 이상적입니다.

금융 문서 처리

재무제표, 대차대조표 및 보고서에서 데이터 추출을 자동화합니다. 모델의 고급 표 인식은 금융 문서에서 흔히 볼 수 있는 병합 셀, 여러 언어 및 다양한 서식 스타일이 있는 복잡한 표를 정확하게 파싱합니다.

역사 기록물 디지털화

PaddleOCR-VL의 필기 텍스트, 오래된 글꼴, 바랜 잉크 및 오래된 종이 등 까다로운 콘텐츠를 강력하게 처리하여 역사 문서와 필사본을 보존합니다. 모델은 다양한 문자 체계와 언어의 역사 문서에서도 정확도를 유지합니다.

차트 및 데이터 분석

막대 차트, 파이 차트, 선 그래프 및 복잡한 혼합 시각화를 포함한 11가지 차트 유형에 걸쳐 시각적 데이터 표현에서 인사이트를 추출합니다. 비즈니스 인텔리전스 애플리케이션 및 자동화된 보고 시스템에 완벽합니다.

Novita AI 플랫폼에서 PaddleOCR 시작하기

Novita AI를 통해 PaddleOCR-VL에 액세스하는 방법은 다양한 기술 수준과 사용 사례에 맞게 여러 가지 경로를 제공합니다. AI 기능을 탐색하는 비즈니스 사용자이든 프로덕션 애플리케이션을 구축하는 개발자이든 Novita AI는 필요한 도구를 제공합니다.

플레이그라운드 사용하기 (지금 사용 가능 – 코딩 불필요)

즉시 액세스: 가입하고 몇 초 만에 PaddleOCR-VL 실험 시작
대화형 인터페이스: 문서 파싱을 테스트하고 실시간으로 출력 시각화
모델 비교: 특정 사용 사례에 대해 PaddleOCR-VL을 다른 선도 모델과 비교

플레이그라운드를 사용하면 기술 설정 없이 다양한 문서 유형을 테스트하고 즉각적인 결과를 확인할 수 있습니다. 프로토타이핑, 아이디어 테스트 및 전체 구현 전에 모델 기능을 이해하는 데 완벽합니다.

API를 통한 통합 (라이브 및 준비 완료 – 개발자용)

Novita AI의 통합 REST API를 사용하여 PaddleOCR-VL을 애플리케이션에 연결하세요.

옵션 1: 직접 API 통합 (Python 예제)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="",
)

model = "paddlepaddle/paddleocr-vl"
stream = True # or False
max_tokens = 8192
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

옵션 2: OpenAI Agents SDK를 사용한 멀티 에이전트 워크플로우

PaddleOCR-VL의 고급 문서 파싱 기능을 활용하는 정교한 멀티 에이전트 시스템 구축:

플러그 앤 플레이 통합: 모든 OpenAI Agents 워크플로우에서 PaddleOCR-VL 사용
고급 에이전트 기능: 문서 이해와 함께 핸드오프, 라우팅 및 도구 통합 지원
확장 가능한 아키텍처: PaddleOCR-VL의 다국어 OCR 및 요소 인식 기능을 활용하는 에이전트 설계

옵션 3: 타사 플랫폼과 연결

개발 도구: OpenAI 호환 API 및 Anthropic 호환 API를 통해 Cursor, Trae, Cline과 같은 인기 IDE 및 개발 환경과 원활하게 통합.

오케스트레이션 프레임워크: 공식 커넥터를 사용하여 LangChain, Dify, CrewAI, Langflow 및 기타 AI 오케스트레이션 플랫폼과 연결.

Hugging Face 통합: Novita AI는 Hugging Face의 공식 추론 제공자 역할을 하여 광범위한 생태계 호환성을 보장합니다.

결론

Novita AI의 PaddleOCR은 뛰어난 정확성과 놀라운 효율성을 결합한 초소형 0.9B 비전-언어 모델을 통해 최첨단 다국어 문서 파싱 기능을 제공합니다. 109개 언어 지원, OmniDocBench 벤치마크에서 최고 수준의 성능, 텍스트, 표, 수식, 차트 등 복잡한 문서 요소 인식의 탁월함을 갖춘 PaddleOCR-VL은 현대 문서 처리 애플리케이션을 위한 확실한 선택입니다.

이 모델의 소형 아키텍처, 빠른 추론 속도 및 리소스 효율성은 실제 시나리오에서 실용적인 배포에 매우 적합합니다. 다국어 문서 처리, 복잡한 표에서 데이터 추출, 수학 수식 인식 또는 차트 분석 등 어떤 작업을 하든 Novita AI의 PaddleOCR-VL은 필요한 성능과 신뢰성을 제공합니다.

지금 PaddleOCR-VL의 혁신적인 문서 파싱 기능을 Novita AI에서 탐색하고, 개발자 친화적인 플랫폼과 원활한 통합 옵션을 통해 지능형 문서 처리의 미래를 경험하세요.

Novita AI는 개발자가 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있도록 지원하는 AI 클라우드 플랫폼이며, 동시에 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드를 제공합니다.

Novita AI의 PaddleOCR: 문서 파싱을 위한 초소형 0.9B 비전-언어 모델

PaddleOCR-VL이란?