PaddleOCR en Novita AI: Modelo de visión-lenguaje ultracompacto de 0.9B para análisis de documentos

Tabla de contenido

¿Qué es PaddleOCR-VL?
Características principales
Arquitectura del modelo
Benchmarks de rendimiento
Casos de uso y aplicaciones
Primeros pasos con PaddleOCR en la plataforma Novita AI
Conclusión

PaddleOCR-VL ya está disponible en la plataforma Novita AI, ofreciendo capacidades de análisis de documentos multilingüe de última generación a través de un modelo de visión-lenguaje ultracompacto de 0.9B. Esta solución innovadora integra un codificador visual de resolución dinámica estilo NaViT con el modelo de lenguaje ERNIE-4.5-0.3B para permitir un reconocimiento preciso de elementos en 109 idiomas.

PaddleOCR-VL-0.9B es un modelo de visión-lenguaje compacto pero potente que destaca en el reconocimiento de elementos complejos como texto, tablas, fórmulas y gráficos, manteniendo un consumo mínimo de recursos. Mediante evaluaciones exhaustivas en benchmarks públicos de uso común y benchmarks internos, PaddleOCR-VL alcanza un rendimiento de última generación tanto en el análisis de documentos a nivel de página como en el reconocimiento a nivel de elementos.

Supera significativamente a las soluciones existentes, muestra una fuerte competitividad frente a los VLM de primer nivel y ofrece velocidades de inferencia rápidas adecuadas para la implementación práctica en escenarios del mundo real.

Prueba PaddleOCR ahora

¿Qué es PaddleOCR-VL?

PaddleOCR-VL es un modelo de última generación y eficiente en recursos diseñado para el análisis de documentos. Su componente principal es PaddleOCR-VL-0.9B, un modelo compacto pero potente de visión-lenguaje que integra un codificador visual de resolución dinámica estilo NaViT con el modelo de lenguaje ERNIE-4.5-0.3B para permitir un reconocimiento preciso de elementos.

Este innovador modelo admite de manera eficiente 109 idiomas y destaca en el reconocimiento de elementos complejos como texto, tablas, fórmulas y gráficos, manteniendo un consumo mínimo de recursos. Mediante evaluaciones exhaustivas en benchmarks públicos de uso común y benchmarks internos, PaddleOCR-VL alcanza un rendimiento de última generación tanto en el análisis de documentos a nivel de página como en el reconocimiento a nivel de elementos.

El modelo supera significativamente a las soluciones existentes, muestra una fuerte competitividad frente a los VLM de primer nivel y ofrece velocidades de inferencia rápidas. Estas fortalezas lo hacen muy adecuado para la implementación práctica en escenarios del mundo real.

Características principales

Arquitectura VLM compacta pero potente

PaddleOCR-VL presenta un novedoso modelo de visión-lenguaje diseñado específicamente para una inferencia eficiente en recursos, logrando un rendimiento sobresaliente en el reconocimiento de elementos. Al integrar un codificador visual de alta resolución dinámica estilo NaViT con el modelo de lenguaje ligero ERNIE-4.5-0.3B, el sistema mejora significativamente las capacidades de reconocimiento y la eficiencia de decodificación del modelo. Esta integración mantiene una alta precisión mientras reduce las demandas computacionales, lo que lo hace idóneo para aplicaciones de procesamiento de documentos eficientes y prácticas.

Rendimiento de última generación en análisis de documentos

PaddleOCR-VL alcanza un rendimiento de última generación tanto en el análisis de documentos a nivel de página como en el reconocimiento a nivel de elementos. Supera significativamente a las soluciones existentes basadas en pipelines y muestra una fuerte competitividad frente a los modelos de visión-lenguaje líderes en el análisis de documentos. Además, PaddleOCR-VL destaca en el reconocimiento de elementos documentales complejos, como texto, tablas, fórmulas y gráficos, lo que lo hace adecuado para una amplia gama de tipos de contenido desafiantes, incluyendo texto manuscrito y documentos históricos. Esto lo hace muy versátil y adecuado para una gran variedad de tipos de documentos y escenarios.

Soporte multilingüe

PaddleOCR-VL admite 109 idiomas, cubriendo los principales idiomas globales, incluyendo pero no limitado a chino, inglés, japonés, latín y coreano. También admite idiomas con diferentes escrituras y estructuras, como ruso (alfabeto cirílico), árabe, hindi (escritura devanagari) y tailandés.

Esta amplia cobertura de idiomas mejora sustancialmente la aplicabilidad del sistema a escenarios de procesamiento de documentos multilingües y globalizados.

Arquitectura del modelo

El codificador visual de alta resolución dinámica estilo NaViT permite que el modelo procese documentos de resoluciones variables de manera eficiente, manteniendo una extracción de características de alta calidad a través de diferentes tipos y diseños de documentos. El modelo de lenguaje ligero ERNIE-4.5-0.3B proporciona capacidades robustas de comprensión y generación del lenguaje, procesando las características visuales para generar salidas estructuradas.

Este diseño arquitectónico logra un equilibrio óptimo entre el tamaño del modelo, la velocidad de inferencia y la precisión del reconocimiento, haciendo que PaddleOCR-VL-0.9B sea ideal para la implementación práctica donde tanto el rendimiento como la eficiencia son requisitos críticos.

Benchmarks de rendimiento

PaddleOCR-VL demuestra un rendimiento excepcional en múltiples dimensiones de evaluación, consolidándose como una solución de última generación para el análisis de documentos y el reconocimiento de elementos.

Análisis de documentos a nivel de página

OmniDocBench v1.5: PaddleOCR-VL alcanza un rendimiento de última generación en general, texto, fórmula, tablas y orden de lectura en OmniDocBench v1.5.

El modelo supera consistentemente a las soluciones competidoras en todas las categorías evaluadas, demostrando sus capacidades integrales de comprensión de documentos.

OmniDocBench v1.0: PaddleOCR-VL alcanza un rendimiento de última generación en casi todas las métricas de general, texto, fórmula, tablas y orden de lectura en OmniDocBench v1.0.

Estos resultados validan las robustas capacidades del modelo en diversos tipos de documentos y niveles de complejidad.

Nota: Las métricas provienen de MinerU, OmniDocBench y evaluaciones internas.

Reconocimiento a nivel de elementos

Reconocimiento de texto: La capacidad robusta y versátil de PaddleOCR-VL para manejar diversos tipos de documentos lo establece como el método líder en la evaluación de rendimiento de OmniDocBench-OCR-block.

La evaluación interna de OCR proporciona una valoración del rendimiento en múltiples idiomas y tipos de texto. PaddleOCR-VL demuestra una precisión sobresaliente con las distancias de edición más bajas en todas las escrituras evaluadas.

Reconocimiento de tablas: El conjunto de evaluación autoconstruido contiene diversos tipos de imágenes de tablas, como tablas en chino, inglés y mixtas chino-inglés, tablas con bordes completos, parciales o sin bordes, formatos de libros/manuales, listas, artículos académicos, tablas con celdas fusionadas, así como tablas de baja calidad y con marcas de agua.

PaddleOCR-VL logra un rendimiento notable en todas las categorías.

Reconocimiento de fórmulas: El conjunto de evaluación contiene impresiones simples, impresiones complejas, escaneos de cámara y fórmulas manuscritas.

PaddleOCR-VL demuestra el mejor rendimiento en cada categoría.

Reconocimiento de gráficos: El conjunto de evaluación se categoriza ampliamente en 11 tipos de gráficos, incluyendo híbrido de barras y líneas, circular, barras apiladas al 100%, área, barras, burbujas, histograma, líneas, dispersión, área apilada y barras apiladas.

PaddleOCR-VL no solo supera a los VLM expertos en OCR, sino que también sobrepasa a algunos modelos de lenguaje multimodal de nivel 72B.

Casos de uso y aplicaciones

Digitalización de documentos

Transforme documentos en papel en formatos digitales buscables con el potente reconocimiento de texto de PaddleOCR-VL en 109 idiomas. Procese facturas, recibos, contratos y documentos comerciales de manera eficiente manteniendo una alta precisión incluso con escaneos de baja calidad o contenido con marcas de agua.

Investigación académica

Extraiga fórmulas matemáticas, tablas y texto de artículos de investigación y publicaciones científicas. El excepcional reconocimiento de fórmulas de PaddleOCR-VL maneja expresiones matemáticas tanto simples como complejas, lo que lo hace ideal para la revisión de literatura y la extracción de datos de contenido académico.

Procesamiento de documentos financieros

Automatice la extracción de datos de estados financieros, balances e informes. El avanzado reconocimiento de tablas del modelo analiza con precisión tablas complejas con celdas fusionadas, múltiples idiomas y varios estilos de formato comunes en documentos financieros.

Digitalización de archivos históricos

Preserve documentos históricos y manuscritos con el manejo robusto de PaddleOCR-VL de contenido desafiante que incluye texto manuscrito, fuentes antiguas, tinta desvanecida y papel envejecido. El modelo mantiene la precisión incluso con documentos históricos en varias escrituras e idiomas.

Análisis de gráficos y datos

Extraiga información de representaciones visuales de datos en 11 tipos de gráficos, incluyendo gráficos de barras, circulares, de líneas y visualizaciones híbridas complejas. Perfecto para aplicaciones de inteligencia empresarial y sistemas de informes automatizados.

Primeros pasos con PaddleOCR en la plataforma Novita AI

Acceder a PaddleOCR-VL a través de Novita AI ofrece múltiples vías adaptadas a diferentes niveles de experiencia técnica y casos de uso. Ya sea que sea un usuario empresarial explorando capacidades de IA o un desarrollador creando aplicaciones de producción, Novita AI le proporciona las herramientas que necesita.

Use el Playground (Disponible ahora – Sin necesidad de programar)

Acceso instantáneo: Regístrese y comience a experimentar con PaddleOCR-VL en segundos
Interfaz interactiva: Pruebe el análisis de documentos y visualice las salidas en tiempo real
Comparación de modelos: Compare PaddleOCR-VL con otros modelos líderes para su caso de uso específico

El playground le permite probar varios tipos de documentos y ver resultados inmediatos sin ninguna configuración técnica. Perfecto para prototipado, prueba de ideas y comprensión de las capacidades del modelo antes de la implementación completa.

Integre mediante API (En vivo y lista – Para desarrolladores)

Conecte PaddleOCR-VL a sus aplicaciones con la API REST unificada de Novita AI.

Opción 1: Integración directa con la API (Ejemplo en Python)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="",
)

model = "paddlepaddle/paddleocr-vl"
stream = True # or False
max_tokens = 8192
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Opción 2: Flujos de trabajo multi-agente con OpenAI Agents SDK

Construya sistemas multi-agente sofisticados aprovechando las capacidades avanzadas de análisis de documentos de PaddleOCR-VL:

Integración plug-and-play: Use PaddleOCR-VL en cualquier flujo de trabajo de OpenAI Agents
Capacidades avanzadas de agente: Soporte para transferencias, enrutamiento e integración de herramientas con comprensión de documentos
Arquitectura escalable: Diseñe agentes que aprovechen el OCR multilingüe y el reconocimiento de elementos de PaddleOCR-VL

Opción 3: Conéctese con plataformas de terceros

Herramientas de desarrollo: Integre sin problemas con IDEs populares y entornos de desarrollo como Cursor, Trae y Cline a través de APIs compatibles con OpenAI y APIs compatibles con Anthropic.

Frameworks de orquestación: Conéctese con LangChain, Dify, CrewAI, Langflow y otras plataformas de orquestación de IA utilizando conectores oficiales.

Integración con Hugging Face: Novita AI actúa como un proveedor oficial de inferencia de Hugging Face, asegurando una amplia compatibilidad del ecosistema.

Conclusión

PaddleOCR en Novita AI ofrece capacidades de análisis de documentos multilingüe de última generación a través de un modelo de visión-lenguaje ultracompacto de 0.9B que combina una precisión excepcional con una eficiencia notable. Con soporte para 109 idiomas, rendimiento de última generación en los benchmarks OmniDocBench y excelencia en el reconocimiento de elementos documentales complejos como texto, tablas, fórmulas y gráficos, PaddleOCR-VL representa la opción definitiva para las aplicaciones modernas de procesamiento de documentos.

La arquitectura compacta del modelo, las rápidas velocidades de inferencia y la eficiencia de recursos lo hacen muy adecuado para la implementación práctica en escenarios del mundo real. Ya sea que esté procesando documentos multilingües, extrayendo datos de tablas complejas, reconociendo fórmulas matemáticas o analizando gráficos, PaddleOCR-VL en Novita AI le proporciona el rendimiento y la fiabilidad que necesita.

Comience a explorar las revolucionarias capacidades de análisis de documentos de PaddleOCR-VL hoy en Novita AI y experimente el futuro del procesamiento inteligente de documentos con nuestra plataforma amigable para desarrolladores y opciones de integración sin inconvenientes.

Novita AI es una plataforma en la nube de IA que ofrece a los desarrolladores una forma sencilla de implementar modelos de IA utilizando nuestra API simple, al mismo tiempo que proporciona la GPU en la nube asequible y fiable para construir y escalar.

PaddleOCR en Novita AI: Modelo de visión-lenguaje ultracompacto de 0.9B para análisis de documentos

¿Qué es PaddleOCR-VL?