OCR – 綠色健康

北京2026年2月26日 /美通社/ — 就在剛剛，雲知聲正式推出「Unisound U1-OCR」文件智慧基礎大模型。作為首個工業級文件智慧基座，該模型憑借「效能 SOTA、可信可驗、開箱即用、高效部署、強適配」五大核心優勢，打破傳統文件處理邊界，樹立起行業新標杆。一、技術跨越：從 OCR 2.0 邁向 3.0 文件智慧（Document Intelligence）是指利用人工智慧技術自動閱讀和理解文件影像，並進行內容的讀取、理解、分類及關鍵資訊提取。傳統視覺方案（OCR 1.0，以 CRNN 為代表）僅能識別文字，新一代多模態方案（OCR 2.0，以VLM為代表）具備初步版面理解能力。而「Unisound U1-OCR」則正式開啟 OCR 3.0 時代——在理解版面的基礎上，進一步洞察文件深層語義，實現自動分類與業務級資訊抽取，完成了從「字元感知」到「文件認知」的質的飛躍。二、實力領跑：多項權威評測穩居全球第一梯隊「Unisound U1-OCR」是一款達到國際頂尖水平（SOTA）的文件智慧理解模型，其核心優勢在於突破了傳統模型「只讀文字、不懂排版」的瓶頸，能夠像人類專家一樣「看懂」複雜文件。為適應 OCR 3.0 時代對於文件業務級結構化抽取的新要求，Unisound U1-OCR 採用 ViT + LLM 架構，其中視覺編碼器部分採用 NaViT 架構，實現文件解析度動態處理，模型引數規模 3B 量級，兼顧模型計算效率與文件深層語義資訊理解的能力要求。除此之外，模型還提出了多項創新舉措：首先，它擁有「先懂結構，再讀內容」的智慧。傳統模型往往按順序死板閱讀，而「Unisound U1-OCR」首創了「語義驅動+動態聚焦」策略。如同人類閱讀習慣，先梳理文件目錄、標題的層級關系，再按需提取內容。模型能自動構建文件的「語義地圖」，精準識別標題、圖表與正文的從屬關系，即使面對排版混亂的極端場景，也能條理清晰地提取資訊。其次，它具備敏銳的「空間感知力」。透過強化空間對齊模組，模型能充分利用文字在頁面上的位置資訊，主動理解元素間的空間佈局。結合動態解析度技術，無論是密集表格還是圖文混排，它都能精準還原文件結構，徹底解決了以往模型「張冠李戴」的空間盲區。此外，模型採用Multi-Token Prediction（MTP）技術——在預測當前 Token時，同步考慮未來多個Token的機率分佈，大幅提升長文件邏輯連貫性。配合全任務強化學習策略，增強模型對版式結構的全域性預見性並在推理階段將模型生成效率提升了80%以上。在訓練階段，採用多工協同強化訓練方案，實現文件結構還原、文件分類與資訊抽取的深度對齊。強化訓練策略圍繞「語義+坐標」雙目標最佳化，針對坐標回溯的 IoU 精度進行專項強化，有效遏制定位幻覺，確保輸出結果的物理可信度。透過多檔位解析度擾動與Mask取樣策略，顯著提升了模型多場景文件影象的理解能力。憑借這些創新，Unisound U1-OCR在多項權威測試中均獲業界SOTA表現，真正實現了從「識別文字」到「理解文件」的跨越。 1. OmniDocBench V1.5評測SOTA 在OmniDocBench V1.5評測中，Unisound U1-OCR以95.1分取得SOTA表現（如圖1），領先GLM-OCR，Deepseek-OCR2，Gemini-3-Pro，GPT-5.2等主流模型，實現了精度與泛化能力的雙重突破。圖1Unisound U1-OCR在OmniDocBench V1.5的評測得分對比 2. D4LA評測SOTA 在D4LA評測中， F1 分數達 90.8，大幅領先 DocLayout-YOLO（87.3）、PP-StructureV3（86.0）。無需微調即可高精度解析學術論文、財務報表等 11 類高複雜度文件。 3. DocLayNet評測SOTA […]