雲知聲Unisound U1-OCR大模型發布!首個工業級文件智慧基礎大模型,開啟OCR 3.0時代
北京2026年2月26日 /美通社/ — 就在剛剛,雲知聲正式推出「Unisound U1-OCR」 文件智慧基礎大模型。作為首個工業級文件智慧基座,該模型憑借 「效能 SOTA、可信可驗、開箱即用、高效部署、強適配」 五大核心優勢,打破傳統文件處理邊界,樹立起行業新標杆。
一、技術跨越:從 OCR 2.0 邁向 3.0
文件智慧(Document Intelligence)是指利用人工智慧技術自動閱讀和理解文件影像,並進行內容的讀取、理解、分類及關鍵資訊提取。傳統視覺方案(OCR 1.0,以 CRNN 為代表)僅能識別文字,新一代多模態方案(OCR 2.0,以VLM為代表 )具備初步版面理解能力。而 「Unisound U1-OCR」 則正式開啟 OCR 3.0 時代——在理解版面的基礎上,進一步洞察文件深層語義,實現自動分類與業務級資訊抽取,完成了從「字元感知」到「文件認知」的質的飛躍。
二、實力領跑:多項權威評測穩居全球第一梯隊
「Unisound U1-OCR」是一款達到國際頂尖水平(SOTA)的文件智慧理解模型,其核心優勢在於突破了傳統模型「只讀文字、不懂排版」的瓶頸,能夠像人類專家一樣「看懂」複雜文件。為適應 OCR 3.0 時代對於文件業務級結構化抽取的新要求,Unisound U1-OCR 採用 ViT + LLM 架構,其中視覺編碼器部分採用 NaViT 架構,實現文件解析度動態處理,模型引數規模 3B 量級,兼顧模型計算效率與文件深層語義資訊理解的能力要求。除此之外,模型還提出了多項創新舉措:
首先,它擁有「先懂結構,再讀內容」的智慧。傳統模型往往按順序死板閱讀,而「Unisound U1-OCR」首創了「語義驅動+動態聚焦」策略。如同人類閱讀習慣,先梳理文件目錄、標題的層級關系,再按需提取內容。模型能自動構建文件的「語義地圖」,精準識別標題、圖表與正文的從屬關系,即使面對排版混亂的極端場景,也能條理清晰地提取資訊。
其次,它具備敏銳的「空間感知力」。透過強化空間對齊模組,模型能充分利用文字在頁面上的位置資訊,主動理解元素間的空間佈局。結合動態解析度技術,無論是密集表格還是圖文混排,它都能精準還原文件結構,徹底解決了以往模型「張冠李戴」的空間盲區。
此外,模型採用Multi-Token Prediction(MTP)技術——在預測當前 Token時,同步考慮未來多個Token的機率分佈,大幅提升長文件邏輯連貫性。配合全任務強化學習策略,增強模型對版式結構的全域性預見性並在推理階段將模型生成效率提升了80%以上。在訓練階段,採用多工協同強化訓練方案,實現文件結構還原、文件分類與資訊抽取的深度對齊。強化訓練策略圍繞「語義+坐標」雙目標最佳化,針對坐標回溯的 IoU 精度進行專項強化,有效遏制定位幻覺,確保輸出結果的物理可信度。透過多檔位解析度擾動與Mask取樣策略,顯著提升了模型多場景文件影象的理解能力。
憑借這些創新,Unisound U1-OCR在多項權威測試中均獲業界SOTA表現,真正實現了從「識別文字」到「理解文件」的跨越。
1. OmniDocBench V1.5評測SOTA
在OmniDocBench V1.5評測中,Unisound U1-OCR以95.1分取得SOTA表現(如圖1),領先GLM-OCR,Deepseek-OCR2,Gemini-3-Pro,GPT-5.2等主流模型,實現了精度與泛化能力的雙重突破。
2. D4LA評測SOTA
在D4LA評測中, F1 分數達 90.8,大幅領先 DocLayout-YOLO(87.3)、PP-StructureV3(86.0)。無需微調即可高精度解析學術論文、財務報表等 11 類高複雜度文件。
3. DocLayNet評測SOTA
在DocLayNet評測中,F1 分數 95.9,超越 MinerU 2.5、PP-StructureV3 等模型。在表格識別、跨頁關聯、微小文字檢測等高難任務上優勢顯著,魯棒性極強。
4. 業務相關評測SOTA
在內部業務測試中,其資訊抽取與文書分類能力超越 Gemini-2.5-Flash、Qwen-235B-VL 等主流通用商業和開源模型。特別是在醫療入院記錄、出院小結等強業務場景中,領先優勢尤為明顯,Unisound U1-OCR 以 3B 規模的引數獲得比更大規模通用 VLM 更好的評測效能。與較小尺寸的文件解析任務模型相比,得益於模型多項創新舉措,在業務級資訊抽取等深層語義資訊理解的能力表現更好。
三、面向真實場景:4大核心能力助推U1-OCR從「讀懂」邁向「執行」
作為開 啟OCR 3.0時代的文件智慧基礎大模型,除了在通用評測中斬獲多項SOTA,Unisound U1-OCR更立足工業級場景需求,打造了四大核心能力,實現從『讀懂』到『執行』的業務落地。
1. 可信可查:精準溯源,結果可驗
模型獨創「坐標-文字-語義」融合架構,實現畫素級精準定位與完整證據鏈構建。在完成資訊抽取的同時,系統精準標示資訊在文件中的來源位置,使結果審核過程全透明、可追溯,從技術層面保障文件處理結果的可信度,徹底解決傳統文件處理「結果不可驗」的行業難題。
例如,在企業審核場景中,審核人員無需大海撈針般翻閱原文,點選抽取結果即可實時高亮定位原始位置。這種「人機協同」的閉環將審核耗時縮短至秒級,讓人工漏檢率降至最低,真正實現了「可信任的AI」。
2. 業務融合:開箱即用,Agent Ready
通用OCR工具在專業領域存在侷限——例如醫保結算單中「自付一」「自付二」與「個人自費」的邏輯關系,或合同中金額大小寫的校驗規則,都需要領域知識支撐。
Unisound U1-OCR在基礎模型之上,融入了雲知聲在醫療、金融等領域的行業知識積累,模型可基於業務邏輯進行多欄位關聯校驗。在內部業務測試中,面向50餘種常見業務文書的分類準確率超過99%。
3. 高效部署,安全可控
模型深度支援私有化與離線部署,可在無外網環境下穩定執行,完美匹配政務、醫療、金融等高安全等級行業的資料隱私保護需求。同時,透過版面級並行解碼與多Token預測架構等最佳化措施,一份十多頁的文件,整理處理可在數秒內完成,高效的文件處理能力,讓工業級文件智慧能力觸手可及。
4. 超強適配,攻克複雜場景
針對企業實際業務中遇到的非標準拍照、文件彎折模糊、複雜花式排版、多語言混排等各類極端複雜文件場景,Unisound U1-OCR仍能保持穩定、高精度的處理表現,徹底擺脫傳統技術對標準化文件的依賴,真正適配企業真實業務的全場景需求。
