目錄
1 文檔圖像智能分析技術
文檔圖像智能分析是指利用計算機視覺和機器學習技術對文檔圖像進行人工處理和分析的過程。 該技術可以將紙質文檔、電子文檔和圖像轉換為可編輯、可搜索和可索引的數字文檔,并可以手動識別文檔中的各種元素,如文本、圖片、表格、圖形等。
文件圖像在日常生活中非常常見,例如財務文件、商業計劃、技術規范、財務報表、會議紀要、法律合同、合同、簡歷、采購訂單、發票等。 因此,智能文檔圖像處理的前景十分廣闊,應用場景也將不斷擴大。例如
事實上,隨著人工智能技術的快速發展,智能文檔圖像處理將應用到醫療、教育、金融等眾多領域,為各行各業提供越來越高效、智能的文檔管理和數據分析解決方案。 .
2位大咖齊聚CCIG@2023
文檔圖像的智能分析和處理是一個重要且具有挑戰性的研究問題。 難點在于文件的種類和復雜性:文件的種類和格式很多,包括報告、合同、發票、證書、證書等等。 不同類型的文件有不同的格式和布局。 例如,文檔中往往包含圖片、表格、圖形等多種圖像,無法統一處理。 而且,智能文檔處理受圖像質量、文本字體、文本大小、文本顏色等噪聲因素的影響,容易出現誤識別。據悉,目前還存在圖像質量不一致、文檔獲取復雜等諸多問題.
為促進文件圖像分析與處理領域的技術交流與發展,闡述文件圖像處理與光學字符識別(OCR)相關前沿技術的進展與產業應用,2023年5月13日,文件圖像分析與識別專業委員會與北京合合信息技術有限公司共同打造“文檔圖像智能分析與處理”峰會。 峰會邀請了中科院手工技術研究所、北京理工大學、中國科學技術大學的學術專家,以及華為等知名企業的研究人員圍繞切割進行“頭腦風暴” - 文檔圖像處理、OCR領域前沿技術,聯合交流文檔圖像 分析處理前沿學術進展、典型行業大規模應用,解讀未來技術和產業發展趨勢。
3 議程介紹 3.1 從模式識別到類腦研究
我們知道,在模式識別和人工智能領域,有監督學習、半監督學習和無監督學習是三種不同的學習數據而不對數據集標簽進行同情的學習方法。 目前無論是神經結構模擬還是學習行為模擬,都比較膚淺。 它主要基于監督學習來完成各種任務,即訓練數據集中已經標注了正確答案或目標輸出值。 在訓練階段,算法根據輸入的特征與對應的目標值之間的關系進行學習,從而對未來的新數據做出準確的預測。 監督學習的示例包括分類和回歸問題,例如圖像分類、情感分析和價格預測。
生成模型是人工智能未來的發展趨勢之一。 與判斷模型的獨特優勢相比,它可以處理更多的任務,例如推動內容開發、視覺藝術創作、數字孿生、自動編程,甚至科學研究。 研究提供了 AI 視角、Al 直覺……
項目判斷模型生成模型
特征
找到最優決策邊界以反映不同模式下數據之間的差異
找到每個模式的邊界,反映數據的整體統計輪廓和不同模式之間的相似性
連接
判斷模型可以從生成模型推斷出來,反之亦然
自然
后驗概率建模
彈簧關節概率建模
例子
線性回歸、回歸、支持向量機、決策樹、神經網絡等。
貝葉斯網絡、貝葉斯分類器、隱馬爾可夫模型等。
表現
學習過程更簡單,但不能體現數據本身的特征
模型信息量更大、更靈活,但學習過程更復雜
應用
圖片文本分類、時間序列預測等
自然語言處理等
隨著未來類腦和類人行為類腦智能研究的深入,人工智能的應用將不再局限于此類判斷模型。 植物和人類展現出遠遠超越人工智能和機器學習系統的學習能力和對世界的理解。 一個中學生可以在大約 20 個小時的練習學校里駕駛汽車,小學生可以通過最少的交流學會語言交流,人類可以在他們以前從未遇到過的情況下行動。
相比之下,傳統的判斷模型需要比人類多幾個數量級的試驗來訓練,這樣才能在訓練過程中涵蓋最意想不到的情況。 這表明人腦的學習具有很強的靈活性,從小樣本開始,不斷適應環境。 這些習得的靈活性應該是未來機器學習的主要研究目標。 例如,LeCun 提出的新型自主智能架構最近獲得了圖靈獎。 最重要的一點是讓機器了解世界是如何運轉的,掌握廣泛的現實知識,并以此為基礎進行推理。
圖源網絡,入侵與刪除 3.2 視覺-語言預訓練模型演進與應用
2022 年 12 月 1 日,聯合創始人 Sam 在 上宣布并邀請人們免費試用
圖片來源網絡,侵刪
能以對話的方式與人類互動,能回答試探性的、連續的問題,承認答案中的錯誤,在人類提問時強調不正確的前提,拒絕回答不恰當的問題,其性能大大超過弱人工智能。 聰明的想象力。 其影響早已遍及各行各業。 基于GPT-3開發,具有強大的對話能力,理解語言語境,能夠產生富有表現力和連貫性的回應。 所謂GPT,全稱Pre-,本質上是一種基于GPT的語言模型。
語言是明確存在的東西,但大腦如何理解、轉換和存儲語言,是尚未被發現的東西。 因此,大腦理解語言的過程就是大腦將語言編碼成可理解和可存儲的方式的過程,這個過程稱為語言編碼。 相應地,在大腦中表達你想用語言表達的內容稱為語言解碼。在語言模型中,編碼器和解碼器都是通過將各個組件拼接在一起產生的
這些是什么? 它是一種用于自然語言處理和其他序列到序列 (-to-) 任務的神經網絡架構。 它由微軟的研究人員于 2017 年提出,被認為是自然語言處理領域的重大突破。
基于注意力機制( ),其核心思想是在序列中進行交互和捕獲全局信息,而不是像前幾年的循環神經網絡(RNN)那樣在序列中一個一個地處理信息。 通過多個自注意力層(Self-Layer)進行信息的交互和表示,每個自注意力層包含注意力機制的三部分:query、key和value)。
圖片來源網絡,侵刪
具體來說,對于一個輸入序列,將其轉化為多個詞向量(word),然后通過self-層提取特征。 在self-層中摩擦力的圖像分析,query 通過估計它與所有key 的相似度來估計 score,并用這個score對sum 進行加權,最終得到每個位置的輸出向量。 之后,這個輸出向量被饋送到下一個自注意層或全連接層進行后續處理。
與傳統的序列模型相比,優點是可以并行處理輸入序列,從而加快模型的訓練和推理。 據悉,它還可以有效地處理長序列,因為它可以一次處理整個序列,沒有時間限制,不需要像RNN那樣一個一個地處理。
然而,關于這種大規模的預訓練模型仍然存在一些爭議。 主要論點基于:
預訓練模型和跨模態預訓練模型的研究非常值得探索,在模型結構、訓練策略、預訓練任務設計等方面仍有很大潛力。 比如2021年10月發布的與相關的工作,從這個模型可以看出充滿了野心。 希望對于下游任務,不需要任務相關的訓練數據集,也不需要微調,零樣本遷移直接基于。 這對于提高大型模型的訓練效率和訓練效果具有重要意義。
3.3 篡改文本圖像的生成與測量
篡改文本檢測(TTD,text)是多媒體信息安全領域一個新興的研究方向。 漢字區的真偽。
[1] 王玉新, 張伯強, 謝洪濤, 等. 基于空域和信噪比建模的篡改文本圖像檢測[J]. 網絡與信息安全學報, 2022, 8(03): 29-40.
篡改文本檢測任務有兩個主要挑戰。
與傳統文本檢測任務相比,篡改文本檢測任務需要進一步區分篡改文本和真實文本。 由于真實文本和偽造文本的分類難度不一致,網絡在訓練過程中很難平衡兩種類型的學習過程,導致兩種類型在測試過程中的測量精度差異較大。 上述挑戰極大地限制了篡改文本測量方法的性能。 為此,如何準確捕捉局部紋理差異,同時平衡篡改難度和真實類別學習是當前篡改文本度量研究的一個重要方向。
CCIG峰會謝洪濤院長將介紹可在真實場景文本圖像上訓練的文本生成算法和基于平行空域感知和信噪比特征的篡改文本檢測算法。 這些算法創新性地在篡改文本測量任務中引入卷積信息來改善篡改紋理特征,通過同時捕獲空間域和串擾信息來提高網絡區分局部紋理差異的能力。 該算法設計的全局時空關系模塊提供了一種簡單有效的方法來平衡篡改難度和真實類別學習。 通過對全局文本實例之間的空間卷積特征關系進行建模,利用其他文本實例的空間卷積信息。 幫助識別當前文本實例的真實性,幫助網絡更好地平衡真實文本和篡改文本的學習難度,提高測量精度。
這里重點介紹一個非常新穎的全局空卷積關系模塊。 想一想:如果單純根據當前文本候選框的特征來識別紋理的真偽,由于缺乏對全局信息的感知,網絡將很難平衡真實和真實的學習難度。篡改文本類別。 不同類別的測量精度差異較大,造成測量精度不平衡的問題。 全局空卷積關系模塊是捕獲全局信息輔助當前文本候選框的真偽識別摩擦力的圖像分析,通過感知當前文本候選框與空卷積特征的相似度來平衡真實類別和篡改類別的學習難度。其他文本候選框。
算法選取最具代表性的方法EAST和ATRR進行性能比較。 實驗結果表明,該算法可以解釋真實文本和篡改文本的最新測量值。 與相同的兩階段檢測算法相比,基于空卷積關系建模的篡改文本度量方法在真實文本和篡改文本的度量精度上取得了更好的效果,能夠有效解決度量精度不平衡的問題,避免篡改- 網絡對單個文本類進行精確檢查。
事實上,本報告介紹的基于空卷積關系建模的篡改文本檢測方法可以推廣到其他篡改文本檢測算法。 通過直接使用或簡單地更改文本中的模塊,可以顯著提高篡改文本檢測的準確性。 這為篡改文本檢測技術的相關研究提供了新的方向和思路。 從事相關研究的朋友可以關注一下~
3.4 文檔智能處理在行業中的應用與挑戰
說到光學字符識別,大家可能會比較陌生,但應該或多或少聽說過OCR。 一般來說,OCR技術是利用電子設備(如掃描儀或數碼單反相機)檢測復制在紙上的字符,然后利用字符識別方法將形狀翻譯成計算機文本。 隨著技術的不斷發展,OCR技術在行業中的應用也從最初的簡單的光學字符識別擴展到包括圖像預處理、文本識別、排版分析、文檔理解等在內的智能文檔處理領域。
但是,在實際的工業場景中,還存在很多問題和挑戰。 例如,文檔圖像可能存在變形和彎曲。 這是因為單反硬件不滿足透視??中單反模型的眼睛無限小的理論假設,因此真實圖像會形成明顯的徑向畸變——場景中的腰線在圖像中呈現為曲線。 有兩種類型的 (): () 和 ()。 據悉,在單反組裝過程中,鏡頭不能嚴格平行于成像面,會引入切向畸變(),而視覺文件圖像的拍攝角度通常與文件平面不垂直,導致變形和文檔圖像的失真。
另一個例子是非常常見的圖像波紋現象。 電子屏在單反拍攝時,顯示器件的發光點陣與單反的傳感器陣列發生混疊,形成摩爾紋現象。 屏幕圖像摩爾紋表現為疊加在圖像上的白色,具有可變的顏色和形狀。 圖像中的莫爾條紋在廣泛的空間和時間域內與原始圖像信號混合,一般覆蓋整個圖像。 云紋除了隨圖像不同而變化外,在同一幅圖像中還會隨著空間位置的變化而呈現出不同的色調和形狀。 如果稍微改變拍攝距離或拍攝角度,云紋圖案可能會大不相同。
此外,燈光效果、文件篡改檢查、復雜文件圖像的布局還原,以及各種復雜的場景都會導致文件識別和理解困難。 本報告主要介紹了依托和合信息自主研發的智能文字識別服務平臺解決行業面臨的各類問題的一些相關工作進展和研究成果,闡述了目前行業面臨的一些關鍵技術困境和挑戰。
歡迎對以上議程感興趣者參加本次CCIG峰會,觀看入口如下
4觀看入口及話題
呵呵資訊視頻第13期將于晚上13:30直播,感興趣的朋友歡迎交流
問題
時間議程發言人
13:30-14:10
《人工智能大模型時代的文檔識別與理解》
中國科學院手工技術研究所副所長 劉成林
14:10-14:45
《視覺-語言預訓練模型與遷移學習技術》
上海大學鄒月賢院長
14:45-15:20
《篡改文本圖像的生成與測量》
中國科學院院長謝洪濤
15:20-15:30
自助餐
15:35-16:00
《華為云OCR技術進步與行業實踐》
廖明輝,華為云AI算法研究員
16:00-16:25
《智能文檔處理技術在行業中的應用與挑戰》
和合信息中級工程師 丁凱
16:30-17:30
圓桌討論
金蓮文、劉成林、鄒月燮、謝洪濤、廖明輝、丁凱