在數十年的發展中,OCR 的辨識速度和辨識成功率在不斷地提高,從複雜背景中提取出文字、多種混合字體辨識、低解析度圖像中辨識、都已經不算什麼問題。但發展到現在,對於 OCR 技術來說依舊有一個瓶頸沒有突破,那就是彎曲文字。近日,亞馬遜的研究人員就開發出了一項名為「TextTubes」來 OCR 辨識演算法來解決這個問題。
不管你有沒有聽過,OCR(光學字符辨識)也就是俗稱的文字辨識技術已經滲入到我們生活中的方方面面。不妨回想一下,汽車出入停車場時的車牌辨識、金融業務開戶時的銀行卡辨識、身份證辨識、甚至是很多商務應用中的名片辨識等,其實都是基於 OCR 技術的。
OCR 的發展可以追溯到 70 年代初,在數十年的發展中,OCR 的辨識速度和辨識成功率在不斷地提高,應用情境也在不斷地拓展。
從複雜背景中提取出文字、多種混合字體辨識、低解析度圖像中辨識、多語言混合是被、錯行辨識甚至是複雜多行板式辨識等對於現今的 OCR 技術來說其實都已經不算什麼問題。
但發展到現在,對於 OCR 技術來說依舊有一個瓶頸沒有突破,那就是彎曲文字。
什麼是彎曲文字?
像這樣,
這樣,
還有這樣的。
實際上,Captcha & reCAPTCHA,也就是你登錄網站常常輸入錯的歪歪扭扭的文字驗證碼,也是基於 OCR 的這個弱點,來防止被攻擊的。
過去的 OCR 大多是解決水平文字的檢測或者傾斜文字的檢測,但其實像上圖的彎曲在生活中十分常見。
近日,亞馬遜的研究人員就開發出了一項名為「TextTubes」來 OCR 辨識演算法來解決這個問題。
簡單來說,該演算法首先會對目標圖像進行建模,建立一個曲線函式,然後再分析出出半徑以及中間軸,繼而產生一個文本選取分區。
效果怎麼樣?
論文展示了三種不同 OCR 技術針對同一個含有彎曲字體的廣告牌的辨識效果。
結果顯示,(b)和(c)會出現辨識框重複的現象,(b)當中還出現了彎曲辨識框未能完全覆蓋文字的情況。
這樣會帶來什麼結果呢,一就是會出現導出的文字結果會有重複,而二就是會導致辨識結果錯誤。
至於 TextTubes 所辨識出來的效果則很完美地對廣告牌上的每一個文字區域進行分區,既不會出現重疊區域,而每一個分區也都很好地覆蓋所有文字。
為了更好地測試 TextTubes 的性能,亞馬遜在 CTW- 1500 以及 Total-Text 兩個訓練系統上進行評估。當中 CTW- 1500 含有 1500 張圖像、超過 10000 個文本實體,每張圖像至少還有一個彎曲文本,而 Total-Text 則共有 1255 個訓練圖像、300 個測試圖像,每張圖片也是含有一個或多個彎曲文本。
那麼成績如何?TextTubes 在兩個測試中都獲得了優秀的成績,在 CTW- 1500 則更為突出,準確率為 83.65%,相比之下,排第二名的,準確率只有 75.6%。
亞馬遜表示,當 TextTubes 正式投入使用之後,對於那些高度依賴 OCR 技術展開業務的企業來說,是一個福音。根據 Grand View Research 的數據,市場對於 OCR 的需求仍在不斷增大,預計到 2025 年 OCR 解決方案市場規模將達到 133.8 億美元。
- 本文授權轉載自:ifanr
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!