“更快,更高,更強?!币恢笔墙鹑谛袠I(yè)智能開戶不斷追求的目標。更快的識別速度,更高的識別精度,更強的抗干擾能力,這對開戶中的卡證識別來說尤為重要。
通過基于深度學習的OCR識別技術(shù),易道博識提供的智能開戶解決方案一直以識別速度快,精度高而著稱,在證券、銀行、保險等行業(yè)客戶中廣受認可,覆蓋了國內(nèi)七成以上的券商。
深度學習確實能為智能識別帶來成倍效能的提升,但是,完全基于深度學習的卡證識別從來未在移動端上實現(xiàn)過。
與人臉識別等其它識別任務(wù)不同,OCR不僅需要卷積神經(jīng)網(wǎng)絡(luò)(CNN),還需要更復雜、計算量更大的遞歸神經(jīng)網(wǎng)絡(luò)(RNN、LSTM),這需要強大算力為支撐,而手機并不像服務(wù)器端一樣擁有GPU。所以,充分利用有限的算力實現(xiàn)快速準確的數(shù)據(jù)處理,是移動端需要解決的關(guān)鍵問題。
但是突破從未停止。憑借多年的技術(shù)積累和自主開發(fā),推出了完全基于深度學習的識別產(chǎn)品——移動端深度學習OCR(以下簡稱DOM,DeepOCR for Mobile)。
全方位突破,更快,更高,更強!
DOM SDK以完全的深度學習作為核心算法,所以能夠更好地學習高級別對象語義和低級別細節(jié)特征,并更好地識別和分割多尺度的對象。以大量樣本為驅(qū)動,反復迭代訓練得到的最優(yōu)的、具備強大泛化能力的OCR模組,使得DOM SDK真正擁有了“更快的識別速度,更高的識別精度,更強的抗干擾能力”,在已經(jīng)足夠成熟的解決方案之上,做到了“更快,更高,更強!”
值得一提的是,DOM SDK將CNN+RNN深度神經(jīng)網(wǎng)絡(luò)強大的自動特征編碼能力,壓縮到了移動端能接受的程度(SDK體積約10M),這是DOM SDK能夠應用在移動端的另一重要原因。
具體而言,在識別能力上,相比于傳統(tǒng)的 OCR 方法,基于深度學習技術(shù)的 DOM SDK識別核心具有大幅度領(lǐng)先的識別精度,具體表現(xiàn)在如生僻字、少數(shù)民族證件等場景下更好的識別效果。
而在證件分割中,相比傳統(tǒng) SDK 中基于四邊定位的的方法,深度學習的方法能夠更好地排除 背景噪聲的干擾,如存在背景線條或背景特征與證件接近的情況,從而可以得到更精確的證件輪廓信息。
在手機上實現(xiàn)服務(wù)器端的證件質(zhì)檢
在DOM SDK中,實現(xiàn)了原來只有在服務(wù)器端才能完全實現(xiàn)的證件質(zhì)檢功能。DOM質(zhì)檢模塊采用深度學習模型和規(guī)則相結(jié)合的方式,提供更高可靠性的證件異常檢測。
證件質(zhì)檢主要完成對拍攝的證件圖片中異常情況的檢測,如模糊、缺角、形變、切邊、光斑以及遮擋等,并做出相應地提示,如異常類型、區(qū)域等。
其中光斑、遮擋等基于深度檢測模型完成,模糊、缺角、形變、切邊等則基于對證件幾何特征的分析完成。相比現(xiàn)有SDK完全基于圖像分析的方法,DOM質(zhì)檢具有更高的精度和更好的可靠性。
視頻流模式下的高速識別
DOM SDK支持用戶在動態(tài)視頻流條件下完成證件的自動識別,可以支持在任意方向或角度以及不同背景條件下拍攝或掃描證件圖像。證件SDK會動態(tài)追蹤證件位置,獲取清晰的視頻流圖像完成識別。
DOM SDK首先對證件圖像進行分割,得到證件區(qū)域位置。然后進行證件圖像矯正,再做質(zhì)檢。對于存在異常的圖像,如缺角、變形大、距離遠等問題,SDK會給出相應的提示信息,并終止本次識別。對于質(zhì)檢通過的圖片,SDK則會輸入到OCR模型,完成后續(xù)識別工作。
北京易道博識科技有限公司(簡稱易道博識)致力于人工智能領(lǐng)域的技術(shù)研究與應用開發(fā),基于自主研發(fā)的深度學習平臺,實現(xiàn)文字識別、人臉識別、圖像識別三大核心技術(shù)功能,為證券、銀行、保險、互聯(lián)網(wǎng)汽車金融、地產(chǎn)、多個行業(yè)量身打造AI+智能OCR識別解決方案,現(xiàn)已與600多家知名企業(yè)和機構(gòu)建立合作。
作為國家級高新技術(shù)企業(yè),易道博識由來自中科院、清華大學、北京大學等的多名頂尖人工智能專家共同組建,擁有發(fā)明專利、實用新型專利55項,計算機軟件著作權(quán)35項,商標知識產(chǎn)權(quán)32個。