日韩高清免费在线_亚洲高清毛片一区二区|HD中文字幕在线播放,久久一区二区电影,午夜a在线,亚洲精品视频在线免费

你隨手寫(xiě),它即時(shí)認(rèn)——AI報(bào)告解讀(二)

瀏覽: 時(shí)間:2019-12-25

這次的主題是計(jì)算機(jī)文字識(shí)別(OCR)。它其實(shí)并沒(méi)有出現(xiàn)在人工智能相關(guān)的產(chǎn)業(yè)研究院、投資機(jī)構(gòu)、媒體等AI報(bào)告中,因?yàn)樗膽?yīng)用已經(jīng)延續(xù)了40多年,早已不再是熱點(diǎn),但是它是現(xiàn)在很多AI應(yīng)用的基礎(chǔ)功能之一。


定義

計(jì)算機(jī)視覺(jué)技術(shù)最早的應(yīng)用,是計(jì)算機(jī)文字識(shí)別(OCR)。OCR的意思是“光學(xué)字符識(shí)別”——對(duì)圖像中的印刷體或手寫(xiě)文字進(jìn)行識(shí)別,轉(zhuǎn)化成電子文檔。

紙質(zhì)、電子化文字資料在使用上各有優(yōu)勢(shì):紙質(zhì)資料方便查看和標(biāo)記,電子化資料便于存檔和檢索。OCR使得紙質(zhì)資料能夠快速、方便地錄入到計(jì)算機(jī)中,保持紙質(zhì)、電子化資料的一致性。

 

應(yīng)用

OCR的誕生,最早是為了將現(xiàn)世留存的文字資料,比如書(shū)籍、報(bào)刊、文件、檔案、單據(jù)等資料輸入計(jì)算機(jī),進(jìn)行數(shù)字化管理,方便檢索和查詢。針對(duì)的是印刷體文字資料的識(shí)別。

英文的印刷體文字識(shí)別,已經(jīng)成熟應(yīng)用40多年。中文的印刷體文字識(shí)別,在1989年也已經(jīng)進(jìn)入實(shí)用,現(xiàn)在手機(jī)APP就可以實(shí)現(xiàn)印刷資料的拍照轉(zhuǎn)錄。

現(xiàn)在OCR的應(yīng)用范圍已經(jīng)超出紙質(zhì)資料錄入,拓展了新的應(yīng)用場(chǎng)景,比如:

  • 車牌識(shí)別道閘——自動(dòng)識(shí)別車輛的號(hào)牌,匹配車輛的月卡、進(jìn)場(chǎng)時(shí)間信息,確定放行或收費(fèi)。

  • 名片識(shí)別——拍照識(shí)別名片的關(guān)鍵信息,自動(dòng)填寫(xiě)通訊錄。

  • 文本提取——從照片、街景、監(jiān)控圖像中提取LOGO、招牌、街道標(biāo)志、車牌等文本信息。

  • 拍照搜索——這是一類應(yīng)用,包含拍照搜索,根據(jù)圖中的商標(biāo)、文字搜索相關(guān)內(nèi)容;拍照搜題目,根據(jù)圖文從題庫(kù)中搜索答案;拍照翻譯,將圖片中的外文翻譯成母語(yǔ)……

 

近二十多年,OCR技術(shù)開(kāi)發(fā)的重心是手寫(xiě)體識(shí)別。

    16278989061817c55ca1c8155369c

圖片

手寫(xiě)識(shí)別案例


手寫(xiě)識(shí)別的用途很廣泛,例如:

  • 手寫(xiě)輸入法

  • 手寫(xiě)檔案、單據(jù)的錄入。比如傳統(tǒng)的手寫(xiě)人事檔案、履歷等,想要跨地域調(diào)取查閱,往往需要耗費(fèi)當(dāng)事人好幾天的時(shí)間。醫(yī)療機(jī)構(gòu)保存的歷史病歷檔案,如果能轉(zhuǎn)換為文字?jǐn)?shù)據(jù),對(duì)于現(xiàn)代醫(yī)療科技是一個(gè)非常大的數(shù)據(jù)源。手寫(xiě)的快遞運(yùn)單、申請(qǐng)單據(jù)等,手寫(xiě)識(shí)別會(huì)解放大量的轉(zhuǎn)錄工作量。

  • 學(xué)習(xí)和辦公需要。個(gè)人手寫(xiě)的讀書(shū)筆記、會(huì)議紀(jì)要、日常記錄、思維導(dǎo)圖等,轉(zhuǎn)換成電子文檔,方便搜索和分享。

目前,手寫(xiě)輸入法、有固定格式的單據(jù),識(shí)別效果已經(jīng)比較好,尤其是手寫(xiě)輸入法,很潦草的字都有不錯(cuò)的識(shí)別率。

 

技術(shù)簡(jiǎn)介

OCR分三種:

  • 印刷體識(shí)別,印刷字體的識(shí)別

  • 聯(lián)機(jī)手寫(xiě)識(shí)別,在電子寫(xiě)字板等輸入設(shè)備上手寫(xiě)文字的識(shí)別

  • 脫機(jī)手寫(xiě)識(shí)別,在紙張上手寫(xiě)文字的識(shí)別

 

印刷體OCR,基本實(shí)現(xiàn)過(guò)程大概如下:

022


印刷體OCR的基本過(guò)程

 

印刷體OCR在實(shí)用中,預(yù)處理和切分是對(duì)識(shí)別效果影響最大的環(huán)節(jié)。

現(xiàn)在的印刷體OCR,使用了專業(yè)的深度學(xué)習(xí)算法,解決印刷質(zhì)量、復(fù)雜背景、文字畸變、小間距、低分辨率、光線、拍照角度、表面折痕污損等條件下的預(yù)處理、切分問(wèn)題,簡(jiǎn)化了對(duì)操作者的要求。

現(xiàn)在印刷體的OCR還追求高還原度掃描錄入。支持表格的識(shí)別;版面結(jié)構(gòu)的理解和恢復(fù);縮進(jìn)、段落等文字格式的自動(dòng)處理;圖文混排、多語(yǔ)種混排的自適應(yīng)識(shí)別和恢復(fù)等。使得OCR自動(dòng)錄入的電子文檔,可以高度還原紙質(zhì)文檔的板式和內(nèi)容。

有些特殊的OCR任務(wù)還要解決特定的問(wèn)題,例如從街景照片中提取街道標(biāo)志和車牌。主要的難點(diǎn)是在預(yù)處理階段,識(shí)別路牌和車牌所在圖像區(qū)域的輪廓。這很多也是用專業(yè)的深度學(xué)習(xí)算法實(shí)現(xiàn)的。

 

聯(lián)機(jī)手寫(xiě)OCR和印刷體OCR區(qū)別比較大。不需要前面的預(yù)處理、版面處理、切分環(huán)節(jié)。

  • 識(shí)別環(huán)節(jié),輸入的信息除了文字的圖像,還包括筆跡的順序和方向、速度和停頓等。

  • 至于后處理,因?yàn)槁?lián)機(jī)手寫(xiě)OCR一般用做輸入法,使用過(guò)程中,用戶可以在多個(gè)識(shí)別結(jié)果中選擇一個(gè),如果發(fā)現(xiàn)識(shí)別錯(cuò)誤,通常會(huì)直接重寫(xiě),因此對(duì)后處理的要求也不高。

聯(lián)機(jī)手寫(xiě)OCR目前的識(shí)別率也比較高,連筆、傾斜、潦草、書(shū)寫(xiě)不規(guī)范、筆順錯(cuò)誤、形似字都有比較高的識(shí)別率。

 

脫機(jī)手寫(xiě)OCR和印刷體OCR的處理過(guò)程是一樣的。但是每個(gè)人的手寫(xiě)體差異太大,脫機(jī)手寫(xiě)OCR在切分和識(shí)別環(huán)節(jié)的難度也更大一些。

早年的脫機(jī)手寫(xiě)OCR對(duì)書(shū)寫(xiě)的規(guī)范性要求比較高,只有整齊的正楷字才有比較好的識(shí)別率。近年來(lái)使用深度學(xué)習(xí)算法,脫機(jī)手寫(xiě)OCR的識(shí)別效果好很多。小HUI實(shí)測(cè)的情況看,基本上人眼能夠正常辨認(rèn)的兒童、成人手寫(xiě)字體,即使有連筆、缺筆、傾斜等問(wèn)題,識(shí)別率都能在90%以上。人眼不能確認(rèn),但能夠通過(guò)上下文辨認(rèn)的內(nèi)容,識(shí)別情況就不理想了。

病歷檔案錄入是脫機(jī)手寫(xiě)OCR的主要目標(biāo)場(chǎng)景之一,目前的識(shí)別率還非常低。

 

市面上還有一些產(chǎn)品,用聯(lián)機(jī)手寫(xiě)OCR的技術(shù),實(shí)現(xiàn)類似離線OCR的應(yīng)用場(chǎng)景:

將寫(xiě)字板做成文件板夾的形式,使用時(shí)將紙張夾在板夾上,用戶在紙張上書(shū)寫(xiě)的同時(shí),寫(xiě)字板在后臺(tái)完成識(shí)別工作。這對(duì)于習(xí)慣書(shū)寫(xiě)紙質(zhì)檔案,但又需要保留數(shù)據(jù)的用戶——比如醫(yī)生——也是一個(gè)不錯(cuò)的解決方案。

 

機(jī)會(huì)

經(jīng)過(guò)30來(lái)年的發(fā)展,OCR的應(yīng)用早已不限于紙質(zhì)文字資料的數(shù)字化,自然環(huán)境中的印刷體識(shí)別“OCR in the wild”有非常廣泛的用途:

  • 在安防攝像頭拍攝的監(jiān)控視頻中,識(shí)別車牌,實(shí)現(xiàn)車輛的自動(dòng)標(biāo)記,和軌跡繪制。

  • 自動(dòng)駕駛中,識(shí)別拍攝的路況等圖像中的文字,實(shí)現(xiàn)高精地圖+路牌識(shí)別的導(dǎo)航。

  • 在生產(chǎn)線上識(shí)別產(chǎn)品上的文字或代碼,進(jìn)行質(zhì)量檢測(cè)。

  • ……

圖片

圖片來(lái)源:AI研習(xí)社


教育用途中,機(jī)器人 +印刷體識(shí)別,創(chuàng)造的繪本閱讀機(jī)器人,幫助家長(zhǎng)培養(yǎng)孩子的早期閱讀習(xí)慣。

在辦公用途中,聯(lián)機(jī)手寫(xiě)OCR和語(yǔ)音識(shí)別甚至機(jī)器翻譯結(jié)合,能夠很好的滿足會(huì)議實(shí)錄的需求。

 

AI+醫(yī)療,也是OCR的重要落地方向,但是病歷的數(shù)字化,除了需要推進(jìn)人工智能技術(shù)的落地,還要結(jié)合醫(yī)療術(shù)語(yǔ)規(guī)范化本身的推進(jìn)。

 

小結(jié)

文字識(shí)別是計(jì)算機(jī)視覺(jué)最早的應(yīng)用之一,現(xiàn)在OCR已經(jīng)從印刷體文字的識(shí)別,發(fā)展到了手寫(xiě)輸入和手寫(xiě)識(shí)別,應(yīng)用范圍也已經(jīng)從印刷品的掃描錄入,拓展到安防、自動(dòng)駕駛、制造業(yè)、醫(yī)療等領(lǐng)域。未來(lái),OCR應(yīng)該還會(huì)在更多領(lǐng)域,滿足掃描錄入、人機(jī)交互等方面的需求。

 

就技術(shù)而言,中文OCR做的比較專業(yè)的,國(guó)內(nèi)有文通和漢王,臺(tái)灣有丹青和蒙恬,國(guó)外是ABBYYIRIS。離線手寫(xiě)OCR目前漢王的識(shí)別率最高。