讓機器閱讀圖片上的文字，怎麼實現的？

以下是視頻文字稿：

拍下快遞單就能自動填充單號，拍下名片信息就能自動歸類，拍下題目就能得到答案，這些方便的功能，都是 OCR 的功勞。

OCR 中文名叫“光學字符識別”，是指將帶有文字的圖像進行分析處理，獲取其中的文字信息。 對於機器來說圖片只是一連串像素值，正是 OCR 給了機器閱讀文字的能力。

想要識別圖片中的文字，總共分幾步？

首先是 找到圖片中文字的位置，校正文字的方向，再對圖片進行二值化處理，切割並識別它們。 對於得到的文字，有時還要進行語義糾錯，才能輸出最後的結果。

在提取圖片中的文字信息之外，OCR 能幫我們完成許多更有趣的應用。

與機器翻譯、 AR 相結合 ，就能實時將攝像頭拍攝到的文字，翻譯成你能讀懂的語言；

整理購物小票太繁瑣？拍下照片機器就能將它們整理歸類， 自動記賬 ；

不僅如此， 理解圖片中的文字還能提升圖像識別的準確率 ，像是商品包裝上的文字就能為商品細粒度識別提供不少幫助。

不過手寫文字、多語言混合文本、混合排列文本，仍是 OCR 需要解決的難題。

*文章為作者獨立觀點，不代表虎嗅網立場

本文由 KnowingAI知智授權虎嗅網發表，並經虎嗅網編輯。轉載此文章須經作者同意，並請附上出處( 虎嗅網 )及本頁鏈接。原文鏈接：https://www.huxiu.com/article/252877.html

未來面前，你我還都是孩子，還不去下載虎嗅App 猛嗅創新！