变态重口极致另类在线-波多久久夜色精品国产-波多野结衣在线观看一区-波多野结衣在线观看一区二区-污污的网站免费阅读-污污视频网址

東坡下載:內容最豐富最安全的下載站!

首頁IT技術軟件教程 → 文字識別的過程詳細介紹

文字識別的過程詳細介紹

相關文章發表評論 來源:本站整理時間:2015/1/8 9:31:49字體大小:A-A+

更多

作者:專題點擊:169次評論:0次標簽: 文字識別

在學習生活中經常會使用一些文字識別軟件去提取一些文字,那么文字識別的過程是什么呢?這里給大家帶來的是文字識別的過程詳細介紹,一起來看看吧。

經常用掃描儀的朋友可能對OCR并不陌生.OCR即Optiotd Character Recognition.中文含義就是光學字符識別的意思,就是將圖像作一個轉換,使圖像內的圖形繼續保存.將文字識別出來.這樣使人們從繁重的鍵盤錄入的勞動中解脫出來。目前幾乎所有掃描儀都附帶有OCR識別軟件.但遺憾的是即使是同一個OCR軟件識別的正確率差距也較大。目前比較常見的OCR軟件有清華紫光和尚書六號。 

掃描儀的一個重要功能就是通過OCR軟件(即文字識別軟件)將掃描后的文字圖像轉換成文本格式的文件,使文字處理軟件能夠調用處理。這樣可以大大提高文字錄入速度,極大地提高工作效率。目前,文字識別軟件主要有《尚書OCR》、《漢王OCR》和《紫光OCR》等幾種。不過,我們在進行文字識別時經常會遇到識別率低的問題,其原因除了被識別稿件有問題外,主要還是我們沒有掌握好掃描及OCR識別軟件的使用技巧。那么進行文字識別時有哪些技巧呢?

一、根據識別稿的質量進行處理 

進行掃描識別時,在可能的情況下應盡量選擇清晰度與潔凈度都很高的識別稿,識別稿的清晰度與潔凈度的不同會使掃描后的識別率有很大差距。對一般的印刷稿、打印稿等質量較好的文稿進行識別,只要掌握好方法與技巧,其識別率一般可達到98%以上。而對報紙、雜志等清晰度不佳的原稿進行識別,無論使用何種識別軟件都難以達到很高的識別率。 

1.對一些帶有下劃線、分隔線等符號的文本原稿,有些OCR軟件是識別不出的,一般會出現亂碼。如果必須掃描帶有這些符號的原稿,一是要確保使用的識別軟件能夠識別這些符號。二是使用工具擦掉這些特殊符號,使識別軟件能正確識別這些文字。 如果掃描后的文檔中含有OCR軟件不能識別的圖像、圖形和一些特殊符號,可以考慮使用“擦拭”工具將文檔中的圖像、圖形和一些特殊符號擦除,同時將圖像上一些雜點也一并去除。使圖像中除了文字沒有多余的東西,這可以大大提高識別率并減少識別后的修改工作。 

2.在掃描識別報紙或紙張較薄的文稿時,掃描時稿件背面的文字通常會透過紙張造成錯字或亂碼,使識別率大大降低。在對這類原稿掃描時,我們可以在原稿的背面覆蓋一張黑紙,在進行正式掃描時,適當增加掃描對比度或亮度,即可有效提高識別率。 

3.對于一些圖文混排的原稿,掃描成一幅圖像進行全區識別會嚴重影響OCR軟件的識別率。我們可以根據實際情況將掃描后的版面切分成多個區域后再識別,切分區域的原則是:將圖形、圖像排除在區域之外(圖1),盡量把文字字體、字號一致的劃在一個區域內,不要嫌這個過程煩瑣而選用自動切分區域,手動選取掃描區域會有更好識別效果,還應注意各識別區域不能有交叉情況。 

二、掃描識別稿的操作技巧 

1.首先要保持工作環境的清潔,掃描儀的玻璃板以及若干個反光鏡片及鏡頭,其中任何一部分臟污都會影響掃描文字圖像的效果。因此,保持掃描儀的清潔是確保文字圖像掃描質量及識別率較高的重要前提。 

2.掃描儀在剛開啟時,光源的穩定性較差,而且光源的色溫也沒有達到正常工作所需的色溫,所以開始掃描以前最好先讓掃描儀預熱一段時間。 

3.在放置掃描原稿時,把掃描的文字材料擺放在掃描起始線正中,可以最大限度地避免由于光學透鏡導致的失真而影響識別率。 

4.掃描后的文字圖像經常會有一定角度的傾斜,出現這種情況必須在掃描后使用自動或手動旋轉工具進行糾正,OCR軟件一般都設有自動糾偏和手動糾偏工具。否則OCR識別軟件會將水平筆畫當作斜筆畫處理,識別率會下降很多。如果掃描后的文字圖像傾斜角度超過15°,傾斜校正會產生較大的失真和誤差,從而嚴重影響識別率,這種情況建議擺正原稿重新掃描。 

三、掃描參數的設置 

掃描參數的設置主要包括分辨率的設置及亮度和對比度的設置。 

1.一般來講,分辨率越高識別率也就會越高。但這也不是絕對的,對于一些過大過粗的字體,設置過高的分辨率,識別率可能會降低,而且設置高分辨率后,掃描速度會大大降低。根據實際經驗,1、2、3號字的文稿推薦使用200dpi,4、小4、5號字的文稿推薦使用300dpi,小5、6號字的文稿推薦使用400dpi,7、8號字的文稿推薦使用600dpi   

2.掃描時適當地調整好亮度和對比度值,對識別率的高低影響很大,在進行掃描亮度和對比度的設定時(圖3),以掃描后的圖像中文字的筆畫較細、均勻,且沒有明顯斷點為準。如果掃描后的文字圖像存在黑點、黑斑或文字線條很粗很黑,分不清筆畫,說明亮度值太小,應該增加亮度值再重新掃描。如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴重殘缺時,說明亮度值太大,應減小亮度后再重新掃描。如果要掃描質量比較差的文稿,比如報紙,掃描出的圖像可能會出現大量的黑點,而且在字體的筆畫上也會出現粘連現象,為獲得較好的識別結果,必須仔細進行亮度和對比度值的調整,反復掃描多次才能獲得比較理想的效果。 

四、識別后的處理工作

1.文字校正      

文字校正是OCR識別工作中比較煩瑣的一步。一般OCR軟件對可能出現錯誤的文字,會顯示出藍色標記,請用戶確認。但在沒有提示出錯的地方,也有可能出錯。所以大家在校對時應該通讀一遍,以提高文字錄入的準確率。 

2.識別后文本的保存 

如果把識別后的文本簡單復制粘貼到Word中保存處理,就需要去掉多余的硬回車,這樣會非常麻煩。正確方法是:先將識別后的文本存盤,在存盤時設置為軟回車就行了。對于《紫光OCR》,則需要在識別完成后,選擇文件菜單下的導出命令,將存儲類型選為TXT,段內回車字符選為無。注意:一定不要直接存盤,否則不能自動去掉文章的硬回車。《尚書OCR》、《漢王OCR》和《紫光OCR》都提供了段內去除硬回車的功能。


  • PDF文字提取軟件
  • 手機圖片文字識別軟件
  • 文字識別軟件
PDF文字提取軟件
(12)PDF文字提取軟件

PDF文字識別軟件相信有不少人都是想要的,這種軟件其實是非常多的,一般的只需要上傳或者是通過相機進行掃描就可以掃描出正確的文字出來!現在為大家帶來眾多PDF文字識別軟件!每一個都是可以掃描pdf文件的!

...更多>>
手機圖片文字識別軟件
(6)手機圖片文字識別軟件

一張圖片上的文字,想要COPY下來是不可能的,那么如何才能將圖片上的文字轉換成文檔呢?東坡小編為大家推薦手機圖片文字識別軟件,智能識別圖片上的文字,并可以形成文檔格式保存,非常方便,歡迎來下載使用!

...更多>>
文字識別軟件
(6)文字識別軟件

文字識別軟件現在也是很不多的朋友都是非常的需要使用到的,那么現在小編就給你介紹下目前世面上的一些文字識別軟件識別率高的,以及還是免費版下載的,有這方面需要的朋友現在小編就給你介紹下面的這些吧!趕快來下載試試看!

...更多>>
更多精彩內容請點擊

文字識別軟件

專題

擴展知識

相關評論

閱讀本文后您有什么感想? 已有 人給出評價!

  • 2791 喜歡喜歡
  • 2101 頂
  • 800 難過難過
  • 1219 囧
  • 4049 圍觀圍觀
  • 5602 無聊無聊
熱門評論
最新評論
昵稱:
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
字數: 0/500 (您的評論需要經過審核才能顯示)

本類常用軟件

主站蜘蛛池模板: 深夜a | 免费无遮挡十八污污网站 | 免费看欧美一级特黄a大片一 | 亚洲首页国产精品丝袜 | 日韩美一区二区 | 中文字幕日韩精品麻豆系列 | 亚洲视频一区在线 | 小明永久2015免费看网址 | 免费一级欧美片在线观看 | 欧美一级棒 | 一级毛片成人免费看a | 成年免费在线观看 | 韩日一区二区三区 | 国产日韩欧美综合色视频在线 | 热热色视频 | 欧美一区亚洲二区 | 亚洲欧美在线观看 | 午夜伦理片免费观看在线 | 成人免费一级毛片在线播放视频 | 1024手机基地在线看手机 | 日韩视频第二页 | 一个色在线视频 | 亚洲成a人片在线观看88 | 桃桃酱无缝丝袜在线播放 | 亚洲成人福利网站 | 日日爽天天干 | 天堂va在线高清一区 | 久久厕所精品国产精品亚洲 | 成人在线免费 | 午夜日韩久久影院 | 日韩在线观看中文字幕 | 在线 | 一区二区三区四区 | 亚洲欧美一级视频 | 午夜影院在线播放 | 亚洲欧洲成人 | 日韩欧美精品中文字幕 | 亚洲欧美日本国产综合在线 | 国产精品天堂avav在线 | 青草视频在线观看免费网站 | 国产成人手机在线 | 青青青国产依人在线视频97 |