視障新知

電腦學會認字向打字惡夢say good bye

莊舒仲

撰文時間:2003/9/22
  
  
  「效率」是現代人可以理直氣壯說出來的字眼,懂得利用資訊工具,經由簡單的操作程序,一些耗費時間、體力的無聊工作,就成了歷史名詞。「電腦打字」就是其中之一。過去兩眼必須不斷看著印刷品上密密麻麻的黑點,十指還得不停地在鍵盤奔走,不過有了「光學字元辨識技術(OCR, OpticalCharacter Recognition)」只要一台掃描器,一套辨識軟體,讓電腦學會認字,自己再從旁指點就OK,對於電腦文件資料建檔這碼事,終於可以大聲說:「打字,拜拜!」 省時省力是「光學字元辨識技術」的威力,而「從有化無」到「從無化有」是技術效能的最高境界,它可以把現有文件文字變成電腦上才看得到的文字內碼,經過加工後,又變成另一形態的文件或檔案資料保存,它影響傳統打字生態,讓部分打字工作變成了文件掃描加上文字校對。
  「光學字元辨識技術」以光學掃描器將原始文件、紙張、報刊等印刷品上文字,先以點陣圖檔形式引入電腦中,然後再利用辨識核心技術,把圖形文字轉換成電腦上可以修改編輯的系統字元,最近業者還把技術變得更「生活化」,應用到都會人士不可或缺的名片管理上。
  國內字元辨識技術產品不少,像力新的「丹青」、蒙恬的「認識王」、新人類的「多文通」、「漢品坊」等,而全景的「卡輕鬆」、蒙恬的「名片王」以及仍在研發的花旗「剪刀手」則都是辨識技術結合資料庫系統的加值應用,這些產品生活化或辨公室化的好處是省去打字、整理資料時間,但缺點是事前轉換作業時間會拉長。
  一般來說,字元辨識過程會經歷掃描、轉檔、校對、歸檔等四個過程,其中掃描是後續工作能否順利的關鍵,業者指出,掃描時,文件擺放位置正不正?掃描解折度和雜點多不多?文字顏色濃淡,以及文件圖文多寡和字體複不複雜等因素,都會影響軟體對圖字的辨識率,事前作業處理得好,接續工作容易上手。
  辨識完成後,一篇文章能否完整呈現,有賴於線上校對工具是否簡單、清楚,能夠讓使用者毫不費力檢查原稿內文和轉換後的文件檔內文是否一致,修改介面最好有待選字或鄰近字供點選,不必再費力打字。
  所選擇軟體時,建議讀者最好依工作環境需要決定,如果掃描紙張背景單純、字體不甚複雜的文件,那麼任何軟體都適合你。但工作要求較高者,除了辨識正確率高低,還得留意軟體是否具備文件轉檔(如轉成Word、Excel等)、能否抽離背景顏色、複雜圖文分析能力,甚至整合資料庫等,以便快速應用於其他工作上。
  當然,文件轉換成電子檔案的目的,通常著重於事後應用部分,今年蒙恬「名片王」和全景「卡輕鬆」此類的名片管理系統,即是將字元辨識技術結合資料庫,讓電腦不但會「識字」而且還能當「個人秘書」。
  這類整合軟體是把名片內容拆成一塊塊個體,然後單獨辨識文字並排除商標圖案,對於一般通用的格式,如地址、電話、傳真等文字群組,辨識後即填入預先設定的資料庫欄位,對於無法辨識歸類的部分,即暫置於公用欄位,再由使用者自行填入。業者指出,目前辨識率約在六、七成左右,但對於文章內同時包含直排、橫排文字,或是圖文難辨部分仍待技術解決。
  此外,資料庫相容方面也是各位需留意重點,目前名片管理軟體都以內建資料庫來儲存檔案,然而這些資料是不是能夠轉移其他資料庫軟體使用,或轉成現在常用的商務卡格式,以及欄位能夠自行建立或擴充等能力,才會讓資料庫更有空間發揮,也更有彈性符合工作需要。
  
  
摘錄:自由時報/就業商機
Top