OCRで帳票を読み込めば、帳票の事前仕分けやデータエントリ作業を省力化できます。しかし、OCRは具体的にどのような帳票を読み取れるのでしょうか。合わせて、読み込み時に覚えておきたい注意点や認識率アップのコツもお伝えします。
OCRで読み込み可能な帳票の種類
まずはOCRで読み込める帳票の種類からご紹介します。帳票は大きく「定型帳票」「準定型帳票」「非定型帳票」の3つに分けられます。
定型帳票
申込書やアンケートなど、同一のレイアウトの帳票を指します。OCRで読み取るには、読み取り位置が固定されているため、一度チューニングすればRPAとの連携も容易です。ただし、レイアウトが変わると認識精度が低くなるので注意しましょう。
準定型帳票
記載項目などに規則性はあるものの、フォーマットが異なるタイプの帳票です。見積書や領収書、棚卸表、保険証券などが挙げられます。OCRで読み取るには、抽出対象項目のルール化することで、正しい文字認識とデータ化が行えます。
非定型帳票
メールや契約書など、フォーマットがない形式の帳票です。OCRで読み取るには、記載項目に規則性がなく、抽出対象項目のルール化ができないため、細かな設定・チューニングは行えません。全文認識を行い、主に文書検索などに利用されます。
OCRで帳票を読み取る際の注意点
OCRで帳票を読み込む際には、導入済みもしくは検討中のOCRがどの帳票種に対応しているかを調べてみましょう。チューニングが必要であれば設定を行います。細かな調整がそもそもできないOCRの場合は、帳票のフォーマットから見直さなくてはなりません。
帳票の状態もチェック
帳票の種類が問題ではない場合は、帳票自体の状態も確認してみましょう。たとえば、OCRは以下のような文字の認識が苦手です。
- 薄めのカラー文字
- かすれている文字
- 特殊文字(記号や絵文字など)
- 網がけ文字
- 手書きの文字
上記のような文字はできるだけ帳票に含まれないよう工夫することが大切です。ただし、OCRのなかには事前の設定で、網がけ文字や手書き文字の認識を強化できるものもあります。
また、縦・横書きが混在している場合にも、認識率が下がってしまうケースは少なくありません。この場合は帳票のレイアウトを見直すか、設定で縦・横書きの区別できるOCRを利用しましょう。
認識率アップのコツ
帳票の種類や原稿の状態は適切であるものの、なかなか認識率が向上しない場合は、スキャンの方法に問題があるかもしれません。以下で認識率アップのコツをご紹介します。
原稿(帳票)の角度は垂直にする
読み込む帳票が斜めにセットされてしまうと、文字に角度が付いてしまいます。多少であれば問題はありませんが、できるかぎり垂直な角度を心がけましょう。なお、スキャン設定で縦・横を決めておくことも大切です。
スキャンの解像度を上げる
小さな文字が含まれる帳票の場合は、スキャンの解像度を上げてみましょう。具体的には、200〜300dpiを目安に設定してください。データが大きくなってはしまいますが、認識率アップにつながります。
白黒でのスキャンを試してみる
もしも帳票がカラーの場合は、白黒でのスキャンを試してみましょう。コントラストがあがることで、OCRの文字認識率がアップする場合があります。ただし、文字色が薄い場合は逆効果になるケースもあるのでご注意ください。
裏写りの軽減対策を行う
両面印刷されていたり、何枚かで綴られていたりする帳票をスキャンする際は、裏写りに気をつけましょう。紙が薄い場合には、裏面の文字が一緒にスキャンされてしまう可能性があります。黒いシートを当てると裏写りの軽減になります。
まとめ
OCRはさまざまな帳票を読み込めます。ただし、製品・サービスによっては必要なチューニングができないこともあります。この場合は、帳票のフォーマットを変更することで改善することもあります。
当社がご提供するPFU Smart Capture Serviceでは、プロによるチューニングが事前に施されています。さらに、「網掛け除去」や「白抜き文字反転」「印影除去」といった高度な画像処理も可能です。デフォルトの設定では十分な認識率が得られない場合は、個別のチューニングにも対応いたします。
「OCRを試したことはあるけど、精度の面で導入ができなかった」というお客様にこそ、お試しいただきたい製品です。OCRの導入を考えている企業様は、ぜひご検討ください。