2023.10.12

OCRの文字認識精度を向上させるには?【画像の作り方編】

手動によるデータ入力の時間を短縮し、入力作業の効率化が期待できるOCR(Optical Character Recognition:光学的文字認識)。しかし、「OCRを試してみたけど、認識精度が悪く導入を諦めてしまった」という方もいるのではないでしょうか。実は、OCRで使用する画像が認識精度に大きく影響することをご存じですか?

この記事では、画像を工夫してOCRの文字認識精度を向上させるポイントをご紹介します。誤認識を防ぐためにOCRソフトウェアの設定を調整したり、原稿(帳票や伝票)のフォーマットを見直したりすることでも認識精度を向上できますが、今回は、OCRに適した画像を生成するために必要なスキャナーソフトウェアの読み取り設定について紹介していきます。帳票などの原稿やOCRソフトウェアの設定のポイントについては、別の記事でご紹介しています。そちらもぜひ参考にしてみてください。

スキャナーソフトウェア、OCRソフトウェアとは

  • スキャナーソフトウェア
    スキャナーから生成される画像の品質をコントロールする「スキャナードライバ」や、スキャナードライバが生成した画像データを様々なファイル形式で出力・保存する「キャプチャリングソフトウェア」など、スキャナーと一緒に利用されるソフトウェアのことです。
  • OCRソフトウェア
    スキャナーで読み取った画像やPDFから文字列を抽出・認識し、テキストデータに変換するソフトウェアのことです。

OCRについては次の記事で詳しく説明しています。あわせてお読みください。

1. OCRに適した画像を使う

文字認識の精度を上げるには、OCRに適した画像を使うことが大切です。
OCRに適した画像を生成・利用するためのポイントを紹介します。

1-1. 鮮明な画像を生成できるスキャン専用機を使う

OCRを利用するときは、余白や傾きが発生せず、きれいな画像を生成できるスキャナーを使いましょう。人の目であれば文字が多少傾いていても正しく認識できますが、OCRの場合は文字が傾いていると誤認識が発生しやすくなります。そのため、スキャナーの中でも、画像の傾きを補正したり鮮明な画像を生成したりできる機能がついているスキャン専用機を利用するのがおすすめです。

1-2. 画像を鮮明にする

OCRの認識精度を上げるには、画像を鮮明にする必要があります。次のポイントを押さえましょう。

● 解像度を調整しよう
原稿をスキャナーで読み込む際の解像度を上げてみましょう。OCRで利用する際は、300~400dpiほどに設定するとよいでしょう。
高解像度でスキャンすることで、文字の認識率が高まります。ただし、高解像度で生成すると、その分データのサイズが大きくなるため、処理に時間がかかることがあります。すべての原稿を高解像度で読み取るのではなく、認識精度の低い原稿は解像度を高めて個別に読み取るなどして、認識結果や原稿の内容に合わせて解像度を調節することをおすすめします。
● OCRに適した画像データを使おう
OCRの種類にあわせて、適切なカラーの画像を使いましょう。
  • AI-OCRの場合は、カラー画像(24bit)を使う
    白黒二値データの場合、カスレ等で情報が欠落し、認識精度が低下してしまう可能性があるため、カラー画像(24bit)を使用することをおすすめします。また、原稿に取り消し線や押印が含まれていて、取り消し線や押印で消された文字をOCRの認識から除外したい場合は、色がついているほうが対応しやすくなります。
  • 従来型OCRの場合は、白黒二値データを使う
    従来型OCRは内部的に二値変換(画像を白と黒の2色に変換)するものが多いため、スキャナーで読み込むときから鮮明な白黒二値で生成するとよいでしょう。

    OCRの種類

    OCRには、「AI-OCR」と「従来型OCR」の2種類があります。

    • AI-OCR
      OCRにAI技術を組み合わせたもので、認識結果をAIに学習させることで認識精度を高めることができます。アップデートなどの対応により常に高精度な認識が可能で、認識が難しい手書き文字なども精度を高めることができます。
    • 従来型OCR
      AI技術を活用せずに文字を抽出・認識する技術です。AI-OCRのような学習を重ねて、認識精度を上げていくという使い方はできません。
● OCRをするなら背景色は白が基本
背景色が濃い原稿の場合、認識精度が下がる可能性があります。スキャン時の設定やスキャナーソフトウェアの機能などで、背景色や地色を変更できる場合は、白に変更しましょう。
背景色のある原稿を白の原稿に変更する画像
● 画像データを強く圧縮しないこと(JPEGデータの場合)
JPEGデータを圧縮しすぎるとモスキートノイズ(画像の輪郭に生じるノイズ)が発生するため、認識精度が低下します。ノイズが発生する圧縮率は画像によって異なるため、画像を確認しながら圧縮しすぎないようにしましょう。
通常の画像
モスキートノイズがある画像

JPEGデータを圧縮しすぎるとモスキートノイズが生じるため、画像の鮮明度が下がります。

業務用イメージスキャナー fiシリーズに標準添付されているスキャナードライバ「PaperStream IP」を活用すると、読み込む原稿にあわせた解像度やカラーの調整が可能で、その設定を保存できます。また、スキャンした画像を生成するときに背景色を白くできます。
さらに、同様に標準添付されているスキャナーソフトウェア「PaperStream Capture」では、JPEGデータのサイズを指定して保存できます。
これらの機能について詳しく知りたい方は、「fiシリーズ公式サイトのソフトウェア紹介ページ」をご確認ください。

1-3. 画像の傾きを補正する/ノイズを除去する

文字の認識精度を上げるには、傾きやノイズなどがない画像を使用することも重要です。

● 余白のない統一されたサイズで画像を生成しよう
画像の拡大縮小率や、余白の有無が統一されていないと、認識精度が下がってしまいます。スキャナーソフトウェアで、原稿のサイズを自動で検出できる機能などを利用しましょう。
● 原稿の傾きや向きを補正しよう
読み込む原稿が傾いていたり、読み込んだ原稿の文章や文字が斜めになっていたりすると、認識精度が下がってしまいます。原稿が傾いた状態で読み込まれたり、横向き原稿が縦で読み込まれたりした場合は、傾きや向きを補正してくれるスキャナーソフトウェアの機能を利用しましょう。
● 背景の地紋をクリーンに、汚れやゴミを除去しよう
住民票の写しなど、背景に地紋がある原稿は、地紋とその上に記載されている文字列が区別しづらいため、文字認識が難しくなり認識精度が下がってしまいます。地紋や汚れのある原稿は、スキャナーソフトウェアの機能で地紋の背景のみを削除したり、汚れ部分を除去したりしましょう。
背景に地紋がある原稿の画像
● 白抜き、網かけ、印影重なり文字に対応しよう
白抜き文字や背景が網かけの文字、印影が重なっている文字は認識が難しくなります。これらの文字が含まれている原稿でOCRする場合は、白抜き文字を反転したり、網かけ・印影などの背景を除去したりできるスキャナーソフトウェアを利用しましょう。
● 文字のコントラストや輪郭を強調しよう
取り込んだ画像の文字がかすれていたり輪郭が薄かったりすると、認識精度も下がってしまいます。スキャナーソフトウェアの読み込み時の設定で画像のコントラスト(明暗)を調整したり、輪郭を強調したりしましょう。
● スキャン画像の「濃度」を調整しよう
濃度が薄い画像の場合、文字が認識されにくくなります。スキャナーソフトウェアの読み込み時の設定で濃度を調整して、文字認識しやすい画像を生成しましょう。

fiシリーズに標準添付されているスキャナードライバ「PaperStream IP」を活用すると、上述のコツに対応した機能を利用できます。

  • 画像のサイズを自動で検出したり、傾きや向きを自動で補正する「インテリジェント機能」
    インテリジェント機能の画像
  • 地紋の背景のみを削除できる「地紋除去機能」、汚れ部分を除去したり、白地のスキャンデータにできる「クリーンアップ機能」
    地紋のある原稿で、一部が汚れている画像
    地紋除去機能とクリーンアップ機能で、汚れのない白地データになった画像
  • パンチ穴の部分を塗りつぶして目立たなくする「パンチ穴除去機能」
    パンチ穴除去の画像
  • 白抜き文字を反転や、網かけ・印影などの背景を除去できる「文字抽出機能」
    白抜き文字の反転の画像
    網かけ除去の画像
    印影除去の画像
  • 読み取る原稿に応じた最適な二値白黒画像を出力する独自の二値化画像処理技術(iDTC)
    二値化画像処理技術(iDTC)の画像

これらの機能について詳しく知りたい方は、「fiシリーズ公式サイトのソフトウェア紹介ページ」をご確認ください。

また、「PaperStream IP」には、OCRに最適な読み取り設定の作成をサポートしてくれる「OCR最適画質設定ツール」があります。このツールについて詳しく知りたい方は、以下の動画でご確認ください。

OCR最適画質設定ツール(再生時間4:51)

1-4. OCR向きのおすすめテクニック(おまけ)

● A4両面原稿は、A3片面原稿に合成すると便利!
A4で両面印刷されている原稿は、A3の片面原稿に合成するとスキャンデータが利用しやすくなります。PaperStream IPの「表裏合成機能」でA3原稿の画像として合成すると、OCRの認識精度に影響はありませんが、OCRの認識結果を確認するときやデータとして扱うときに以下、2つのメリットがあります。
  • ① 1枚の原稿として、表裏まとめて認識結果の確認・修正ができる
  • ② 抽出した文字列をCSVに出力するときに1行のデータとして出力できる
    表裏合成機能の画像

2. まとめ

OCRの認識精度を向上させるには、画像の鮮明度を上げて、傾きやノイズのない画像を使用しましょう。また、鮮明な画像を生成できるスキャン専用機と、文字抽出しやすくなる機能が付いているスキャナーソフトウェアを利用すると、OCRの認識精度をさらに高められます。

この記事で紹介したPaperStream IPの「地紋除去機能」、「文字抽出機能」や、業務用イメージスキャナー「fiシリーズ」の便利な機能は、動画でもわかりやすく紹介しています。次のバナーからご覧になってください。

関連記事

Top of Page