1. ホーム > 
  2. 製品 > 
  3. DynaEyeシリーズ > 
  4. DynaEye Pro > 
  5. 技術情報 > 
  6. 書式定義のヒント

書式定義のヒント

販売終了製品

帳票の認識においては、適切な書式定義ができるかどうかが非常に大きなポイントです。 ここでは、書式定義で注意すべき点や適切な例を示していますので、書式定義の際の参考にしてください。

手書きと活字

手書き文字認識は活字文字認識を包含するものではありません。 「手書き文字が読めるのだから、活字文字は当然読める」という考えは誤りです。活字文字は、手書き文字に比べて文字が小さいこと、 字形の特徴が手書き文字とは異なることから、活字文字に対して「手書き」フィールドの指定をしても実用的な認識精度を得ることはできません。 活字文字(あらかじめ帳票に印刷されている文字、プリンタで印字した文字)には、「活字」フィールドを指定してください。

なお、活字ANKS認識機能は、あらかじめOCRで読み取ることを目的として印字したコード情報のようなものを、高い精度で読み取ることを目的としており、 限定されたフォント(OCR-B、MS明朝・MSゴシック)で、限定された文字(英数字と記号8字種)しか読み取ることはできません。

ANKSカテゴリ選択と字種

各読み取り領域には、カテゴリ選択および字種限定を行うことができます。 文字認識は、できるだけ字種を絞り込んで認識した方が高い精度が得られやすくなります。
例えば、数字しか記入されない項目を、数字および英字を対象にして読み取った場合、「0(ゼロ)」と「O(オー)」、「8」と「B」のような判別し難い類似文字の組み合わせが存在するため、 数字だけを対象にして読み取る場合に比べ認識精度面で不利になります。したがって、このような場合は、読み取りカテゴリとして「数字」だけを指定してください。

カテゴリ選択

カテゴリ選択は、読み取り領域毎に設定できるため、一つの項目でも複数の読み取り領域に分割することで、認識精度の向上を図ることができます。一つのフィールドに属する読み取り領域にそれぞれ異なるカテゴリ選択を設定しても構いません。
例えば、先頭2桁が英字、残り4桁が数字から構成される6桁の商品コードを読み取るとき、6桁の英字・数字混在フィールドとするよりも、先頭2桁と残り4桁でそれぞれ読み取り領域を設定し、前者は英字単独で、後者は数字単独で読み取る方が有利です。(詳しい設定方法

ANKS字種限定

手書きANKSおよび活字ANKSのフィールドには、カテゴリ選択より更に詳細に認識対象とする字種を限定する方法として、列挙型の字種限定テキストを使うことができます。
例えば、商品コードとして使用される英字がA~Hの7文字しかないのであれば、商品コードフィールドはこの7文字に限定してしまえば、単純に「英字」としてA~Zの26文字を対象にするよりも、高い正解率が得られやすくなります。
列挙型とは、字種限定のテキストボックス内に読み取り対象とする文字種をJIS8bitコードで列挙することを指します。テキスト内の指定順序は任意です。同じ文字が重複して現れても構いません。読み取り対象外の文字が指定された場合は無視されます。
字種限定構文の記述例を下表に示します。

字種限定の記述例
字種限定テキスト 意味
0123456789(-) 数字と記号(,-,)に限定
12345ABCDE 数字1~5と英字A~Eに限定
024XYZ@ 数字0,2,4と、英字X~Zと記号@に限定

なお、この字種限定テキストはカテゴリ選択で選択された字種と論理和の関係になります。例えば、カテゴリ選択で「数字」だけをチェックして、字種限定テキストボックスに「ABC」を列挙した場合は、数字0~9と英字A,B,Cの計13文字が認識対象になります。

マークフィールドの定義

ここでは、プレ印刷された選択項目上に○やレ点などのマークを上書きするようなマークフィールドの定義について説明します。
マークフィールドで高い精度を得るには、一まとまりの項目を一つのフィールドとして定義し、記入マーク数を適切に設定する必要があります。例えば、図のような元号欄があるとき、「明治」「大正」「昭和」「平成」の四つの選択肢のそれぞれを一つのフィールドにすることもできますが、 四つの選択肢をまとめて一つのフィールドとして定義し、フィールド情報として「記入マーク数」を「1」に設定することをお勧めします。

こうすることにより、別フィールドに定義した場合は、一方からのはみ出しで両方マークされたように誤認識するような記入でも、 同一フィールドとすることによって、フィールド内でマークは1つしか記入されないという情報から、 どれがより確からしいかを判断することが可能になります。

固定ピッチとフリーピッチ

読み取り領域の属性の一つに記入ピッチがあります。 記入ピッチには、固定ピッチとフリーピッチがあります。

隣合う文字と文字との間隔が一定となるような記入方法が固定ピッチです。 一般に次図のように1文字毎に記入枠が印刷されている読み取り領域を固定ピッチと定義します。固定ピッチの場合は次図のように「フリー記入」をチェックせず、桁数として文字枠の数を指定します。

隣合う文字と文字との間隔が必ずしも均一にならない記入方法がフリーピッチです。一般に、次図のように1文字毎の記入枠が印刷されていない読み取り領域をフリーピッチと定義します。フリーピッチの場合は次図のように「フリー記入」をチェックして、桁数として記入されうる最大の文字数を指定します。

複数の読み取り領域を一つのフィールドに

図の郵便番号のような複数の読み取り領域に分れる項目を、一つのフィールドとして定義したいことがあります。この場合は、以下のように操作してください。

  1. 領域編集をONにします。
  2. 読み取り領域を作成します(ここでは、2つ)。フィールドの作成はまだ行ないません。

    手順1

  3. コントロールキーを押しながらクリックして、作成した読み取り領域をすべて選択状態にします。

    手順2

  4. フィールドの作成を行ないます(ここでは、手書きANKSフィールド)。

    手順3

  5. シフトキーを押しながら、各読み取り領域をダブルクリックして、桁数等を設定します。

    フィールド情報