1. 概要

本ソフトウェアは、画像に含まれる文字を認識してテキストファイルへ出力します。
あらかじめ座標を指定した範囲について文字を認識します。

1.1. サポートしている画像形式

サポートしている画像ファイル形式は以下の通りです。

画像 (拡張子)Windows>ファイル「プロパティ」での表示
PDF ※ 
PDF JBIG2形式
jpeg ( .jpeg, .jpg )
png ( .png )
Tiff LZW圧縮 ( .tif, .tiff )LZW
Tiff ZIP圧縮 ( .tif, .tiff )
Tiff Packbits圧縮 ( .tif, .tiff )Packbits
Tiff CCITT T6圧縮 ( .tif, .tiff )CCITT T6
Tiff CCITT T4JPEG圧縮 ( .tif, .tiff )CCITT T4
Tiff 圧縮しない ( .tif, .tiff )圧縮しない

1.1.2. サポートしていない画像形式

※PDFは中に含んでいる画像がサポートしていない形式の場合は対象外となります。

画像 (拡張子)Windows>ファイル「プロパティ」での表示
jpeg2000 ( .jp2 )
gif ( .gif )
bitmap ( .bmp )
Tiff JPEG圧縮 ( .tif, .tiff )JPEG

1.2. 使用する用語

・帳票定義

OCRをかけ、データ化されたものから、必要なデータのみを抽出するための設定です。帳票の読み取りには、必ず設定する必要があります。

・学習モデル
– 活字OCR用学習モデル

活字にOCRをかけ、データ化する際に使用するファイルです。手書き文字をデータ化することはできません。

– 手書き文字OCR用学習モデル

手書き文字にOCRをかけ、データ化する際に使用するファイルです。活字モデルと比較すると精度は劣りますが、活字文字もデータ化することが可能です。

・Enterprise版

非定型の帳票にOCRをかけ、データ化する際に適した機能です。手書き/活字の両モデルに対応しています。

・Standard版

定型の帳票のデータ化に適した機能です。手書き/活字の両モデルに対応しています。

・共通設定ファイル

OCRをかける際に、使用する設定ファイルです。フォルダパスの指定やデータ抽出のチューニングを行います。

・arex ファイル

AIRead独自の実行用ショートカットファイルです。AIRead ShortcutCreatorで作成・編集を行うことができます。

・AIRead RuleEditor

Enetrprise版の機能で帳票を読み取る際に使用する、帳票定義の作成・チューニングを行うためのGUIです。

・AIRead FormEditor

Standard版の機能で帳票を読み取る際に使用する、帳票定義の作成・チューニングを行うためのGUIです。

・AIRead SortingEditor

AIRead RuleEditor・AIRead RuleEditor で作成した定義を使用して、帳票仕分け設定の作成・帳票仕分けを行うためのGUIです。

・AIRead ControlPanel

共通設定ファイルの作成・チューニングを行うためのGUIです。ライセンスの登録・更新、ユーザ認証の設定もこちらのツールで行います。

・AIRead ShortcutCreator

arex ファイルの作成・編集を行うためのGUIです。AIRead RuleEditor・AIRead RuleEditor で作成した帳票定義、AIRead SortingEditorで作成した仕分け設定を使用します。

・AIRead Viewer

AIRead の実行結果を確認する画面です。
AIRead Ruleeditor、AIRead FormEditor、専用のbat から実行した結果の使用することができます。

・AIRead Trainstudio

活字OCR用学習モデルに機械学習を行い、読み取りの強化を行うツールです。こちらを使用することで活字読み取り時の、誤読を減らすことができます。

・AIRead TrainstudioHW

手書き文字OCR用学習モデルに機械学習を行い、読み取りの強化を行うツールです。こちらを使用することで手書き文字読み取り時の、誤読を減らすことができます。
このツールでは、手書きのmulti とついたモデルを学習することはできません。

・AIRead training_tool

手書き文字OCR用学習モデルに機械学習を行い、読み取りの強化を行うツールです。こちらを使用することで手書き文字読み取り時の、誤読を減らすことができます。
このツールは、手書きのmulti モデル専用の学習ツールです。

・AIREAD_HOME

AIRead が使用するシステム環境変数です。AIRead のインストール先が、AIREAD_HOME となります。インストール時に作成されるため、事前に設定する必要はありません。

2. 実行手順

2.1. 処理フロー

2.2. 実行方法(arexファイルを利用する場合)

AIRead独自の実行用ショートカットを使用して、OCR結果を出力します。

ShortcutCreator で作成したarex ファイルを実行することで、指定したフォルダへ画像を出力します。
以下のプログラムを起動することで、AIRead ShortcutCreator(以下ShortcutCreator)でarexファイルの作成・編集ができます。

<AIReadインストールフォルダ>/ShortcutCreator/ShortcutCreator.exe

2.2.1. arexの起動条件の設定(座標指定OCRの場合)

座標指定で帳票を読み取りたい場合に使用する起動条件です。

No.項目名説明
1読み取り方式使用する読み取り方式を指定する
座標指定の場合は、座標指定OCRを指定
2FormID帳票の読み取り時に使用するフォーマット定義を指定する
フォーマット定義の作成は、5.2. AIRead FormEditorで設定 を参照
3共通設定ファイルパス帳票の読み取り時に使用する共通設定ファイルを指定する
共通設定ファイルの詳細は、4. 共通設定 を参照
4AIRead Viewerの起動起動する:読み取り完了後にAIRead Viewerで読み取り結果を表示する
     CSVの出力は、AIRead Viewerから行うため、「読取結果出力フォルダ」は指定不可になる
起動しない:読み取り完了後に、「読取結果出力フォルダ」に指定したフォルダパスへ読み取り結果を出力する
5読取画像の格納フォルダ読み取り対象としたい画像を配置するフォルダパスを指定する
6読取結果出力フォルダ「AIRead Viewerの起動」が “起動しない” になっているときに読み取り結果を出力するフォルダパスを指定する

2.2.2. arexの起動条件の設定(ルール指定OCRの場合)

ルール指定で帳票を読み取りたい場合に使用する起動条件です。

No.項目名説明
1読み取り方式使用する読み取り方式を指定する
ルール指定の場合は、ルール指定OCRを指定
2実行内容OCRのみ:エンジンに反映済みのルールを使用して読み取りを行う
定義初期化のみ:エンジンの初期化と最新のルールをエンジンに反映する
定義初期化とOCR:定義初期化を行った後に、反映したルールを使用して読み取りを行う
ルールの作成は、5.4. AIRead RuleEditorで設定 を参照
3共通設定ファイルパス帳票の読み取り時に使用する共通設定ファイルを指定する
共通設定ファイルの詳細は、4. 共通設定 を参照
4AIRead Viewerの起動起動する:読み取り完了後にAIRead Viewerで読み取り結果を表示する
     CSVの出力は、AIRead Viewerから行うため、「読取結果出力フォルダ」は指定不可になる
起動しない:読み取り完了後に、「読取結果出力フォルダ」に指定したフォルダパスへ読み取り結果を出力する
5読取画像の格納フォルダ読み取り対象としたい画像を配置するフォルダパスを指定する
6読取結果出力フォルダ「AIRead Viewerの起動」が “起動しない” になっているときに読み取り結果を出力するフォルダパスを指定する

2.2.3. arexの起動条件の設定(仕分け付きOCRの場合)

フォーマット仕分け付で帳票読み取りを行う場合に使用する起動条件です。
仕分け付OCRについては、8. 仕分け付きOCR機能 を参照。

No.項目名説明
1読み取り方式使用する読み取り方式を指定する
仕分け付読み取りの場合は、仕分け付OCRを指定
2実行内容OCRのみ:登録済みの仕分け設定を使用して、帳票読み取りを行う
テンプレート登録のみ:テンプレート画像と仕訳け設定を最新の状態に登録する
テンプレート登録とOCR:テンプレート画像と仕分け設定の登録後、登録された仕訳設定を使用して読み取りを行う
3仕分け定義フォルダパステンプレート画像と仕分け設定が配置されている仕分け定義フォルダまでのフォルダパスを指定する
4共通設定ファイルパス帳票の読み取り時に使用する共通設定ファイルを指定する
共通設定ファイルの詳細は、4. 共通設定 を参照
5AIRead Viewerの起動起動する:読み取り完了後にAIRead Viewerで読み取り結果を表示する
     CSVの出力は、AIRead Viewerから行うため、「読取結果出力フォルダ」は指定不可になる
起動しない:読み取り完了後に、「読取結果出力フォルダ」に指定したフォルダパスへ読み取り結果を出力する
6読取画像の格納フォルダ読み取り対象としたい画像を配置するフォルダパスを指定する
7読取結果出力フォルダ「AIRead Viewerの起動」が “起動しない” になっているときに読み取り結果を出力するフォルダパスを指定する

2.2.4. arexの起動条件の設定(全文OCRの場合)

帳票定義を使用せず、帳票全体を読み取る場合に使用する起動条件です。
全文OCRについては、4.4.4. 表検出付全文OCR を参照。

No.項目名説明
1読み取り方式使用する読み取り方式を指定する
全文読み取りの場合は、全文OCRを指定
2共通設定ファイルパス帳票の読み取り時に使用する共通設定ファイルを指定する
共通設定ファイルの詳細は、4. 共通設定 を参照
3読取画像の格納フォルダ読み取り対象としたい画像を配置するフォルダパスを指定する
4読取結果出力フォルダ「AIRead Viewerの起動」が “起動しない” になっているときに読み取り結果を出力するフォルダパスを指定する

2.3. 実行方法(batファイルを利用する場合)

2.3.1. エンジンの初期化

設定した帳票定義情報をエンジンへ適用します。
帳票定義を作成・修正した場合は、必ず以下のコマンドを実行してください。
定義情報の適用は、Enterprise(キーワード読み取り)の時のみ必要です。Standard(定型読み取り)の時は不要です。

> init_kw.bat
  • init_kw.bat
"%AIREAD_JAVA%/java" -jar ./IDELibrary/lib/AIReadEEInit.jar -s [SettingFile]
  • オプション:
No.引数説明
1-s [SettingFile]共通設定ファイルを指定

2.3.2. 抽出処理の実行

コマンドを使用し、OUTPUTフォルダへOCR結果を出力します。

以下のコマンドを実行してください。

  • run.bat

run.bat は、Standard版(定型読み取り)を実行する際に使用するbatファイルです。

> run.bat
call "%AIREAD_HOME%\IDELibrary\scripts\set_envs.bat"
set MAIN_CLASS_NAME=co.jp.ariseinnovation.AIReadEE.AIReadEE
"%AIREAD_JAVA%/java" -Xmx8192m -classpath "%CLASSPATH%" %MAIN_CLASS_NAME% -s [SettingFile] -C [フォーマット定義]
  • オプション:
No.引数説明
1-s [SettingFile]共通設定ファイルを指定
2-C [フォーマット定義]FormEditor で作成したフォーマット定義を指定
3--input <フォルダパス>読み取り対象としたい画像を配置するフォルダパスを指定
引数で指定したフォルダパスは共通設定の指定よりも優先される
4--output <フォルダパス>読み取り結果を出力したいフォルダパスを指定
引数で指定したフォルダパスは共通設定の指定よりも優先される
  • run_whole.bat

run_whole.bat は、作成した帳票定義を使用せず、帳票上の文字全文を取得する場合に使用するbatファイルです。

>run_whole.bat
call "%AIREAD_HOME%\IDELibrary\scripts\set_envs.bat"
set MAIN_CLASS_NAME=co.jp.ariseinnovation.AIReadEE.AIReadEE
"%AIREAD_JAVA%/java" -Xmx8192m -classpath "%CLASSPATH%" %MAIN_CLASS_NAME% -W -s [SettingFile]
  • オプション:
No.引数説明
1-W -s [SettingFile]共通設定ファイルを指定

3. ユーザー認証機能

下記の各種GUI、実行ファイルに対して認証機能を付与し、実行ユーザーの制限を行うことができます。
認証機能を有効にするには、ユーザーが1人以上登録されている必要があります。


・AIRead実行(arexファイル)
・ControlPanel
・FormEditor
・RuleEditor
・SortingEditor
・Viewer
・ShortcutCreator
・TrainStudio
・TrainStudioHW

※TrainStudio、TrainStudioHWは別途インストールした場合にのみ、認証機能を設定することが可能です。

3.1. ロールの設定

ユーザー認証は、ロールを作成し各ユーザー毎にロールに紐づけを行います。

3.1.1. AIRead ControlPanelの起動

<AIREAD_HOME>\ControlPanel\AIReadControlPanel.exe をダブルクリック、もしくはスタートメニューのショートカットから起動
します。

ControlPanel を起動し、下記のアイコンを選択してください。

3.1.2. 認証機能の設定

ロール画面上の設定ボタンを押下すると、AIRead 全体で認証を必要とするアプリの設定を行うことができます。
チェックボックスで選択されているアプリは、起動時にユーザー認証を求められます。
ユーザー認証を省略したいアプリケーションがある場合は、チェックを外してください。
※管理者以外のユーザはロール画面は表示されません。

3.1.3. 実行権限の設定

General User(一般ユーザー)の編集ボタンを押下すると、各種アプリケーションの実行権限を付与することができます。
チェックボックスで選択されているアプリは、一般ユーザーでも実行が可能ですが、選択されていないアプリケーションは実行することが出来ません。

実行権限を持っていないユーザーが、実行権限の必要なアプリケーションを起動しようとすると、エラー画面が表示されます。

3.1.4. ユーザーの実行権限一覧

Administrator(管理者)とGeneral User(一般ユーザー)の実行権限は以下の通りです。

No.対象アプリケーションAdministrator
管理者
General User
一般ユーザー
1AIRead ControlPanel
ユーザ管理・ロール管理常に利用可能利用不可
ライセンス登録・共通設定の変更・パスワードの変更常に利用可能常に利用可能
AIReadの実行(arexファイル)常に利用可能利用可能
※制限をかけて利用不可とすることも可能
3AIRead FormEditor常に利用可能利用可能
※制限をかけて利用不可とすることも可能
4AIRead FormEditor常に利用可能利用可能
※制限をかけて利用不可とすることも可能
5AIRead SortingEditor常に利用可能利用可能
※制限をかけて利用不可とすることも可能
6AIRead Viewer常に利用可能利用可能
※制限をかけて利用不可とすることも可能
7AIRead ShortcutCreator常に利用可能利用可能
※制限をかけて利用不可とすることも可能
8AIRead TrainStudio常に利用可能利用可能
※制限をかけて利用不可とすることも可能
9AIRead TrainStudioHW常に利用可能利用可能
※制限をかけて利用不可とすることも可能

3.2. ユーザーの設定

ユーザーの設定を行う際は、ControlPanel上から下記のアイコンを選択してください。
※管理者権限を持たないユーザーで認証すると、ユーザー画面は表示されません。

3.2.1. ユーザーの追加

ユーザーを追加する場合、ユーザー画面上の追加ボタンを押下します。
※初回作成するユーザーのロールは、必ずAdministrator を選択してください。

No.内容説明
1ユーザー名認証機能使用時のユーザー名を入力する
2パスワード認証機能使用時のパスワードを入力する

※パスワードは英大文字、英小文字、数字、記号(.!/'()[]+-=$#&@~)の内2種類以上を使用し、8~32文字の範囲で設定
3パスワード再入力パスワードに入力した文字列を再入力する
4ロールユーザーに紐づけるロールを選択する
Administrator:管理者
General User:一般ユーザー
5追加入力した内容でユーザーを追加する
6キャンセル入力内容をキャンセルし、ユーザー追加画面を閉じる
3.2.2. ユーザーの管理

作成済みのユーザーの権限やパスワードを変更する場合、ユーザー毎の編集ボタンを押下する。

No.内容説明
1ユーザー名編集中のユーザー名が表示される
2パスワードを編集するユーザーのパスワードを変更する場合に選択する
3パスワードユーザーのパスワードを再設定する

※パスワードは英大文字、英小文字、数字、記号(.!/'()[]+-=$#&@~)の内2種類以上を使用し、8~32文字の範囲で設定
4パスワード再入力パスワードに入力した文字列を再入力する
5ロールユーザーに紐づけるロールを選択する
Administrator:管理者
General User:一般ユーザー
6更新入力した内容でユーザーを更新する
7キャンセル入力内容をキャンセルし、ユーザー編集画面を閉じる

3.2.3. パスワードの変更

一般ユーザーの実行権限をもつユーザーで、ControlPanel を起動するとパスワード変更ボタンが表示されます。

パスワードの変更ボタンを押下し、ポップアップしたパスワード変更画面でパスワードの変更を行ってください。
※パスワードは英大文字、英小文字、数字、記号(.!/'()[]+-=$#&@~)の内2種類以上を使用し、8~32文字の範囲で設定する必要があります。

4. 共通設定

4.1. AIRead ControlPanelで設定

以下のプログラムを起動することで、AIRead ControlPanel(以下ControlPanel)にて共通設定ファイルを編集することができます。

<AIReadインストールフォルダ>/ControlPanel/AIReadControlPanel.exe

共通設定ファイル名は以下の通りです。
 Standard (座標指定) :AIRead_setting.ini
 Enterprise(キーワード指定 / キーワード指定(手書き文字あり)):AIRead_setting_kw.ini
      (キーワード指定(表検出付き)):AIRead_setting_whole.ini

共通設定ファイルには“項目名=値”の書式で定義されます。

共通設定ファイルはUTF-8で保存する必要があります。

4.1.1. 基本設定

ファイルの入出力や抽出モードに関わる設定を行います。

No.内容項目名書式説明
1入力フォルダINPUT文字列画像を取り込むフォルダパス
2出力フォルダOUTPUT文字列OCR結果を出力するフォルダパス
3処理成功移動先MOVE_SUCCESS_DIR文字列OCR処理に成功した画像を格納するフォルダパス
4処理失敗移動先MOVE_FAILED_DIR文字列OCR処理に失敗した画像を格納するフォルダパス
5複数ページの帳票ファイルを1つの帳票として処理するFILE_IDENFICATION_TYPE0, 1帳票を識別する単位
・チェックなし(0):ページ単位で帳票を識別して処理する
・チェックあり(1):1ページ目で帳票を識別し、1ファイルすべてのページを1つの帳票として処理する
CORRECT_MOVED_FILE がtrueかつ、MOVED_FILE_FORMAT の出力形式がJPEGのとき、複数のJPEGを出力する
6OCR成功時に傾きを補正した画像を出力するCORRECT_MOVED_FILEtrue, falseチェック(true)の時、OCR成功時に成功フォルダ(MOVE_SUCCESS_DIR)に移動する画像を天地・傾き補正後画像にする
(位置合わせ補正は行われない)
7補正した画像の形式MOVED_FILE_FORMATPDF, JPEGCORRECT_MOVED_FILE が true の時に出力する画像のフォーマットを指定する
(デフォルト JPEG)
<以下はEnterpriseのみ>
「複数ページの帳票ファイルを1つの帳票として処理する」を指定している場合は常にPDF出力となる
8アウトプットヘッダ情報の指定HEADER_ITEM文字列アウトプットファイルへ出力するヘッダ情報の項目とその順番を指定可能
※各項目の説明は6.1 共通を参照
9出力フォーマットOUTPUT_FORMATCSV
XML
CSV4DB
XMLWAGBY
SIMPLE_CSV SIMPLE_SEPARATE_CSV
SIMPLE_TXT SIMPLE_SEPARATE_TXT
OCR読取結果の出力形式を選択する
<Standard/Enterprise共通>
・CSV
・XML
<Standardのみ>
・CSV4DB(DB連携のしやすいCSVフォーマット)
・XMLWAGBY(Wagbyフォーマット)
<Standard全文OCRのみ>
・SIMPLE_CSV (画像の見た目に近い出力)
・SIMPLE_SEPARATE_CSV (画像の見た目に近い出力、表ごとに1つのCSVを出力)
・SIMPLE_TXT (SIMPLE_CSVのタブ区切りになったもの)
・SIMPLE_SEPARATE_TXT (SIMPLE_SEPARATE_CSVのタブ区切りになったもの)
※SIMPLE_CSV(TXT)・SIMPLE_SEPARATE_CSV(TXT)については4.4.4 表検出付全文OCRを参照
10出力文字コードOUTPUT_ENCODINGUTF-8
Shift_JIS
EUC-JP
UTF-8with BOM
出力ファイルの文字コードを選択する
(出力フォーマットがCSV、CSV4DBの場合)
11CSV出力時の出力項目の指定CSV_COLUMN_ITEM文字列CSVへ出力する項目とその順番を指定可能。 ※各出力項目の説明は6.2 CSVを参照
12活字用OCRモデルOCR_LANG文字列活字OCRエンジンで利用するモデル名
OCRモデルフォルダに存在するファイルの拡張子”.traineddata”を除外したファイル名を指定する
例)Japanese.traineddata → Japanese
13優先モデルフォルダPRIORITY_MODEL_PATH文字列優先モデルフォルダとして指定するフォルダパス
※モデルは下記のフォルダ構成で配置すること※
 [優先モデルフォルダ]\tessdata\[任意のモデル]
指定したフォルダ内のモデルを優先して使用し、指定されたモデルが存在しない場合、共通のモデルフォルダから使用する
個別設定と組み合わせることで、帳票ごとに優先モデルと共通モデルの使い分けができる
14デバッグファイルを出力するIS_DEBUGtrue, falseチェック(true)の時、DEBUG_PATHで設定されたフォルダへデバッグ情報を出力する
15デバッグ出力先DEBUG_PATH文字列デバッグファイルを出力するフォルダパス
16出力ファイル名にタイムスタンプを付与するMOVED_FILE_NAME0,1チェック(1)の時、抽出処理完了後の出力ファイル名にタイムスタンプを付与する
17抽出モードの設定COMPONENT_LEVELMANUAL
ITEM
CELL
HW_ITEM
抽出モードを選択する
・MANUAL : 座標指定
・ITEM : キーワード指定
・CELL : キーワード指定(表検出付き)
・HW_ITEM: キーワード指定(手書き文字あり)
※全文OCR時はキーワード指定・キーワード指定(表検出付き)を選択
※キーワード指定(表検出付き)の詳細については4.4.4 表検出付全文OCRを参照
※キーワード指定(手書き文字あり)を指定する場合は、all_model が必須
オンプレミスインストールマニュアルを参照
18セル内の改行に付与する文字LINE_SEPARATERSPACE
LF
NONE
<キーワード指定(表検出付き)のみ>
認識されたセル中の文字列が改行されていた場合、行間に付与する文字を指定する
改行コードを指定した場合、LF(\n)が付与される
19活字項目画像を出力するCREATE_PR_COMP_IMAGEtrue, falseチェック(true)の時、活字として読み取った範囲の切取画像を出力する
(デフォルト false)
20活字画像の出力先PR_CUT_IMAGE_DIR文字列活字項目画像を出力するフォルダパス
21表示用画像(PDF)を生成するCREATE_DISPLAY_IMAGEtrue, falseチェック(true)の時、データサイズを減らしたPDFを生成する
天地補正・傾き補正後(位置合わせ無し)の画像がPDFに埋め込まれる
入力ファイルが複数ページの場合、FILE_IDENFICATION_TYPEに関係なく複数ページのPDFを生成する
22表示用画像の出力フォルダDISPLAY_IMAGE_DIR文字列生成した表示用PDFを出力するフォルダパス
(デフォルト:指定なし、表示用画像(PDF)を生成する が有効のとき指定必須)
23表示用画像の品質DISPLAY_IMAGE_QUALITY1~100生成する表示用PDFの品質を指定する
指定した値が低いほど画像品質は下がるが、データサイズも小さくなる
(デフォルト 65)
24保管用画像を生成するCREATE_PRESERVATION_IMAGEtrue, falseチェック(true)の時、電子帳票保存法向けに保管用の画像を生成する
25保管用画像出力フォルダPRESERVATION_IMAGE_DIR文字列生成した電子帳票保存法向けの保管用画像を出力するフォルダパス
(デフォルト:指定なし、保管用画像を生成する が有効のとき指定必須)

「<」「>」「*」「?」「”」「|」「半角スペース」は使用不可
使用されていた場合は、自動的に除去される
任意の文字列以外に以下のタグも使用可能
<date>:システム日付(年月日の数字8桁 yyyymmdd)
<time>:システム時間(時間秒ミリ秒の数字11桁 hhmmssfffff)
<year>:システム日付(西暦の数字4桁 yyyy)
<month>:システム日付(月の数字2桁 mm)
<day>:システム日付(日付の数字2桁 dd)
26保管用画像のファイル名PRESERVATION_IMAGE_NAME文字列生成される電子帳票保存法向けの保管用画像のファイル名を指定する

「<」「>」「¥」「/」「:」「*」「?」「”」「|」「半角スペース」は使用不可
任意の文字列以外に以下のタグも使用可能
<date>:システム日付(年月日の数字8桁 yyyymmdd)
<time>:システム時間(時間秒ミリ秒の数字11桁 hhmmssfffff)
<year>:システム日付(西暦の数字4桁 yyyy)
<month>:システム日付(月の数字2桁 mm)
<day>:システム日付(日付の数字2桁 dd)
<inputfile>:読み取った対象のファイルから拡張子を除いた文字列
<item:項目名>:読み取りを行った際に、使用された帳票定義で指定されている項目名
(例えば、帳票定義で company_name と定義し、OCRにより実際の帳票から「アライズイノベーション株式会社」という文字列が取得されたとする。
この場合、保管用画像のファイル名の <item:company_name> の部分が「アライズイノベーション株式会社」に置換される)

4.1.2. モード別設定

モード別(座標指定、キーワード指定)のパラメータを設定します。

4.1.2.1. 座標指定モード

<Standardのみ>
座標指定OCRを実行時の設定はこちらで行います。

No.内容項目名書式説明
1フォーマットフォルダPROFILE_CONFIG_DIR文字列<Standardのみ>
フォーマット定義フォルダのパス
2手書き用OCRモデルHAND_WRITE_OCR_LANG文字列指定された手書きモデルが存在しないときに使用するモデル名
“OCR_MODEL_PATH/tessdata/”以下に存在するフォルダ名
例)jpn
3改善した手書きの文字切り取りロジックを使用するUSE_SEGMENT_MODELtrue, falseフリーピッチで複数行の手書き文字を読み取る場合はチェック(true)する
※処理時間がチェックをしない場合と比べて1.5~2.5倍ほど増加する
4OCR結果にスペースを含めるEXPORT_SPACEtrue, falseチェック(true)の時、OCR結果にスペースを含める
(活字読み取り時のみ)
5手書き画像の出力先HW_CUT_IMAGE_DIR文字列手書き項目/文字画像を出力するフォルダパス
6手書き項目画像を出力するCREATE_HW_COMP_IMAGEtrue, falseチェック(true)の時、手書きで座標指定した範囲の切取画像を出力する
7手書き文字画像を出力するCREATE_HW_CHAR_IMAGEtrue, falseチェック(true)の時、手書きで座標指定した範囲内の文字単位の切取画像を出力する
8文字を置換する信頼度(手書き)HW_REPLACE_THRESH0~100手書きの項目が指定された閾値未満の信頼度の時、任意の文字に変換する
9置換後の文字HW_REPLACE_CHAR文字列No. 8(HW_REPLACE_THRESH)で変換する文字(1文字)
10位置合わせ最大矩形の認識マージンFORMAT_MARGIN0以上位置合わせ時に大きな矩形を認識しない画像端(上下左右)からの範囲を指定する
単位はピクセル
(デフォルト 15)
11位置合わせ外接矩形の認識マージンFIX_TEXT_HEIGHT0以上位置合わせ時に外接矩形を認識しない画像端(上下左右)からの範囲を指定する
単位はピクセル
(デフォルト 100)
12活字のノイズ閾値PRINT_NOISE_FILTERS-1~100活字の認識で、項目中の最大文字高さに対して指定された閾値以下の文字をノイズとして除去する
例)
30 を指定 → 読み取り範囲内の最大文字に対し30%以下の高さの文字をノイズとみなして除去する
(デフォルト -1:本機能は動作しない)
※小さい文字や記号がノイズとして削除される可能性有り
13手書きノイズの閾値 (文字の高さ、複数文字指定時)HW_NOISE_FILTERS文字列手書き文字の認識で指定したモデルについて、項目中の最大文字高さに対して任意の割合以下の文字をノイズとして除去する
手書き文字の文字数を「複数」で設定した項目を対象とする
[モデル名]:[閾値(%)]の形式で記載する
カンマ区切りで複数指定可能
例) number:25,money:30
→ 数値モデルは25%、通貨モデルは30%の高さの文字をノイズとみなして除去する
※小さい文字や記号がノイズとして削除される可能性があります
14手書きノイズの閾値 (白画素の割合、1文字指定時)HW_WHITE_THRESHOLD0~1.0手書き項目に1文字指定をしているとき、 その項目画像を読取対象外(ノイズ)と判断する白ピクセルの割合と判断する閾値を指定する
例)
 0.99 を指定 → 手書き項目が1文字指定のとき、項目内の白ピクセルの割合が99%以上であれば、項目内の記載をノイズと判断して除去する
(デフォルト 0.975)
15改行を出力するRECOGNIZE_NEWLINEtrue,
false
チェック(true)の時、読み取り項目内の改行を認識して\nとして出力する
4.1.2.2. キーワード指定モード

<Enterpriseのみ>
キーワード指定実行時の設定はこちらで行います。

<Standard/Enterprise共通>
全文OCRを実行時の一部の設定もこちらで行います。

No.内容項目名書式説明
1帳票定義フォルダPROFILE_KWCONFIG_DIR文字列帳票定義フォルダのファイルパス
2辞書データフォルダIDE_DIR文字列IDELibraryフォルダのパス
“?”区切りで文書種別を指定可能
※「帳票識別(DEFAULT_PROFILE_MODE)」が 1 or 2 の場合に有効
例)
./IDELibrary/dicset/?Invoice
3OCRを行う最大ページ数PROC_MAX_PAGE0以上の整数OCRを実行する最大ページ枚数
例)
MAX_PAGE=1 → 2ページ目以降は無視する
0の場合は全ページが対象
4テキスト付きPDFでもOCRを実行するOCR_PDF_WITH_TEXTtrue, falseチェックあり(true):テキスト付きPDFの場合でもOCRを実行する

チェックなし(false):PDFのテキスト情報を使用して抽出する
5テキスト付PDFの文字高さ情報にフォント高さを使用するUSE_PDF_TEXT_FONT_HEIGHTtrue, falseチェックあり(true):セル内にあるテキスト情報が複数ある場合、結合して出力されるよう補正する

チェックなし(false):従来のテキスト分割で出力する
6抽出結果が0件のとき空のメタデータを出力するLAYOUT_TYPE0, 10:空のメタデータは出力しない
1:空のメタデータを出力する
※明細は空の場合出力しない
7改善した文字列検知ロジックを使用するUSE_DL_STRING_DETECTIONtrue, false<キーワード指定、キーワード指定(表検出付き)のみ指定>
チェック(true)の時、従来のOCRよりも文字列検知の改善した処理を行う
※メモリの使用量が約500MB程度増加し、処理時間がA4画像1枚当たり5秒/枚ほど増加する
※文字列検知の処理が従来のものと変更となるため、読み取り結果に影響する可能性有り
8行間隔が狭い文字列の精度改善STRING_DETECTION_SPLIT_LARGE_RECTANGLEtrue, falseチェックあり(true):行間隔の狭い文字列に対して、改善した文字検知を行う

チェックなし(false):従来の文字検知のまま処理を行う
9OCR結果から除外する文字リストBLACK_LIST_EXT文字列抽出処理時にキーワードおよび抽出する値から除外する文字を指定する
10帳票識別の動作DEFAULT_PROFILE_MODE0~2帳票識別の動作を指定する
0:帳票識別に失敗したらfalse
1:帳票識別に失敗したら、指定した文書種別定義で抽出
2:指定した文書種別定義で抽出(帳票識別なし)
例)
IDE_DIRへ”?”区切りで記載する
例)IDE_DIR=./dicset/?invoice
11文字種別指定したい文字種別定義名文字列帳票種別の動作が、1もしくは2のときのみ設定可能
指定したい文字種別定義を指定する
121つの文字列とみなす文字間隔(高さのN倍)LINKED_ITEM_THRESHOLD数値1つの文字列とみなす文字の間隔を設定
値は文字の大きさ(高さ)に対する倍率
13改善したスペース検出ロジックを使用するSPACE_MODE0,10:スペース検知の改善した検出を行う
1:従来のスペース認識機能を使用する
14画像の解像度が大きい場合に小さくするREDUCE_IMAGE_BEFORE_OCRtrue, falseチェックあり(true):画像の解像度が大きいとき(長辺が5000ピクセル以上)解像度を小さくしてからOCRを行う

チェックなし(false):解像度を変えずそのままOCRを行う

4.1.3. 画像処理

文字認識の前に実施する画像処理関連の設定を変更します。

No.内容項目名書式説明
1傾き補正を行うIS_SLOPE_CORRECTIONtrue, falseチェック(true)の時、文字認識前に傾き補正を行う(35度まで)
2回転補正を行うAUTO_ROTATIONtrue, falseチェック(true)の時、文字認識前に90/180/270度の画像回転補正を行う
3直線除去を行う最短の長さLINE_REMOVAL_THRESHOLD0以上の整数直線とみなす長さのしきい値(ピクセル)
0の場合、文字の大きさから自動で設定する
4直線除去時の文字高さに対する倍率LINE_REMOVAL_MULTIPLE_BY_TEXT_HEGHT0.1以上の数値指定した値×文字高さの平均(ピクセル)が直線除去の対象となる
直線除去を行う最短の長さ の値が0の場合にのみ動作する
5点線除去を行う最短の長さHOUGH_THRESHOLD0以上の整数点線とみなす長さのしきい値(ピクセル)
6罫線除去で欠けてしまった文字の復元処理を行うRESTORE_TEXTtrue, falseチェック(true)の時、罫線除去時に欠けてしまう罫線と隣接した文字を復元する
※必ず復元できるわけではない
※副作用として文字にノイズがつく場合がある
7二値化の閾値THRESH_VALUE0~255文字認識前の画像の二値化(白黒化)のしきい値
0の場合、画像全体のヒストグラムから自動で設定する
詳細は4.4.1. 二値化の閾値を参照
8直線除去時の二値化の閾値BINTHRESH_ON_LINE_REMOVAL0~255直線除去時の二値化パラメータのしきい値
0の場合、画像全体のヒストグラムから自動で設定する
9短い罫線(横)除去の閾値SHORT_LINE_THRESH_H-1以上長い罫線に接している短い罫線(横)を検知・除去する閾値
罫線の長さ(ピクセル)を指定する
-1 : 除去を行わない
0 : 除去を行わない(-1と同じ)
1以上 : この値を直線検知の閾値とする
10短い罫線(縦)除去の閾値SHORT_LINE_THRESH_V-1以上長い罫線に接している短い罫線(縦)を検知・除去する閾値
罫線の長さ(ピクセル)を指定する
-1 : 除去を行わない
0 : 除去を行わない(-1と同じ)
1以上 : この値を直線検知の閾値とする
11短い点線も除去するUSE_SHORT_DOTLINE_REMOVALtrue, falseチェック(true)の時、短い罫線除去時に点線も除去対象とする
※処理時間がA4画像1枚当たり2秒ほど増加する
※文字が除去される副作用が発生する可能性がある
12細かいノイズ除去の閾値(幅)THIN_LINE_REMOVAL_THRESHOLD_W0以上指定した幅(ピクセル)より細かいノイズを除去する
値が大きいほど大きなサイズのノイズを除去する
(デフォルト 0、推奨値 3)
詳細は4.4.2. 細かいノイズ除去を参照
13細かいノイズ除去の閾値(高さ)THIN_LINE_REMOVAL_THRESHOLD_H0以上指定した高さ(ピクセル)より細かいノイズを除去する
値が大きいほど大きなサイズのノイズを除去する
(デフォルト 0、推奨値 3)
詳細は4.4.2. 細かいノイズ除去を参照
14細かいノイズ除去の縮小フィルタ(幅)ERODE_THIN_LINE_W1以上細かいノイズ除去の収縮処理のフィルターサイズ(幅)
値が大きいとより独立したノイズのみ除去する
(デフォルト 12)
詳細は4.4.2. 細かいノイズ除去を参照
15細かいノイズ除去の縮小フィルタ(高さ)ERODE_THIN_LINE_H1以上細かいノイズ除去の収縮処理のフィルターサイズ(高さ)
値が大きいとより独立したノイズのみ除去する
(デフォルト 7)
詳細は4.4.2. 細かいノイズ除去を参照
16TIFFを300DPIに変換してからOCRを実行するCONV_TIFF_DPItrue, falseチェック(true)の時、TIFFを300DPIに変換してからOCRを実行する
TIFFで縦横のDPIが異なる場合に指定する
17抽出する色EXTRACTION_COLORS文字列抽出する色を指定する(指定した色以外を除去する)
複数色を指定する場合はカンマ区切りで記載する
例) EXTRACTION_COLORS=K,R
指定可能な色
・K(黒)
・R(赤)
・Y(黄)
・G(緑)
・C(シアン)
・B(青)
・P(紫)
個別で指定する場合は、直接数値を指定
詳細は4.4.5. 色の抽出・除去を参照
18除去する色REMOVAL_COLORS文字列除去する色を指定する
指定方法は色抽出(EXTRACTION_COLORS)と同様
抽出する色と両方指定した場合は抽出を優先する
詳細は4.4.5. 色の抽出・除去を参照
19色抽出・除去を罫線除去の前に行うFILTER_COLOR_BEFORE_LINEREMOVALtrue, falseチェック(true)の時、罫線除去の前に色抽出・除去を行う
20罫線を延長する長さLINE_EXTENSION_LEN0以上検知した罫線を延長する
単位はピクセル
(デフォルト 0)
21矩形の丸い角を除去する閾値ROUNDED_CORNER_THRESHOLD0~100半径が指定した値未満の丸い角を除去する
単位はピクセル
0の場合は除去されない
(デフォルト 0)
詳細は4.4.3. 丸い角の除去を参照
22丸い角の除去範囲を拡張する長さROUNDED_CORNER_PADDING0~100丸い角を除去する際に、指定した値分の除去範囲を拡大する
単位はピクセル
(デフォルト 10)
詳細は4.4.3. 丸い角の除去を参照
23ドット背景除去を行うREMOVE_DOTTED_BACKGROUNDtrue, falseチェック(true)の時、ドット背景除去を行う
24ドットサイズDOT_SIZE_THRESHOLD1~10ドット背景除去時の削除するドットのピクセルサイズを指定する
縦横が指定したピクセル以下のものを削除する
(デフォルト 4)
25小さい矩形を削除REMOVE_SMALL_RECTANGLEStrue, falseチェック(true)の時、小さい矩形の除去を行う
26除去する矩形の最小面積REMOVE_RECTANGLE_MIN_AREA_
THRESHOLD
0以上の整数小さい矩形を削除除去する」がチェック(true)の時に除去する矩形の最小面積を指定する
27除去する矩形の最大面積REMOVE_RECTANGLE_MAX_AREA_
THRESHOLD
0以上の整数小さい矩形を削除除去する」がチェック(true)の時に除去する矩形の最大面積を指定する
28斜め線を除去REMOVE_DIAGONAL_LINEStrue, falseチェック(true)の時、矩形内の斜めの線を除去する

28~31のパラメータは普段は折り畳まれておりますが、全て表示を押下することで表示されるようになります。
※パラメータ増加に伴い、使用頻度の低いパラメータがデフォルトで非表示になっています。

No.内容項目名書式説明
28ノイズ除去を行う DE_NOISEtrue, falseノイズ除去処理の有無
チェック(true)の時、文字認識前にノイズ除去を行う
29罫線除去を無効化するSKIP_LINE_REMOVEtrue, falseチェック(true)の時、文字認識前の罫線除去を無効化する(罫線除去は行わない)
30白黒反転処理を実施する黒の比率BLACK_WHITE_THRESHOLD0~100二値化後に白黒を反転するしきい値(%)
設定した%より黒の割合が多い場合に白黒を反転する
31シャープ補正値SHARPEN_VALUE0以上の少数OCR実行前に画像をシャープ化する
画像がぼやけている場合などに利用すると効果的
0の場合は処理しない

4.1.4. 後処理設定

読み取り完了後に行う処理全般を設定します。
作成された個別読取結果変換リストと読み取り項目との紐づけは、RuleEditor/FormEditor から行います。

No.項目名説明
1個別読取結果変換リストの保存先個別読取結果変換設定ファイルの保存先を指定する
デフォルトは、<AIREAD_HOME>\IDELibrary\OcrPostProcess
2変換リスト名選択中の個別読取結果変換設定ファイルが表示される
個別読取結果変換設定ファイルを追加する場合は、変換リスト名に入力した名前で追加される
3変換リスト名一覧作成済みの個別読取結果変換設定ファイルの一覧が表示される
4変換設定追加ボタン変換リストに入力した名称で個別読取結果変換設定ファイルを追加する
選択中の設定ファイル保存先に、同一の設定名の個別読取結果変換設定ファイルが存在する場合は追加不可
5変換設定削除ボタン選択中の個別読取結果変換設定ファイルを削除する
6変換リスト選択中の後個別読取結果変換設定ファイルの設定情報を表示する
7読取後に実行するコマンドライン文字列帳票の読み取り後に実行するコマンドライン文字列を設定する
4.1.4.1. 変換リストの設定
No.項目名説明
1変換対象(正規表現)変換対象の文字を指定する
変換対象の文字は正規表現で記載する
2変換後の文字変換対象の文字から変換する文字を指定する
変換後の文字は単語でも指定可能
4.1.4.2. 読取後に実行するコマンドライン文字列の設定

AIReadで帳票読み取りを行った後に、呼び出したいコマンドライン文字列を設定します。

例) 保管用画像を任意のフォルダへコピーするコマンド

copy /y “%AIREAD_PRESERVATION_FILE%” “任意のフォルダパス”

コマンドラインでは、AIRead独自の変数を使用することができます。
使用可能な変数と値については、下記を参照ください。

No.環境変数名内容呼び出されるパスの例
1AIREAD_ORIG_INPUT_FILEオリジナルの読取対象ファイルまでのフルパスC:\AIRead\debug\original\sample.pdf
2AIREAD_PRESERVATION_FILE保存用画像のファイルまでのフルパス
※基本設定タブで「保管用画像を生成する」が有効となっていることが前提
無効になっている場合は空文字列(“”)が設定される
C:\AIRead\preseve\20230320123456_アライズイノベーション_物品仕入れ_sample.pdf

4.1.5. 文字認識調整

文字認識に関する設定を変更します。

No.内容項目名書式説明
1文字列の切取ロジックPAGE_SEG_MODE4, 6OCRエンジンの活字文字検知/分割アルゴリズムを指定する
・4 : 1行内の文字サイズが可変とみなして文字を検知
・6 : 1行内の文字サイズが固定とみなして文字を検知
2文字の多重認識を減らす処理を行うuse_dup_char_reducertrue, false複数の同じ文字が連続で出力されてしまうとき、本設定を有効にすることで回避できる(活字のみ)
※文字間が近い場合、複数文字を1文字として出力してしまう副作用が起きる可能性がある
・チェックする(true) : 機能を有効にする
・チェックしない(false) : 機能を無効にする
3対象文字種reduce_target0~4「文字の多重認識を減らす処理を行う(use_dup_char_reducer)」の対象となる文字種を指定する
・0 : 数字
・1 : 記号
・2 : ひらがな
・3 : カタカナ
・4 : アルファベット
 カンマ区切りで複数指定可能
4再読み込みの閾値RESCAN_THRESHOLD0~100指定した値よりもコンポーネントのConf値が閾値より低い場合に読み直す(活字のみ)
※コンポーネント内の文字のConf値の平均値

4.1.6. ログ出力

ログ出力に関する設定を変更します。

No.内容項目名書式説明
1ログ出力フォルダLOGS_PATH文字列実行ログを出力するフォルダパス
2ログ出力レベルLOGS_LEVEL0~3指定したレベルで以下の内容を出力する
・0 : DEBUG, INFO, WARNING, ERROR
・1 : INFO, WARNING, ERROR
・2 : WARNING, ERROR
・3 : ERROR
3ログ1ファイルあたりの
データサイズ
LOG_ROTATION_SIZE0~100ログ1ファイルあたりの最大サイズ(MB)
0 の場合、プロセス単位でログを出力する
4ログ全体のデータサイズLOG_MAX_SIZE0以上の整数ログファイルを保存する最大容量(MB)
0 の場合、制限なし(削除しない)
※LOG_ROTATION_SIZEより大きい値を設定すること

4.1.7.学習

教師データを作成するための設定を行います。

No.内容項目名書式説明
1教師データを作成するLEARNING_MODE1, 0学習のための教師データを作成する
・チェックする(1) : 機能を有効にする
・チェックしない(0) : 機能を無効にする
2教師データ作成フォルダAUTO_LEARNING_DIR文字列教師データを作成するフォルダ
を指定する
3学習するモデルの名称AUTO_LEARNING_MODEL文字列学習するモデル名を指定する
学習可能モデル(multi_number、multi_numeric、multi_katakana)が指定可能

4.1.8. ファイル

共通設定ファイルファイルの新規作成、保存の操作ができます。

No.項目名説明
1新規新規で共通設定ファイルを作成する
2開く共通設定ファイルを指定して開く
3上書き保存編集中の設定を上書き保存する
4名前を付けて保存編集中の設定を別ファイルとして保存する
5履歴過去に保存した共通設定ファイルの履歴を表示する
選択することで対象ファイルを編集できる

4.2. 共通設定ファイルでのみ指定できる項目

No.項目名書式説明
1AUTO_CROPStrue, falsetrueの場合、周囲の余白を削除する
2OCR_MODEL_PATH文字列OCRエンジンで利用するモデルのフォルダパス(tessdataが存在するフォルダ)
3OCR_MODE1OCRエンジンのOCRアルゴリズムを指定する

4.3. 項目/文字切り取り画像の出力

手書き項目画像を出力する機能が有効(CREATE_HW_COMP_IMAGE=true)、もしくは手書き文字画像を出力する機能が有効(CREATE_HW_CHAR_IMAGE=true)の際は、手書き画像の出力先(HW_CUT_IMAGE_DIR)の指定されたディレクトリにそれぞれの手書き画像を出力します。

?指定した出力先(HW_CUT_IMAGE_DIR)
├ ─ ─ ?char(手書きのみ)
│          ├ ? FileA.jpg_0_0.jpg
│          ├ ? FileA.jpg_0_1.jpg
│          ├ ? FileA.jpg_0_2.jpg
│          ├           ⁝
│          └ ? FileA.jpg_3_7.jpg

└ ─ ─ ?component(活字・手書き)
            ├ ? FileA.jpg_0.jpg
            ├ ? FileA.jpg_1.jpg
            ├ ? FileA.jpg_2.jpg
            └ ? FileA.jpg_3.jpg

項目(component)画像の数字は、同一入力ファイル中の連番です。
文字(char)画像の数字は、ファイル名で紐づく、項目画像ごとの連番です。

4.4. ユースケース

4.4.1. 二値化の閾値

OCRは画像を白と黒だけに変換(二値化)した状態で行います。各ピクセルの明るさ(黒0~255白)に対して、黒と白の境界とする値が二値化の閾値です。閾値は0~255を設定します。
二値化の閾値が低いと元の画像で濃い色のみが二値化で黒くなり、高いと薄い色でも黒くなります。
また、閾値を0とした場合は画像全体の明るさを基に自動で閾値を判定します。それによって目的の文字が消えてしまうなどあった場合は閾値を直接調整してください。

二値化の閾値の設定によって、下記画像のように変化します。

4.4.2. 細かいノイズ除去

細かいノイズ除去の閾値では、除去対象とするノイズの幅・高さを指定します。
どちらかのパラメータの対象となる場合は除去対象となります。

ControlPanel項目名共通設定ファイル項目名推奨値
細かいノイズ除去の閾値(幅)THIN_LINE_REMOVAL_THRESHOLD_W3
細かいノイズ除去の閾値(高さ)THIN_LINE_REMOVAL_THRESHOLD_H3

細かいノイズ除去の縮小フィルタは、近隣の文字・ノイズを結合して除去対象となるのを防ぎます。
結合する文字・ノイズ間の距離(ピクセル)を指定します。

ControlPanel項目名共通設定ファイル項目名推奨値
細かいノイズ除去の縮小フィルタ(幅)ERODE_THIN_LINE_W12
細かいノイズ除去の縮小フィルタ(高さ)ERODE_THIN_LINE_H7

4.4.3. 丸い角の除去

帳票によっては丸い角の矩形が存在し、直線除去では角が残ってしまい誤読の原因となる場合があります。
そういった場合に、下記のパラメータを設定することで丸い角の除去を行います。

ControlPanel項目名共通設定ファイル項目名推奨値
矩形の丸い角を除去するROUNDED_CORNER_THRESHOLD30
丸い角の除去範囲を拡張する長さROUNDED_CORNER_PADDING10

4.4.4. 表検出付全文OCR

コントロールパネルの抽出モードの設定で「キーワード指定(表検出付)」を指定した状態で全文OCRを実行すると、認識した罫線を基に表を検出し、表の各セルに対してOCRを行います。
この際、表の各セルのOCR結果は表の行・列の形に再現可能な情報が付与され構造化されます。ETL等で後続処理に表の情報を渡したい場合などにご利用ください。

なお、構造化情報の利用に応じて出力形式を選択可能です。
・付与された構造化情報含め出力したい場合: CSV形式
・構造化した表の形で出力したい場合: SIMPLE_CSV / SIMPLE_SEPARATE_CSV形式
 ※v2.3.1からタブ区切りのSIMPLE_TXT / SIMPLE_SEPARATE_TXT形式も追加されました

 ※表が段組みになっている場合には正しく構造化されません。
  行と列が揃っている表にのみ有効です。

4.4.5. 色の抽出・除去

帳票上の印影や背景の色がOCRに影響し、正しく読み取りを行えない場合があります。
OCRを行う前に、必要な文字の色のみ抽出、もしくは余計な色の除去を行って調整します。
色の指定はHSV色空間で範囲指定します。

4.4.5.1. HSV色空間について
要素指定範囲説明
H色相0~179具体的な色を定義する要素
色が環状で表現するため、0°と179°で同じ色となる
S彩度0~255色相で定義された色の鮮やかさ・濃さを表す要素
彩度が255で最も鮮やかとなり、減少に合わせて色が薄くなり、0で灰色になる
V明度0~255色相で定義された色の明るさ・暗さを表す要素
明度が255で最も明るく(白)、明度の減少に合わせて暗くなり、0で黒になる
4.4.5.2. 色の指定方法(GUI)
No.項目名説明
1指定した色カラーパレット、もしくはスポイトで対象とした色が表示される
2色の選択ボタンカラーパレットを開き、対象とする色を指定する
3スポイトボタンスポイト画面を開き、クリックした場所の色を抽出して対象とする
4色相対象とした色の色相の表示、または色相を直接入力する
5彩度対象とした色の彩度の表示、または彩度を直接入力する
6明度対象とした色の明度の表示、または明度を直接入力する
7±(指定幅)対象とした色の色相、彩度、明度に対して、指定した数値分の幅を上下に持たせる
指定された数値分の幅は、from-to の範囲となる
8色の対象範囲(from)対象とした色から±で指定した数値分をマイナスして表示する
9色の対象範囲(to)対象とした色から±で指定した数値分をプラスして表示する
10確定ボタン指定した色の範囲をAIRead ContorlPanel に反映させる
11キャンセルボタン編集内容を反映させずに、AIRead ContorlPanel へ戻る

例)赤い色の範囲を指定する場合(GUI)

対象の色の値に対して幅を持たせることで、近い色も対象とすることができます。

4.4.5.3. 色の指定方法(テキスト)

テキストで設定を行う場合、対象としたい色の色相、彩度、明度の順で”:”(コロン)で区切り、色の指定を行います。
色相が0°、彩度、明度が200を指定する際は、下記の指定となります。

0 : 200 : 200 – 0 : 200 : 200

色相に前後の幅を持たせ、さらに明るい色も対象としたい場合は、下記のような指定を行います。

-15 : 200 : 200 – 15 : 200 : 255
色相(-15 – 15)明度(200 – 255)
0から±15の値明度200より明るい色を取得するため、55プラスした値

※彩度を変更しない場合は、同じ値とします。

例)赤い色の範囲を指定する場合(テキスト)
純粋な赤色は、下記のように表現できます。

純粋な赤色の表現

0 : 255 : 255

実際は印刷等の条件により赤色の色合いは異なるため、範囲に幅を持たせることで色を対象とすることが可能です。
例)赤色を含むピンクからオレンジ色の範囲

-10:180:250-10:220:255

※色相 -10 は 170 と同義

5. 帳票定義

読取位置、活字or手書き、項目名などを定義します。

5.1. 帳票定義フォルダの構成

帳票定義フォルダは以下の構成にする必要があります。

?AIRead_conf                                   ---------(フォーマット定義フォルダ)
└?[フォーマットID]
├?AIRead_format.ini                        ---------  定義ファイル
├?AIRead_setting.ini                        ---------  個別設定ファイル
└(template.png)                          ---------  テンプレート画像※

※テンプレート画像はチェックマークの読み取りをする場合に必要です

5.2. AIRead FormEditorで設定

以下のプログラムを起動することで、AIRead FormEditor(以下FormEditor)でフォーマット定義ファイルを編集できます。

<AIReadインストールフォルダ>/FormEditor/AIReadFormEditor.exe

5.2.1. グループの作成・選択

5.2.1.1. グループを作成する

グループを作成 を選択するとダイアログが表示されます。
ダイアログ上でフォーマット定義を保存するフォルダ名を指定し、任意の名称でグループを作成します。

5.2.1.2. グループを選択する

グループを開く を選択すると、フォルダ選択のダイアログが開かれます。
ダイアログから、作成済みのフォーマット定義を保存するフォルダを選択してください。

5.2.2. フォーマット定義の追加

フォームを追加 を選択すると、ダイアログが表示されます。
ダイアログ上で、任意のフォーマット定義名(フォーム名)の指定と定義のテンプレート(下地)とする画像の登録を行います。

No.項目名説明
1フォーム名追加するフォーマット定義名
2登録画像フォーマット定義で使用するテンプレート画像

5.2.3. フォーマット定義の自動作成

フォームの追加時に選択した画像のフォーマット定義を自動作成することができます。
フォーマット定義の自動作成を行う場合は、定義自動作成 にチェックを入れます。

5.2.3.1. 定義自動作成

No.項目名説明
1フォーム名追加するフォーマット定義名
2登録画像(記入例)フォーマット定義で使用するテンプレート画像
記入済みの画像を指定する
3テンプレート画像(未記入例)定義自動作成で使用する画像
未記入の画像を指定する
4作成ルール定義自動作成時に使用する作成ルールを指定する
指定可能な作成ルールは下記3パターンから選択

-テンプレート画像内の全ての矩形を検知し、項目として定義する
-テンプレート画像内から、登録画像が空白の項目を除く矩形を検知し、項目として定義する
-テンプレート画像と登録画像で差分のある矩形、および空白の矩形を検知し、項目として定義す
5ずれ修正(px)ずれ修正を行える大きさを指定する値
値はピクセルで指定

定義自動作成時に登録画像と補正画像を比較して、ずれ修正を行う
ずれ修正は上下左右で一番差のすくないところに修正を行う
6空白項目判定閾値記載済みの項目か空白項目かを判定するための閾値
指定した値が、黒ピクセルの総数を項目自体(セル)の面積で割った割合を超えていれば、記入済み項目として判定する

記入済み判定:空白項目判定閾値 ≧ 黒ピクセルの総数 / セルの面積
空白判定:空白項目判定閾値 ≦ 黒ピクセルの総数 / セルの面積
5.2.3.2. 画像内の全ての矩形を検知して、項目として自動定義する場合

画像上の青枠で表示された項目を読み取り項目として、自動定義されます。

5.2.3.3. 画像内の空白項目を除いて、項目を自動定義する場合

画像上の青枠で表示された項目を読み取り項目として、自動定義されます。

5.2.3.4. テンプレート画像と登録画像で差分のある矩形、および空白の矩形を検知して項目を自動定義する場合

画像上の青枠で表示された項目を読み取り項目として、自動定義されます。

5.2.4. フォーマット定義の操作

5.2.4.1. フォーマット定義を選択する

フォーマット定義名を選択すると、定義済みの設定を確認・編集できます。

5.2.4.2. フォーマット定義をコピーする

任意のフォーマット定義名上でマウスを右クリックするとメニューが表示されます。

メニューから コピー を選択するとダイアログが表示されます。

新たに任意のフォーマット定義名を入力し コピー を押下すると、フォーマット定義が複製されます。

5.2.4.3. フォーマット定義を保存する

保存 を押下すると、編集済みのフォーマット定義が保存されます。

5.2.5. 共通設定ファイルの指定

AIReadの実行、個別読取結果変換リストの紐づけ、個別設定時に使用する共通設定ファイルを指定します。
「共通設定ファイル」ボタンを押すと、ファイル選択ダイアログを表示します。

「参照」ボタンから使用する共通設定ファイルを選択します。

5.2.6. フォーマットの定義方法

5.2.6.1. 位置合せの定義

解像度等の違いにより、テンプレート画像をもとに設定したフォーマット定義と実際の画像でおきる位置ずれを補正します。
帳票内の矩形やタイミングマークを自動認識し、画像を拡大・縮小、位置合わせ後に読み取りを行います。

No.項目名説明
1位置合せ位置合せ指定画面を表示する
2位置合せ方法(1) 位置合わせなし
 位置合わせを行わない
(2) 大きな矩形で位置を合わせる
 画像に含まれる一番大きな矩形を認識し位置合わせの基準として設定する
 設定手順:
  (ア) 認識 ボタンを押下する
  (イ) 位置合わせの基準となる最大矩形が検知される(数秒かかる)
(3) 外接矩形を自動検知し位置を合わせる
 画像内の外側にある文字や罫線から矩形を認識し位置合わせの基準として設定する
  (ア) 認識 ボタンを押下する
  (イ) 外接矩形に合わせて位置合わせの基準が検知される(数秒かかる)
(4) 四隅のタイミングマークで位置を合わせる
  (ア) 認識 ボタンを押下する
  (イ) タイミングマークに合わせて位置合わせの基準が検知される(数秒かかる)
(5) (旧)大きな矩形で位置を合わせる
 画像に含まれる一番大きな矩形を認識し位置合わせの基準として設定する (Ver. 4.1.0 以前のエンジン)
 設定手順:
  (ア) 認識 ボタンを押下する
  (イ) 位置合わせの基準となる最大矩形が検知される(数秒かかる)
(6) (旧)外接矩形を自動検知し位置を合わせる
 画像内の外側にある文字や罫線から矩形を認識し位置合わせの基準として設定する (Ver. 4.1.0 以前のエンジン)
  (ア) 認識 ボタンを押下する
  (イ) 外接矩形に合わせて位置合わせの基準が検知される(数秒かかる)
(2) 大きな矩形で位置を合わせる
(3) 外接矩形を自動検知し位置を合わせる
(4) 四隅のタイミングマークで位置を合わせる
(5) (旧)大きな矩形で位置を合わせる

基本的な動作は「(2) 大きな矩形で位置を合わせる」と同じです。

(6) (旧)外接矩形を自動検知し位置を合わせる

基本的な動作は「(3) (旧)外接矩形を自動検知し位置を合わせる」と同じです。

位置合わせを行う際には、共通設定ファイルが必要となります。
「共通設定ファイル」ボタンで指定した共通設定ファイルが存在しないと、「認識」ボタンは押下できません。

5.2.6.2. 読み取り範囲の設定

帳票上の読み取り範囲、読み取り方法、項目名を設定します。

No.項目名説明
1モード切替「選択モード」と「作成モード」を切り替える
・作成:読取範囲を新規で作成する
・選択:設定済みの項目を選択して修正する
2元に戻す・やり直し操作を1つ戻す(やり直す)
3下にコピー・右にコピー選択中の項目を下(右)にコピーする
項目名、グループ名、レコードIDの末尾が半角数字の場合は1加算される(オートフィル)
4画像変更テンプレート画像を変更する
5個別設定の呼出開いているフォーマット定義専用の個別設定画面を起動する
5.2.9. 個別設定を参照
6左・右に90度回転表示中の画像を左(右)に90度回転する
7項目名読み取り結果ファイルに出力する項目名
設定された順番にCSVファイルに出力される
8モデル「活字」、「手書き」、「チェックマーク」、「丸囲み」、「バーコード」、「画像抽出」のいずれかを表示
「手書き」の場合は指定した言語も表示される
9グループ名表など同一グループとして扱いたいときに指定するグループ名
10レコードID表などで同一行として扱いたいときに指定するレコードID
11移動・削除選択中の項目を上下に移動・削除する
12編集選択中の作成済みの読み取り範囲の設定画面を開く
読み取り範囲を複数選択している場合は、一括変更が可能

一括変更時の設定は、変更しない からチェックを外すことで編集が可能になります。

5.2.7. 読取定義の設定

「作成モード」で読み取り範囲を指定した場合、および読取項目をダブルクリックしたときに開きます。

5.2.7.1. 読み取り方法がOCR
No.項目名説明
1項目名読み取り結果ファイルに出力する項目名
設定された順番にCSVファイルに出力される
2グループ表など同一グループとして扱いたいときに指定するグループ名
3レコード表などで同一行として扱いたいときに指定するレコードID
4読み取り方法「OCR」を選択する
5使用するモデル「活字」または「手書き」を選択する
「手書き」の場合は「言語」、「文字数」または「行数」の指定が可能
6言語使用するモデルが「手書き」のときに指定が可能
読み取り範囲で使用する手書き学習モデルを指定する
【言語一覧】
・日本語 :数字、ローマ字、記号、カタカナ、ひらがな、常用漢字を学習したモデル
・名前  :カタカナ、ひらがな、人名漢字、常用漢字の一部を学習したモデル
・住所  :数字、ローマ字、カタカナ、ひらがな、住所漢字を学習したモデル
・カタカナ:カタカナを学習したモデル
・英語  :数字、ローマ字、記号を学習したモデル
・数字  :数字を学習したモデル
・通貨  :数字、記号($、¥、マイナス、カンマ、ピリオド)を学習したモデル
・数値・電話番号:数字、記号(マイナス、カンマ、括弧、括弧閉じ)を学習したモデル
設定なしの場合は共通設定の「手書き用OCRモデル」で設定したモデルを使用する
7個別読取結果変換AIRead ControlPanel で作成した個別読取結果変換リストと読み取り項目を紐づける
※個別読取結果変換の設定方法は、4.1.4. 後処理設定に記載
8-1文字数使用するモデルが「手書き」のときに指定が可能
読み取り範囲の文字数が「複数」か「1文字」かを指定する
言語項目が「日本語」「名前」「カタカナ」「数字」「数値・電話番号」の場合は複数文字に固定される
8-2行数使用するモデルが「手書き」のときに指定が可能
読み取り範囲の文字数が「1行」か「複数行」かを指定する
言語項目が「日本語」「名前」「カタカナ」「数字」「数値・電話番号」の場合のみ指定が可能
9区切り線の数読み取り範囲内にある桁や文字の区切り線(点線)を除去するための本数を指定する
指定された数分の罫線除去を行う(区切り線が等間隔に並んでいる前提
※「手書き」で「文字数」が「1文字」の場合は指定できない
10-1ずれ修正ずれ修正を「する」、「しない」を指定する
10-2基準ずれ修正の基準を「セル」か「文字列」から選択する
・セル :読み取り範囲に最も近いセル(矩形)に読み取り位置を修正する
・文字列:読み取り範囲と重なる文字列を対象に読み取り位置を修正する
11対象
(基準が「セル」の時)
ずれ修正の対象となるセルに合わせる修正方向を「左」、「右」、「上」、「下」で指定する
複数選択した場合は、複数方向に位置修正を行う
※仕様の詳細は、5.3.3.1ずれ修正(セルに合わせる場合)についてに記載
12方法
(基準が「文字列」の時)
ずれ修正の対象となる文字列に対して行う修正の方法を「移動」か「拡張」で指定する
※仕様の詳細は、5.3.3.2ずれ修正(文字列に合わせる場合)についてに記載
13X読み取り範囲の左上のX座標(ピクセル)
14Y読み取り範囲の左上のY座標(ピクセル)
15読み取り範囲の幅(ピクセル)
16高さ読み取り範囲の高さ(ピクセル)
5.2.7.2. 読み取り方法が チェック判定
No.項目名説明
1項目名読み取り結果ファイルに出力する項目名
設定された順番にCSVファイルに出力される
2グループ表など同一グループとして扱いたいときに指定するグループ名
3レコード表などで同一行として扱いたいときに指定するレコードID
4読み取り方法「チェック判定」を選択する
5読み取り対象「チェックマーク」または「丸囲み」を選択する
【読み取り対象一覧】
・チェックマーク:レ点の有無を判定する
・丸囲み:丸囲みや塗りつぶしを判定する
 テンプレートの画像と読取画像を比較し、読み取り範囲の黒色が「6. 閾値」で指定した割合以上のときにチェックがされたと判定する
6出力方法「標準」もしくは「個別指定」を選択する
・標準:結果を「true」「false」で出力する
・個別指定:結果を入力した任意の値で出力する
7閾値テンプレート画像に対する黒領域の割合(パーセント)
※「5. 読み取り対象」が丸囲みの時のみ設定
8X読み取り範囲の左上のX座標(ピクセル)
9Y読み取り範囲の左上のY座標(ピクセル)
10読み取り範囲の幅(ピクセル)
11高さ読み取り範囲の高さ(ピクセル)
5.2.7.3. 「読み取り方法」が バーコード
No.項目説明
1項目名読み取り結果ファイルに出力する項目名
設定された順番にCSVファイルに出力される
2グループ表など同一グループとして扱いたいときに指定するグループ名
3レコード表などで同一行として扱いたいときに指定するレコードID
4読み取り方法「バーコード」を選択する
※対応しているバーコードは(NW-7)
5X読み取り範囲の左上のX座標(ピクセル)
6Y読み取り範囲の左上のY座標(ピクセル)
7読み取り範囲の幅(ピクセル)
8高さ読み取り範囲の高さ(ピクセル)
5.2.7.4. 「読み取り方法」が QRコード
No.項目説明
1項目名読み取り結果ファイルに出力する項目名
設定された順番にCSVファイルに出力される
2グループ表など同一グループとして扱いたいときに指定するグループ名
3レコード表などで同一行として扱いたいときに指定するレコードID
4読み取り方法「QRコード」を選択する
5QRコードの数読み取り範囲内で認識させたいQRコードの数を指定する
6X読み取り範囲の左上のX座標(ピクセル)
7Y読み取り範囲の左上のY座標(ピクセル)
8読み取り範囲の幅(ピクセル)
9高さ読み取り範囲の高さ(ピクセル)
5.2.7.5. 「読み取り方法」が 画像抽出

抽出したい画像の設定は、あらかじめ以下のようなフォルダ構成を作成する。
画像グループの作成は、5.2.8. SubFormの設定 を参照

?AIRead_conf(フォーマット定義のグループフォルダ)
├ ─ ─ ?form_id(フォーマット定義名)
│          ├ ? AIRead_format.ini
│          ├ ? AIRead_setting.ini
│          └? template.png

└ ─ ─ ?conf(固定フォルダ)
            └? subimage(固定フォルダ)
├─?group1(画像グループID)
│ ├─?sub_form1(画像ID)
│ │ ├ ? AIRead_format.ini
│ │ └? template.png
│ │
│ └─?sub_form2(画像ID)
│ │ ├ ? AIRead_format.ini
│ │ └? template.png
│ ⁝

├─?group2(画像グループID)
⁝ ├─?sub_form3(画像ID)
│ ├ ? AIRead_format.ini
│ └? template.png

それぞれの sub_formn フォルダに画像マッチングさせたい画像ファイルを「template.png」というファイル名で保存する。

FormEditor では以下のように登録される。抽出画像ごとに読み取り範囲を設定する。

No.項目説明
1項目名読み取り結果ファイルに出力する項目名
2グループ設定不可
3レコード設定不可
4読み取り方法「画像抽出」を選択する
5画像グループID抽出させたい画像のグループIDを選択する
前述のフォルダ構成の group1/group2 に相当する
※使用されるフォーム名は指定されたグループIDから自動判別される
6X読み取り範囲の左上のX座標(ピクセル)
7Y読み取り範囲の左上のY座標(ピクセル)
8読み取り範囲の幅(ピクセル)
9高さ読み取り範囲の高さ(ピクセル)
5.2.7.6. 「読み取り方法」が 固定値
No.項目説明
1項目名読み取り結果ファイルに出力する項目名
2グループ表など同一グループとして扱いたいときに指定するグループ名
3レコード表などで同一行として扱いたいときに指定するレコードID
4読み取り方法「固定値」を選択する
5固定値出力させたい値を直接入力する
※固定値が空でも保存可能

5.2.8. SubFormの設定

画像抽出を行う場合に指定するSubForm を追加します。

5.2.8.1. SubFormの追加

「SubFormの追加」ボタンを押下することで、SubFormの追加画面を呼び出します。

No.項目説明
1サブフォームグループ名画像抽出を行う際に指定する画像グループを設定する
2サブフォーム名画像抽出を行う際に使用される定義名を設定する
3登録画像画像抽出を行う時に使用する読み取り用の画像を設定する
5.2.8.2. SubFormの定義

作成されたサブフォーム上で、読み取り範囲の指定を行います。

No.項目名説明
1項目名読み取り結果ファイルに出力する項目名
設定された順番にCSVファイルに出力される
2グループ名表など同一グループとして扱いたいときに指定するグループ名
3レコードID表などで同一行として扱いたいときに指定するレコードID
4読み取り方法「OCR」のみ選択可能
5使用するモデル「活字」のみ選択可能
6個別読取結果変換AIRead ContorolPanel で作成した個別読取結果変換リストと読み取り項目を紐づける
※個別読取結果変換の設定方法は、4.1.4. 後処理設定に記載
7X読み取り範囲の左上のX座標(ピクセル)
8Y読み取り範囲の左上のY座標(ピクセル)
9読み取り範囲の幅(ピクセル)
10高さ読み取り範囲の高さ(ピクセル)
5.2.8.3. SubFormをコピーする

任意のサブフォーム名上でマウスを右クリックするとメニューが表示されます。

メニューから コピー を選択するとダイアログが表示されます。

新たに任意のサブフォーム名を入力し コピー を押下すると、サブフォームが複製されます。
異なるサブフォームグループとして、複製を行いたい場合は、複製時に別のサブフォームグループ名を入力してください。

5.2.8.4. デフォルトのSubFormを指定する

任意のサブフォーム名上でマウスを右クリックするとメニューが表示されます。
メニューから デフォルトに指定 を選択すると、選択したサブフォームがデフォルトのサブフォームとなります。

画像抽出を行う際に、どのサブフォームとも一致しない、もしくは登録外のサブフォームであった場合、デフォルトに指定したサブフォームが使用されるようになります。

5.2.9. 個別設定

フォーマット定義ごとに個別でOCR設定の定義を行います。
「個別設定の呼出」ボタン(右上の歯車のアイコン)を押下することで、個別設定用のAIRead ControlPanel 画面が表示されます。
5.2.5. 共通設定ファイルの指定 で指定した共通設定ファイルの各OCR設定を引き継いで呼び出します。

指定した共通設定ファイルが存在しない場合、共通設定ファイル指定ダイアログが表示されます。

「個別設定に使う」にチェックのついたパラメータは、AIRead実行時に共通設定ファイルのパラメータを上書きして実行されます。
ただし、「入力フォルダ」や「抽出モードの指定」等一部のパラメータは置き換えできません。

設定内容については、4. 共通設定を参照して下さい。

5.2.9.1. 設定方法
  • 個別設定に使いたい設定の編集

新規で個別設定を行う場合、すべての個別設定は無効となっており設定値が編集できません。
個別設定に使用したい設定項目の右側にある、個別設定に使うチェックボックス()をクリックし、設定値を編集してください。
AIRead on Cloudで有効な設定は☁マーク()がついた項目のみとなります。

  • 個別設定の保存

設定の編集が完了したら、保存してください。個別設定が反映されます。

  • 個別設定画面の終了

保存が完了したら、右上の×ボタンで画面を閉じてください。

5.2.10. AIReadの実行

作成したフォーマット定義でAIReadを実行します。

No.項目名説明
1AIRead実行AIRead実行設定ダイアログを開く
※AIRead OCRエンジンがインストールされていない環境では、AIRead実行ボタンは非表示となる
2画像ファイル名AIReadを実行する画像ファイルを指定する
3実行AIReadの実行を開始する
4キャンセルダイアログを閉じる

AIRead の実行の際、5.2.5. 共通設定ファイルの指定 で指定した共通設定ファイルを呼び出します。
指定した共通設定ファイルが存在しない場合、共通設定ファイル指定ダイアログが表示されます。

5.2.11. AIReadの実行結果を確認

実行後にAIReadの実行結果確認画面を表示します。
表示された実行結果一覧画面より、確認・編集を行うファイルを選択し、実行結果確認画面を表示します。

5.2.11.1. 実行結果一覧画面
No.項目名説明
1ファイル名読み取ったファイル名を表示する
2ページ番号読み取ったファイルのページ数を表示する
3FormID読み取りに使用したフォーマット定義名を表示する
4読取り日時読み取りを実行した日時を表示する
5更新日時最終更新日時を表示する
6ステータス実行結果の状態を表示する
・読取完了 :読み取りが終了
・確定済  :実行結果確認画面で確定処理を実施済み
・CSV出力済 :データ出力ボタンでCSV出力を実施済み
・読取失敗 :読み取りが失敗
※AIRead自体が起動できない、異常終了の場合は一覧に表示されない
7編集ボタン対象の実行結果の実行結果確認画面を表示する(該当行をダブルクリックでも表示可能)
8更新ボタン実行結果一覧を最新の状態へ更新する
9削除ボタンチェックボックスで選択した実行結果を削除する
10データ出力ボタンチェックボックスで選択した実行結果をCSV出力する
11絞り込み条件条件を指定し、実行結果一覧画面に表示する実行結果を絞り込む
12Viewer設定ボタン表示フォントサイズ、信頼値の表示色などを設定する
5.2.11.2. 絞り込み条件

以下の条件を入力することによって、読取結果の絞り込み検索ができます。

No.項目名説明
1ファイル名読み取ったファイル名を絞り込み条件にする
2FormID実行時に使用した定義情報のFormIDを絞り込み条件にする
3登録日付実行時の日付を絞り込み条件にする
4ステータス実行結果のステータスを絞り込み条件にする
5更新ボタン指定した条件で絞り込みを行う
5.2.11.3.Viewer設定
No.項目名説明
1読取枠を透明にする読取枠表示を水色表示から透明にする
チェック有り:有効
チェック無し:無効
2フォントサイズ変更ボタンラジオボタンの選択でOCR結果一覧のフォントサイズを変更する
3リスト表示変更ボタンラジオボタンの選択で結果表示一覧を変更する
Page:現在画像表示しているページの結果のみ表示する
All :複数の出力結果をすべて表示する
4信頼値のしきい値OCR結果一覧の背景色の設定の表示
しきい値は任意の数字に設定することができる
背景色が白:OCR結果の信頼度が100~99%
背景色が黄:OCR結果の信頼度が98~80%
背景色が赤:OCR結果の信頼度が79%赤
5決定ボタン設定内容を保存し、画面を閉じる
6キャンセルボタン設定内容を保存せず、画面を閉じる

5.2.11.4. 実行結果詳細画面
No.項目名説明
1帳票画像OCRを行った画像を表示
各読み取り領域をマウスでポイントすると、「OCR結果一覧」の該当項目を強調する
2拡大縮小ボタン帳票画像の拡大縮小操作に使用
3ページ変更ボタン表示する確認画面変更に使用
複数ページの帳票ファイルを1つの帳票として処理した時のみ使用
4OCR結果一覧(リスト)項目名と読み取った値(編集可能)のリスト一覧表示
項目をマウスでクリックすると、「帳票画像」の該当位置を強調
5OCR結果一覧(明細)項目名と読み取った値(編集可能)の明細一覧表示
項目をマウスでクリックすると、「帳票画像」の該当位置を強調
6ファイル名読み取ったファイル名を表示する(マウスオーバーでファイル名をすべて表示)
7FormID読み取りに使用したフォーマット定義名を表示する
8ステータス読み取り結果の状態を表示する
9前・次ボタン実行結果一覧画面の前後の実行結果へ移動する
10確定・確定解除ボタンステータスを”確定済み”へ変更する
また、”確定済み”、”CSV出力済み”のステータスを”確定済み”へ変更する
11保存ボタン編集後の各項目の値を保存
※編集後の値はViewer内部に保持されるため、このボタンから保存先の指定は行わない
12キャンセルボタン編集内容を保存せず、実行結果一覧画面へ戻る

5.2.12. 実行結果の保存

データ出力ボタンを押下すると、保存用のダイアログが表示されます。
このダイアログ上で、任意の場所に保存することができます。

No.項目名説明
1出力先実行結果の保存先を指定する
「*」「?」「”」「|」は使用不可
2命名規則出力するCSV/PDFファイルの規則を指定する
「/」「*」「?」「”」「|」は使用不可
<date>:出力時の実行日付8桁(yyyymmdd)をファイル名に表記する
<time>:出力時の実行時間8桁(hhmmssms)をファイル名に表記する
<item:項目名>:読み取り結果に含まれる項目名を指定することで、読み取った値をファイル名に表記する
3出力形式実行結果の保存形式をCSV(カンマ区切り) 、 CSV(独自形式) 、PDFから設定する
※CSVカンマ区切りの場合、ヘッダ部と明細部のCSVファイルが出力されるため、zip圧縮で出力される
※PDFの場合は、読み取った画像をPDFとして出力される
4文字コード出力する実行結果の文字コードを、S-JIS、UTF-8、UTF-8(BOM付き)から選択する
5出力単位「複数ページの帳票ファイルを1つの帳票として処理する」が設定された帳票が含まれる場合のみ表示される
 ファイル:ファイル単位で結果をまとめる(複数ページ1出力)
 ページ :ページ単位で結果をまとめる(1ページ1出力)
6ヘッダー設定CSV出力を行う際に、出力するヘッダ情報を選択画面を開く
※各種ヘッダの詳細は 6.1. 共通に記載
7データ出力ボタン指定された設定で実行結果を保存する
8キャンセルボタン保存用ダイアログを閉じる

5.2.13. 出力形式

FormEditorからの実行結果を出力する形式は2種類あります。

5.2.13.1. CSV(カンマ区切り)

1行目にヘッダ情報、2行目以降にデータ情報が出力される、一般的なCSV形式です。ヘッダ、明細それぞれでCSVファイルが出力されます。

CSVファイル名は、下記のルールに従って作成されます。

・グループ名の設定がない項目(ヘッダ項目)

   [入力ファイル名].csv

・グループ名の設定がある項目(明細項目)

   [入力ファイル名]_[グループ名].csv

   ※ファイル名に使用できない文字(\/:*?”<>|)がグループ名に含まれる場合、その文字は除外されます

明細データは、FormEditorの読み取り定義で指定した設定が、下記のルールに従ってまとめられます。

 ファイル:グループ
 行   :レコード
 列   :項目名

  • 出力イメージ:

ヘッダ項目の出力 ( [入力ファイル名].csv)

“Image”,”Image_jshfilename”,”modifyDate”,”processDate”,”result”,”form_id”,”tok_cd”
“sample.jpg”,”C: \Result\20200325_174313_487\sample.jpg”,”2020-02-06T16:28:52″,”2020-03-25T17:43:34″,”true”,”order”,”100”

※固定で”Image”,”Image_jshfilename”,”modifyDate”,”processDate”,”result”,”form_id”が出力されます。これらの項目には5.1 共通を参照ください。

明細項目の出力 ([入力ファイル名]_[グループ名].csv

“Itemcd”,”Amount”,”Wrapping”
“123”,”100″,”30″
“456”,”50″,”10″
5.2.13.2. CSV(独自形式)

6.2. CSVを参照ください。

5.3. フォーマット定義ファイル

帳票の位置を合わせるための情報、出力ファイルに記載する情報、OCRで読み取る位置の情報はフォーマット定義ファイルで設定します。
ファイルはタブ区切りで記載します。
1列目のセクションIDの値によって、2列目以降の記載方法が異なります。

項目名書式説明
セクションID0位置合わせ情報
1出力情報(固定値)
2OCR情報
3チェックマーク情報(画像差分で判定)
4チェックマーク情報(✔の形で判定)

※位置合わせ情報は省略可です。省略した場合、絶対座標で抽出します。

  • ファイル名:AIRead_format.ini
  • フォーマット定義ファイルイメージ:

ずれ修正なしの場合

0  3307  4676  300  1745  2645  1745  300  4295
1  0  id  order
2  0      307  688  510  170  0  0  tok_cd
2  0      307  951  1450  170  0  0  Tel
2  0      307  1207  200  170  0  0  Month
2  0      620  1207  200  170  0  0  Day
2  0      938  1207  85  170  0  0  haikb
2  0      1350  1207  85  170  0  0  timekb
2  0  detail  0  407  1745  627  170  1  0  Itemcd0
2  0  detail  0  2015  1745  623  170  1:number  0  Amount0
2  0  detail  0  2687  1745  314  170  1  0  Wrapping0
2  0  detail  1  407  1915  627  170  1  0  Itemcd1
2  0  detail  1  2015  1915  623  170  1:number  0  Amount1
2  0  detail  1  2687  1915  314  170  1  0  Wrapping1
2  0  detail  2  407  2085  627  170  1  0  Itemcd2
2  0  detail  2  2015  2085  623  170  1:number  0  Amount2
2  0  detail  2  2687  2085  314  170  1  0  Wrapping2
2  0  detail  3  407  2255  627  170  1  0  Itemcd3
2  0  detail  3  2015  2255  623  170  1:number  0  Amount3
2  0  detail  3  2687  2255  314  170  1  0  Wrapping3
2  0  detail  4  407  2425  627  170  1  0  Itemcd4
2  0  detail  4  2015  2425  623  170  1:number  0  Amount4
2  0  detail  4  2687  2425  314  170  1  0  Wrapping4
2  0  detail  5  407  2595  627  170  1  0  Itemcd5
2  0  detail  5  2015  2595  623  170  1:number  0  Amount5
2  0  detail  5  2687  2595  314  170  1  0  Wrapping5

ずれ修正ありの場合

1 -1 id order
2 -1 307 688 510 170 0 0 tok_cd 0 1 1 1 1 0
2 -1 307 951 1450 170 0 0 Tel 0 1 1 1 1 1
2 -1 307 1207 200 170 0 0 Month
2 -1 620 1207 200 170 0 0 Day
2 -1 938 1207 85 170 0 0 haikb
2 -1 1350 1207 85 170 0 0 timekb
2 -1  detail  0 407 1745 627 170 1 1 Itemcd 1 1 1 1 1 0
2 -1  detail  0 2015 1745 623 170 1:number 0 Amount 1 1 1 1 1 0
2 -1  detail  0 2687 1745 314 170 1 1 Wrapping 1 1 1 1 1 0
2 -1  detail  1 407 1915 627 170 1 0 Itemcd 1 1 1 1 1 0
2 -1  detail  1 2015 1915 623 170 1:number 0 Amount 1 1 1 1 1 0
2 -1  detail  1 2687 1915 314 170 1 0 Wrapping 1 1 1 1 1 0
2 -1  detail  2 407 2085 627 170 1 0 Itemcd 1 1 1 1 1 0
2 -1  detail  2 2015 2085 623 170 1:number 0 Amount 1 1 1 1 1 0
2 -1  detail  2 2687 2085 314 170 1 0 Wrapping 1 1 1 1 1 0
2 -1  detail  3 407 2255 627 170 1 0 Itemcd 1 1 1 1 1 0
2 -1  detail  3 2015 2255 623 170 1:number 0 Amount 1 1 1 1 1 0
2 -1  detail  3 2687 2255 314 170 1 0 Wrapping 1 1 1 1 1 0
2 -1  detail  4 407 2425 627 170 1 0 Itemcd 1 1 1 1 1 0
2 -1  detail  4 2015 2425 623 170 1:number 0 Amount 1 1 1 1 1 0
2 -1  detail  4 2687 2425 314 170 1 0 Wrapping 1 1 1 1 1 0
2 -1  detail  5 407 2595 627 170 1 0 Itemcd 1 1 1 1 1 0
2 -1  detail  5 2015 2595 623 170 1:number 0 Amount 1 1 1 1 1 0
2 -1  detail  5 2687 2595 314 170 1 0 Wrapping 1 1 1 1 1 0

5.3.1. 位置合わせ情報

帳票の中で一番大きな矩形を基準に位置を合わせます。
ベースとなる3点(左上・右上・左下)の位置を定義します。

No.項目名書式必須説明
1セクションID0必須 
2width整数必須ベースとなる画像サイズの幅
3height整数必須ベースとなる画像サイズの高さ
4x1整数必須ベースとなる矩形の左上の点のx座標
5y1整数必須ベースとなる矩形の左上の点のy座標
6x2整数必須ベースとなる矩形の右上の点のx座標
7y2整数必須ベースとなる矩形の右上の点のy座標
8x3整数必須ベースとなる矩形の左下の点のx座標
9y3整数必須ベースとなる矩形の左下の点のy座標

※位置合わせ情報は省略可です。省略した場合、位置合わせは行われず絶対座標で抽出します。

■位置合わせイメージ

画像内の最大の矩形を検知し、左上・右上・左下の3点を基点に位置を合わせます。

5.3.2. 出力情報(固定値)

No.項目名書式必須説明
1セクションID1必須 
2シーケンス番号整数 (使用しない)
3項目名文字列必須出力情報に記載する項目名
4文字列必須出力する文字列
5グループID文字列グループID(明細・表の名前)を指定
アウトプット時に使用
6レコードID整数レコードID(明細の行番号)を指定
アウトプット時に使用

5.3.3. 出力情報(OCR)

No.項目名書式必須説明
1セクションID2必須 
2シーケンス番号整数 (使用しない)
3グループID文字列 グループID(明細・表の名前)を指定
アウトプット時に使用
4レコードID整数 レコードID(明細の行番号)を指定
アウトプット時に使用
5x整数必須読取範囲の基準となる座標(左上の点)のx座標
6y整数必須読取範囲の基点となる座標(左上の点)のy座標
7width整数必須読取範囲の幅
8height整数必須読取範囲の高さ
9type0, 1必須0 : 活字
1 : 手書き
手書きはコロン(:)区切りで項目ごとにOCRモデルを指定する
指定がない場合、ControlPanelの手書き用OCRモデルを使用する
指定例)1:number
10length0以上の整数必須typeが 0(活字)の場合
0 : 特別な処理を行わない
2以上 : 指定された数 -1本の区切り罫線を除去する

typeが 1(手書き)の場合
0 : 特別な処理を行わない
1 : 指定した範囲の文字を1文字として認識する
2以上 : 指定された数 -1本の区切り罫線を除去する
11フィールドID文字列必須項目名
12ずれ修正0, 1 0:文字列でのずれ修正
1:セルでのずれ修正
13修正対象(左)0, 1 ずれ修正が1(セル)の場合のみ有効
0:セルの左辺を基準としたずれ修正をしない
1:セルの左辺を基準としたずれ修正を行う
14修正対象(右)0, 1 ずれ修正が1(セル)の場合のみ有効
0:セルの上辺を基準としたずれ修正をしない
1:セルの上辺を基準としたずれ修正を行う
15修正対象(上)0, 1 ずれ修正が1(セル)の場合のみ有効
0:セルの上辺を基準としたずれ修正をしない
1:セルの上辺を基準としたずれ修正を行う
16修正対象(下)0, 1 ずれ修正が1(セル)の場合のみ有効
0:セルの底辺を基準としたずれ修正をしない
1:セルの底辺を基準としたずれ修正を行う
17修正方法0, 1 ずれ修正が0(文字列)の場合のみ有効
0:文字列を基準として読取位置を移動する
1:文字列を基準として読取位置の拡張をする
18個別読取結果変換リスト文字列個別読取結果変換リストを指定する

※修正対象(右)、修正対象(左)、修正対象(上)、修正対象(下) は併用可能

5.3.3.1. ずれ修正(セルに合わせる場合)について

セルに合わせるずれ修正を行う場合、下記のルールで行われます。

<合わせる対象>

 読み取り範囲に対し、以下の 2つの条件を満たすセルが合わせる対象となります。
  1. 読取範囲に対し、セルの面積が30%以上重なっていること
  2. 条件1.を満たすセルのうち、読み取り範囲に対して重なっている面積が最大であること

<例外>

 修正後のセルの高さが元の読み取り範囲の高さの1.2倍を超える場合、ずれ修正は行われません。
  ※本機能は軽微な位置ずれを補正するための機能であり、過度なずれ修正は行わなれません

<修正対象(左右上下)について>

修正の対象の選択によって、修正結果が下記の例のように変わります。

ずれ修正の修正対象(左、右)が有効の場合

 ずれ修正の修正対象(左右上下)が有効の場合

5.3.3.2. ずれ修正(文字列に合わせる場合)について

文字列に合わせるずれ修正を行う場合、下記のルールで行われます。

<合わせる対象>

読み取り範囲に対し、面積が30%以上重なっている文字列が合わせる対象となります。

<修正方法:移動について>

 修正方法に「移動」を指定した場合、読み取り範囲(矩形の形)は変更せず合わせる対象の文字列が入るように読み取り位置を移動させます。

 ※重なっている文字列の範囲より読み取り範囲が小さい場合は修正しません。

ずれ修正の方法が文字列を基準とした移動の場合

<修正方法:拡張について>

 修正方法に「拡張」を選択した場合、読み取り範囲に重なる全文字列が包含できるように読み取り範囲を拡張します。

ずれ修正の方法が文字列を基準とした拡張の場合

5.3.4. 出力情報(チェックマーク)

No.項目名書式必須説明
1セクションID3 または 4必須3 : テンプレート画像との差分で判定
4 : レ点で判定
2シーケンス番号 (使用しない)
3グループID文字列 グループID(明細・表の名前)を指定
アウトプット時に使用
4レコードID整数 レコードID(明細の行番号)を指定
アウトプット時に使用
5x整数必須読取範囲の基準となる座標(左上の点)のx座標
6y整数必須読取範囲の基点となる座標(左上の点)のy座標
7width整数必須読取範囲の幅
8height整数必須読取範囲の高さ
9type0必須 
10length0~1000必須(セクションID=3のときのみ)
テンプレート領域に対する黒領域の割合(%)
11フィールドID文字列必須項目名

5.3.5. 出力情報(バーコード)

No.項目名書式必須説明
1セクションID6必須
2シーケンス番号(使用しない)
3グループID文字列グループID(明細・表の名前)を指定
4レコードID整数レコードID(明細の行番号)を指定
5x整数必須読取範囲の基準となる座標(左上の点)のx座標
6y整数必須読取範囲の基点となる座標(左上の点)のy座標
7width整数必須読取範囲の幅
8height整数必須読取範囲の高さ
9type文字列バーコードの形式を指定
(未指定の場合 NW7)
10length(使用しない)
11ItemName文字列必須項目名

5.3.6. 出力情報(画像抽出)

No.項目名書式必須説明
1セクションID5必須
2シーケンス番号(使用しない)
3SubImageGroupID文字列必須サブ画像のグループ名
4レコードID(使用しない)
5x整数必須読取範囲の基準となる座標(左上の点)のx座標
6y整数必須読取範囲の基点となる座標(左上の点)のy座標
7width整数必須読取範囲の幅
8height整数必須読取範囲の高さ
9type(使用しない)
10length(使用しない)
11項目名文字列必須項目名

6. 出力

OCRの結果をOUTPUTフォルダへ出力します。

6.1. 共通

すべての形式で出力される項目です。

No.項目名説明
1Imageファイル名(複数ページファイルの場合はページ分割後)
2Image_jshfilenameファイルパス(処理成功/失敗移動先)
3modifyDateインプットファイルの更新日時
yyyy-MM-ddThh:mm:ss
4processDate処理完了日時
yyyy-MM-ddThh:mm:ss
5resulttrue:処理成功
false:処理失敗
6originalinputファイル名
7original_jshfilenameinputファイルパス(デバッグフォルダ内へ移動)
8Image_for_display表示用画像の絶対パス
表示用画像の生成時に自動でヘッダ項目に追加される
複数ページ画像が入力の場合、最終ページのCSVにのみ記載される(表示用画像は複数ページ画像が入力の場合、常に複数ページPDFを生成するため)

※共通設定ファイルにて出力する項目の変更が可能です。

デフォルト:HEADER_ITEM= Image, Image_jshfilename, modifyDate, processDate, result

6.2. CSV

AIRead独自のCSV形式で出力されます。

  • OUTPUT_FORMAT:CSV
  • 項目:
No.項目名説明
1ItemName項目名
2Page該当のメタデータが出現するページの番号(0 開始)
3GIDフォーマット定義ファイルで指定したグループID
4RIDフォーマット定義ファイルで指定したレコードID
5Value取得した値
6conf文字認識の信頼度
値が大きいほど正解している可能性が高い(MAX100)
※チェックマークの場合はテンプレート領域に対する黒領域の割合(数値)
7x抽出範囲の左上の点のx座標(ピクセル)
8y抽出範囲の左上の点のy座標(ピクセル)
9w抽出範囲の幅(ピクセル)
10h抽出範囲の高さ(ピクセル)
11ImagePathコンポーネント画像のパス
CREATE_HW_COMP_IMAGE=falseの場合の値はnull
12TableName明細名(座標指定ではGIDと同じ値が自動的に出力されます)

※共通設定ファイルにて出力する項目の変更が可能です。

デフォルト:CSV_COLUMN_ITEM=ItemName,Page,GID,RID, Value,conf,x,y,w,h

  • 出力イメージ:
“ItemName”,”Page”,”GID”,”RID”,”Value”,”conf”,”x”,”y”,”w”,”h”
“Image”,”-1″,”-1″,”-1″,”sample1.jpg”,”-1″,”-1″,”-1″,”-1″,”-1″
“Image_jshfilename”,”-1″,”-1″,”-1″,”C:\AIRead\success\sample1.jpg”,”-1″,”-1″,”-1″,”-1″,”-1″
“modifyDate”,”-1″,”-1″,”-1″,”2018-08-16T18:10:27″,”-1″,”-1″,”-1″,”-1″,”-1″
“processDate”,”-1″,”-1″,”-1″,”2018-08-25T00:28:27″,”-1″,”-1″,”-1″,”-1″,”-1″
“result”,”-1″,”-1″,”-1″,”true”,”-1″,”-1″,”-1″,”-1″,”-1″
“id”,”0″,””,”-1″,”order”,”100″,”-1″,”-1″,”-1″,”-1″
“tok_cd”,”0″,””,”-1″,”100″,”97″,”307″,”688″,”510″,”170″
“Tel”,”0″,””,”-1″,”03-2345-6789″,”95″,”307″,”951″,”1450″,”170″
“Month”,”0″,””,”-1″,”10″,”97″,”307″,”1207″,”200″,”170″
“Day”,”0″,””,”-1″,”31″,”99″,”620″,”1207″,”200″,”170″
“haikb”,”0″,””,”-1″,”1″,”99″,”938″,”1207″,”85″,”170″
“timekb”,”0″,””,”-1″,”3″,”99″,”1350″,”1207″,”85″,”170″
“Itemcd0″,”0″,”detail”,”0″,”123″,”100″,”407″,”1745″,”627″,”170″
“Amount0″,”0″,”detail”,”0″,”30″,”100″,”2015″,”1745″,”623″,”170″
“Wrapping0″,”0″,”detail”,”0″,”20″,”100″,”2687″,”1745″,”314″,”170″

6.3. CSV4DB

一般的なカンマ区切りのCSV形式です。
1ページ1行で出力します。

  • OUTPUT_FORMAT: CSV4DB
  • 出力イメージ:ヘッダー
“page”,”id”,”tok_cd”,”Tel”,”Month”,”Day”,”haikb”,”timekb”
“0”,”order”,”1 00″,”03 – 2345 – 6789″,”1 0″,”3 1″,”1″,”3″
“1”,”order”,”1 00″,”03 – 2345 – 6789″,”1 0″,”3 1″,”1″,”3″
“2”,”order”,”1 00″,”03 – 2345 – 6789″,”1 0″,”3 1″,”1″,”3″
  • 出力イメージ:明細
“page”,”Itemcd”,”Amount”,”Wrapping”
“0”,”123″,”30″,”20″
“0”,”678″,”150″,”70″
“0”,”543″,”80″,”100″
“0”,”234″,”95″,”30″
“0”,””,””,””
“0”,””,””,””
“0”,””,””,””
“0”,””,””,””
“0”,””,””,””
“0”,””,””,””
“0”,””,””,””
“0”,””,””,””
“0”,””,””,””
“0”,””,””,””
“0”,””,””,””
“1”,”123″,”30″,”20″
“1”,”678″,”150″,”70″
“1”,”543″,”80″,”100″
“1”,”234″,”95″,”30″
“1”,””,””,””
“1”,””,””,””
“1”,””,””,””
“1”,””,””,””
“1”,””,””,””
“1”,””,””,””
“1”,””,””,””
“1”,””,””,””
“1”,””,””,””
“1”,””,””,””
“1”,””,””,””
“2”,”123″,”30″,”20″
“2”,”678″,”150″,”70″
“2”,”543″,”80″,”100″
“2”,”234″,”95″,”30″
“2”,””,””,””
“2”,””,””,””
“2”,””,””,””
“2”,””,””,””
“2”,””,””,””
“2”,””,””,””
“2”,””,””,””
“2”,””,””,””
“2”,””,””,””
“2”,””,””,””
“2”,””,””,”””page”,”id”,”tok_cd”,”Tel”,”Month”,”Day”,”haikb”,”timekb”
“0”,”order”,”1 00″,”03 – 2345 – 6789″,”1 0″,”3 1″,”1″,”3″
“1”,”order”,”1 00″,”03 – 2345 – 6789″,”1 0″,”3 1″,”1″,”3″
“2”,”order”,”1 00″,”03 – 2345 – 6789″,”1 0″,”3 1″,”1″,”3″

6.4. XML

XML形式で出力します。

  • OUTPUT_FORMAT: XML
  • 項目:
No.項目名説明
1field 
2id項目名
3conf文字認識の信頼度
値が大きいほど正解している可能性が高い(MAX100)
※チェックマークを指定している場合はテンプレート領域に対する黒領域の割合(数値)
4x抽出範囲の左上の点のx座標(ピクセル)
5y抽出範囲の左上の点のy座標(ピクセル)
6width抽出範囲の幅(ピクセル)
7hight抽出範囲の高さ(ピクセル)
8value取得した値
<?xml version=”1.0″ encoding=”UTF-8″ standalone=”no”?>
<order>
  <Image>sample1.jpg</Image>
  <Image_jshfilename>C:/AIRead/success/sample1.jpg</Image_jshfilename>
  <modifyDate>2018-08-16T18:10:28</modifyDate>
  <processDate>2018-10-22T20:51:21</processDate>
  <result>true</result>
  • 出力イメージ:
 <id>order</id>
<field conf=”98″ height=”170″ id=”tok_cd” width=”510″ x=”307″ y=”688″>
    <value>100</value>
 </field>
 <field conf=”97″ height=”170″ id=”Tel” width=”1450″ x=”307″ y=”951″>
    <value>03-2345-6789</value>
  </field>
  <field conf=”99″ height=”170″ id=”Month” width=”200″ x=”307″ y=”1207″>
    <value>10</value>
  </field>
  <field conf=”100″ height=”170″ id=”Day” width=”200″ x=”620″ y=”1207″>
    <value/>
  </field>
<field conf=”100″ height=”170″ id=”haikb” width=”85″ x=”938″ y=”1207″>
    <value/>
 </field>
 <field conf=”100″ height=”170″ id=”timekb” width=”85″ x=”1350″ y=”1207″>
    <value/>
 </field>
 <detail>
    <row id=”0″>
      <field conf=”99″ height=”170″ id=”Itemcd0″ width=”627″ x=”407″ y=”1745″>
        <value>123</value>
      </field>
      <field conf=”99″ height=”170″ id=”Amount0″ width=”623″ x=”2015″ y=”1745″>
        <value>30</value>
      </field>
      <field conf=”99″ height=”170″ id=”Wrapping0″ width=”314″ x=”2687″ y=”1745″>
        <value>20</value>
      </field>
    </row>

6.5. XML for WAGBY

 AIRead Screen Designer(Wagby)との連携が可能なXML形式で出力します。
 ※”Wagby”とはノンプログラミングでWeb業務アプリケーションを開発できるツールです。

  • OUTPUT_FORMAT: XMLWAGBY
  • 項目:
No.項目名説明
1[ItemName]_conf文字認識の信頼度
値が大きいほど正解している可能性が高い(MAX100)
※チェックマークの場合はテンプレート領域に対する黒領域の割合(数値)
  • 出力イメージ:
<?xml version=”1.0″ encoding=”UTF-8″ standalone=”no”?>
<order>
  <Image>sample1.jpg</Image>
  <Image_jshfilename>C:/AIRead/success/sample1.jpg</Image_jshfilename>
  <modifyDate>2018-08-16T18:10:28</modifyDate>
  <processDate>2018-10-22T21:00:08</processDate>
  <result>true</result>
  <id>order</id>
  <id_conf>100</id_conf>
  <tok_cd>100</tok_cd>
  <tok_cd_conf>98</tok_cd_conf>
  <Tel>03-2345-6789</Tel>
  <Tel_conf>97</Tel_conf>
  <Month>10</Month>
  <Month_conf>99</Month_conf>
  <Day/>
  <haikb/>
  <timekb/>

  <detail>
    <Itemcd0>123</Itemcd0>
    <Itemcd0_conf>99</Itemcd0_conf>
    <Amount0>30</Amount0>
    <Amount0_conf>99</Amount0_conf>
    <Wrapping0>20</Wrapping0>
    <Wrapping0_conf>99</Wrapping0_conf>
  </detail>

7. AIRead Viewer付OCR機能

batで実行した出力結果をAIRead Viewer(以下 Viewer)で結果を確認しながら、修正を行うことができます。

7.1. Viewer付OCR 実行batファイル

実行結果をViewerで表示する際は、<AIReadインストールフォルダ>\run_kw_with_viewer.bat でOCRを実行します。

7.2. Viewer付OCRの実行

引数を指定し、run_kw_with_viewer.bat/run_with_viewer.bat をダブルクリックで実行します。
Viewer付OCRの実行時は、引数の指定先を変更してください。

7.2.1. run_kw_with_viewer.bat

call “%AIREAD_HOME%\IDELibrary\scripts\set_envs.bat”

“%AIREAD_HOME%/Viewer/OcrExecuter/OcrExecuter.exe” -kw –documentidpath [ルール定義ファイル]

–imagefile [画像ファイルパス] –settingfile [SettingFile]
No.引数説明
1–documentidpath [フォーマット定義ファイル]OCR時に抽出を行うルール定義ファイルのパスを指定
2-1–imagefile [画像ファイルパス]読み取り対象の画像のファイルパスを指定
2-2–imagedir [画像フォルダパス]読み取り対象の画像が格納されたフォルダのパスを指定
3–settingfile [SettingFile]共通設定ファイルを指定

7.2.2. run_with_viewer.bat

call “%AIREAD_HOME%\IDELibrary\scripts\set_envs.bat”

“%AIREAD_HOME%/Viewer/OcrExecuter/OcrExecuter.exe” -kw –formatfile [フォーマット定義ファイル]

–imagefile [画像ファイルパス] –settingfile [SettingFile]
No.引数説明
1–formatfile [フォーマット定義ファイル]OCR時に抽出を行うフォーマット定義ファイルのパスを指定
2-1–imagefile [画像ファイルパス]読み取り対象の画像のファイルパスを指定
2-2–imagedir [画像フォルダパス]読み取り対象の画像が格納されたフォルダのパスを指定
3–settingfile [SettingFile]共通設定ファイルを指定

※–imagefile と –imagedir はどちらか一方を指定します

7.3. Viewer上での確認

5.2.11 AIReadの実行結果を確認を参照ください。

7.4. サーバ上の読み取り結果を複数のクライアント端末から編集

サーバ上にインストールされたAIRead で読み取った結果を複数のクライアント端末から編集することができます。

  • 前提条件
    サーバ上の読み取り結果が配置されたフォルダは、各クライアント端末と共有されている必要があります。
    サーバの実行環境、各クライアント端末には、AIRead v3.1.0.0 以降のバージョンのインストールも必須です。

7.4.1. 操作手順

AIRead をインストールしたクライアント端末のスタートメニューにある、AIRead のショートカットリンクを開きます。

AIRead Viewer のショートカットリンクを右クリックし、その他 > ファイルの場所 を開きます。

C:\ProgramData\Microsoft\Windows\Start Menu\Programs\AIRead が表示されます。

AIRead Viewer のショートカットを右クリックし、プロパティを表示してください。

プロパティに表示されているリンク先を変更してください。

<AIREAD_HOME>\Viewer\AIReadViewer\AIReadViewer.exe –language ja-JP
–dataDir サーバ上のViewer用結果が配置されたフォルダ

複数端末からサーバ上の結果を編集する際には、排他制御がかかります。

8. 仕分け付きOCR機能

8.1. 仕分けの概要

8.1.1. 処理の流れ

  1. 入力画像が複数ページであれば、ページごとに分割
  2. 画像がTIFFであれば、DPI変換
    ※「TIFFを300DPIに変換してからOCRを実行する」を設定している場合
  3. 画像の回転補正
    ※「回転補正を行う」を設定している場合
  4. 3.の画像でフォーマット判定
  5. 判定に成功したら、フォーマットの帳票定義を使ってOCRを行う
  6. 判定に失敗した場合、失敗フォルダに入力画像を移動する

8.1.2. 仕分けの判定について

フォーマット判定は 2段階 に分かれております。
1段階目では大まかな仕分けを行います。
画像全体から特徴的な箇所(特徴点)を抽出し、各テンプレート画像と入力画像を比較して最も特徴点の数がマッチした画像を持つグループに判定します。

2段階目では詳細仕分けを行います。
グループ内の画像に対して色または指定領域のみでの画像比較を行います。


での判定は、画像の見た目はほとんど似ているが色違いの帳票を判別したい場合に使います。
指定領域での画像比較 は、特定の場所に会社のロゴ等判別しやすい箇所がある場合に使います。
なお、下図のグループ2-詳細1のように、グループに属する画像が1つしかない場合は詳細な判定は行わずに判定結果が確定します。

8.2. 仕分け定義フォルダの構成

仕分けの定義は仕分け定義フォルダで行います。
仕分け定義フォルダは以下の通りに構成します。
仕分け定義フォルダの配置場所は任意ですが、フォルダの絶対パスに日本語を含まないでください。

?ClassifyDir                 ——— 1. 仕分け定義フォルダ
├?option.csv (固定名)                                      ——— 2. 仕分け定義ファイル
├?setting.ini (固定名)                                       ——— 3. 仕分け設定ファイル
└?Templates (固定名)                                       ——— 4. テンプレートフォルダ
 └?1                                                             ——— 5. 大まかな仕分けフォルダ
  └?1                                                          ——— 6. 詳細仕分けフォルダ
   └? template.jpg (固定名)                         ——— 7. テンプレート画像
  └?2
   └? template.jpg(固定名)
 └?2
  └?1
   └? template.jpg (固定名)
                                               

No.名称説明
1仕分け定義フォルダ仕分け定義を格納するフォルダ
半角英数字、(ハイフン)、_(アンダースコア)、.(ピリオド)、#(シャープ)、&(アンパサンド)で指定可能
2仕分け定義ファイルテンプレート画像に紐づく仕分け定義を記載したファイル(csv形式)
3仕分け設定ファイル仕分けに使用する設定を記載する
4テンプレートフォルダテンプレート画像を格納するフォルダ
5大まかな仕分けフォルダ大まかな仕分けのグループを表すフォルダ
数字で1,2…と順につける
6詳細仕分けフォルダ詳細仕分けの画像を配置するフォルダ
数字で1,2…と順につける
7テンプレート画像入力画像と比較するテンプレート画像
ファイルの名前は template から始まるように名称固定

8.3. AIRead SortingEditor で仕分け定義を設定

AIRead SortingEditor は、画像の仕分け設定を行うことのできるツールです。
また、RuleEditor/FormEditor で作成した定義情報を用いて、仕分け付のAIRead実行が可能です。

8.3.1. SortingEditor の起動

<AIREAD_HOME>\SortingEditor\AIReadSortingEditor.exe をダブルクリック、もしくはスタートメニューのショートカットから起動
します。

SortingEditor を起動すると、下記の画面が表示されます。

RuleEditor/FormEditor で作成済みの定義が存在する場合は、Form選択欄に表示されます。

8.3.2. SortingEditor の操作

8.3.2.1. 仕分け定義の作成

仕分け定義を新規作成する場合は、新規作成を押下するとダイアログが表示されます。
ダイアログ上で仕分け定義の作成先を指定し、任意の名称で仕分け定義を作成します。

No.名称説明
1保管場所仕分け定義の作成先を指定する
2仕分名作成する仕分け定義名を入力する
半角英数字、(ハイフン)、_(アンダースコア)、.(ピリオド)、#(シャープ)、&(アンパサンド)のみ使用可能
8.3.2.2. 仕分け定義の選択

開く ボタンを押下すると、フォルダ選択ダイアログが開かれます。
使用する仕分け定義フォルダを選択してください。

8.3.2.3. 共通設定ファイルの指定

AIReadの実行、RuleEditor/FormEditorで作成した定義との紐づけ、画像の仕分けに使用する共通設定ファイルを指定します。
共通設定ファイル ボタンを押すと、共通設定ファイル選択ダイアログを表示します。

参照 ボタンから使用する共通設定ファイルを選択します。

8.3.2.4. 仕分け定義の保存

保存 を押下すると、編集済みの仕分け定義が保存されます。
仕分け定義を変更した場合は、必ず保存してください。

8.3.3. Formの選択

共通設定ファイルによって指定された定義フォルダに配置された定義情報が、Form選択欄に表示されます。
仕分け定義フォルダに仕分け設定として紐づける定義情報にチェックを入力してください。

8.3.4. グループの作成

大まかな仕分けで仕分けを行うグループを作成します。
作成したグループは仕分け設定画面で、各定義情報に紐づけを行います。

No.項目名説明
1グループ作成大まかな仕分けで仕分けを行うグループを作成する
2グループ一覧作成したグループが表示される
3グループ削除グループを削除する
4グループ選択中のグループ名が表示される
グループ名は任意の名称で変更可能
5◀ ▶ (画像送り)表示する画像を選択する
6+ -
(画像上で Ctrlキー + マウスホイール操作)
画像を拡大/縮小する

8.3.5. 仕分け設定

Form選択でチェックを入力した定義情報が表示されます。
また、詳細仕分けで作成したグループを各定義情報へ紐づけます。

No.項目名説明
1Template追加選択中の仕分け設定に紐づけるテンプレート画像を追加する
追加されたテンプレート画像は画像仕分けを行う際にも使用される
2Template削除画面で表示中のテンプレート画像を削除する
3仕分け設定一覧Form選択画面でチェックを入れた定義情報が表示される
F:定義情報名 FormEditor で作成した定義情報(定型読み取りに使用)
R:定義情報名 RuleEditor で作成した定義情報(非定型読み取りに使用)
4グループ詳細設定画面で作成するグループを仕分け設定に紐づける
グループを紐づける場合は、予め詳細仕分け画面でグループを作成する必要がある
5◀ ▶ (画像送り)表示する画像を選択する
6+ -
(画像上で Ctrlキー + マウスホイール操作)
画像を拡大/縮小する
8.3.5.1. 定義情報とグループの紐づけ

作成したグループは、表示中の定義情報へ紐づけを行う必要があります。
ドロップダウンから作成済みのグループを紐づけてください。

8.3.6. 詳細仕分け設定

作成したグループで詳細仕分けを行う場合、色もしくは、指定領域での画像比較で設定を行う必要があります。

No.項目名説明
1詳細仕分けの方法
詳細仕分けを指定しない詳細仕分けは行わない
グループに属する定義情報が1つしかない場合は詳細な仕分けは不要
色で詳細仕分けをするグループに属する定義情報が2つ以上ある場合に、色の類似度合いで判定を行う方法
領域で詳細仕分けを行うグループに属する定義情報が2つ以上ある場合、指定した領域に絞って判定を行う方法
2フォームID選択中の定義情報が表示される
3X Y W H領域で詳細仕分けを行う を選択した場合に、指定した領域の座標
X:指定した領域の左上のX座標(ピクセル)
Y:指定した領域の左上のY座標(ピクセル)
W:指定した領域の幅(ピクセル)
H:指定した領域の高さ(ピクセル)
8.3.6.1. 色で詳細仕分けを行う場合

同じグループに色の異なるが、レイアウトの似ている帳票があるときは、色で詳細仕分けをする を選択する

8.3.6.2. 指定した領域で詳細仕分けを行う場合

同じグループに色が同じで、レイアウトが似通っている帳票があるときは、領域で詳細仕分けを行う を選択する

領域で詳細仕分けを行う を選択した状態で、画像上の任意の場所をドラッグすると、領域の指定を行うことができます。

8.3.7. 仕分けの実行

画像の仕分けのみを行う場合は、仕分け実行を押下すると仕分け実行ダイアログが表示されます。
ダイアログ上から、対象の画像を指定して仕分け実行します。

No.名称説明
1画像ファイル名仕分け対象の画像を指定する
2ページ番号仕分け対象の画像が複数枚つづりのPDF/TIFF である場合は、対象とするページを選択する
3仕分け実行指定した画像を対象に、仕分けの判定を行う
4仕分け結果仕分け実行 ボタンで実行した仕分け結果が表示される

8.3.8. 仕分け付OCRの実行

画像の仕分け付でAIReadの実行を行う場合は、AIRead ボタンを押下すると実行ダイアログが表示されます。
ダイアログ上から、対象の画像を指定して仕分け付のOCRを実行します。

正常に実行が完了すると、AIRead Viewerが起動します。
Viewer の詳細については、5.2.11 AIReadの実行結果を確認を参照ください。

8.4. 直接仕分け定義を設定

8.4.1. 仕分け定義ファイルの編集

仕分け設定ファイルを直接編集する場合は、テキストエディタで<AIREAD_HOME>\ClassifyDir\option.csv で編集します。

1,1,S,order,1,0,10,10,50,50
1,2,S,order2,1,0,10,10,50,50
2,1,E,Invoice,0,0,,,,  

・文字エンコード:UTF-8
・改行コード:LF

CSV中の各列の意味は下記の通りです。

No.名称説明
1グループ番号大まかな仕分けのグループ番号
大まかな仕分けフォルダ名を指定する
2詳細番号詳細仕分けの番号
詳細仕分けフォルダ名を指定する
3抽出モード抽出モードの設定
S : 座標指定
E : キーワード抽出
W : 表検出付全文OCR
※キーワード抽出はEnterprise版のみ使用可
4フォーマットIDOCR時に使用するフォーマットID
5色判定フラグ詳細仕分けに色の類似度合いを使用するかのフラグ
0 : 使用しない(デフォルト)
1 : 使用する
※同一グループ内では同一の設定にしてください
6領域指定フラグ詳細仕分けで画像の注目する領域を絞ったマッチングを行うかのフラグ
0 : 行わない(デフォルト)
1 : 行う
※同一グループ内では同一の設定にしてください
※色判定と同時に使うことはできません(両方設定されていた場合、色判定のみ行います)
7指定領域始点X領域指定の左上のX座標(左上原点、単位はピクセル)
8指定領域始点Y領域指定の左上のY座標(左上原点、単位はピクセル)
9指定領域横幅領域指定の横幅(単位はピクセル)
10指定領域縦幅領域指定の縦幅(単位はピクセル)

8.4.2. 仕分け設定ファイルの編集

仕分け設定ファイルを直接編集する場合は、テキストエディタで<AIREAD_HOME>\ClassifyDir\setting.ini で編集します。

・文字エンコード:UTF-8
・改行コード:LF

maxFeatures=2000
matchCtTh=50
sizeDiffTh=-1

各項目の意味は下記の通りです。

No.項目名書式説明
1maxFeatures1以上の整数値画像の比較に使用する特徴的な点を検出する数
多くすると仕分け精度が上がる傾向にある一方、処理時間が増加する
(デフォルト:2000)
2matchCtTh0以上の整数値大まかな仕分け時に、入力画像とテンプレート画像が似ていると判断するのに最低限必要な特徴点のマッチ数
全てのテンプレート画像に対して特徴点のマッチ数がこの値に達しない場合、判定失敗となる
この値を上げると厳密な判定ができるが、判定失敗になる画像が増えやすくなる
(デフォルト:50)
3sizeDiffTh-1以上の整数値テンプレート画像と入力画像のピクセルでの面積を比較し、その差がこの値より大きい場合そのテンプレート画像との比較をスキップする
-1を指定した場合、このスキップ処理は行われない
(デフォルト:-1)

8.5. batからの仕分け付OCR実行

bat を用いて、仕分け付きのOCRの実行を行う場合は、仕分けの登録と実行の2段階で行います。

8.5.1. 仕分け登録

配置されたテンプレート画像の登録は、下記のコマンドで行います。

call “%AIREAD_HOME%\IDELibrary\scripts\set_envs.bat”
set MAIN_CLASS_NAME=co.jp.ariseinnovation.AIReadEE.AIReadEE

“%AIREAD_JAVA%/java” -Xmx8192m -classpath %CLASSPATH% %MAIN_CLASS_NAME%
-s [SettingFile] -R [仕分け定義フォルダ]
  • オプション: バッチの中身は引数で書き換えることができます。
No.引数説明
1-s [SettingFile]共通設定ファイルを指定
2-R [仕分け定義フォルダ]仕分け定義が格納されたフォルダを指定

※run_register.bat はサンプル帳票の実行ファイルです。ダブルクリックで実行できます。

8.5.2. 仕分け付きOCRの実行

仕分け付きOCRの実行は、下記のコマンドで行います。

call “%AIREAD_HOME%\IDELibrary\scripts\set_envs.bat”
set MAIN_CLASS_NAME=co.jp.ariseinnovation.AIReadEE.AIReadEE

“%AIREAD_JAVA%/java” -Xmx8192m -classpath %CLASSPATH% %MAIN_CLASS_NAME%
-s [SettingFile] -A [仕分け定義フォルダ]
  • オプション: バッチの中身は引数で書き換えることができます。
No.引数説明
1-s [SettingFile]共通設定ファイルを指定
2-A [仕分け定義フォルダ]仕分けに使用するフォルダを指定

※run_assort.bat はサンプル帳票の実行ファイルです。ダブルクリックで実行できます。

8.5.3. 仕分けのみの実行

仕分けのみの実行は、下記のコマンドで行います。

call “%AIREAD_HOME%\IDELibrary\scripts\set_envs.bat”
set MAIN_CLASS_NAME=co.jp.ariseinnovation.AIReadEE.AIReadEE

“%AIREAD_JAVA%/java” -Xmx8192m -classpath %CLASSPATH% %MAIN_CLASS_NAME%
-s [SettingFile] -a [仕分け定義フォルダ]
  • オプション: バッチの中身は引数で書き換えることができます。
No.引数説明
1-s [SettingFile]共通設定ファイルを指定
2-a [仕分け定義フォルダ]仕分けに使用するフォルダを指定