共通設定 Ver. 4.2.0 | Users Manual

4. 共通設定

4. 共通設定

4.1. AIRead ControlPanelで設定

以下のプログラムを起動することで、AIRead ControlPanel(以下ControlPanel)にて共通設定ファイルを編集することができます。

<AIReadインストールフォルダ>/ControlPanel/AIReadControlPanel.exe

共通設定ファイル名は以下の通りです。
　Standard （座標指定）　：AIRead_setting.ini
　Enterprise（キーワード指定 / キーワード指定(手書き文字あり)）：AIRead_setting_kw.ini
　　　　　　（キーワード指定(表検出付き)）：AIRead_setting_whole.ini

共通設定ファイルには“項目名=値”の書式で定義されます。

共通設定ファイルはUTF-8で保存する必要があります。

4.1.1. 基本設定

ファイルの入出力や抽出モードに関わる設定を行います。

No.	内容	項目名	書式	説明
1	入力フォルダ	INPUT	文字列	画像を取り込むフォルダパス
2	出力フォルダ	OUTPUT	文字列	OCR結果を出力するフォルダパス
3	処理成功移動先	MOVE_SUCCESS_DIR	文字列	OCR処理に成功した画像を格納するフォルダパス
4	処理失敗移動先	MOVE_FAILED_DIR	文字列	OCR処理に失敗した画像を格納するフォルダパス
5	複数ページの帳票ファイルを1つの帳票として処理する	FILE_IDENFICATION_TYPE	0, 1	帳票を識別する単位・チェックなし(0)：ページ単位で帳票を識別して処理する・チェックあり(1)：1ページ目で帳票を識別し、1ファイルすべてのページを1つの帳票として処理する CORRECT_MOVED_FILE がtrueかつ、MOVED_FILE_FORMAT の出力形式がJPEGのとき、複数のJPEGを出力する
6	OCR成功時に傾きを補正した画像を出力する	CORRECT_MOVED_FILE	true, false	チェック(true)の時、OCR成功時に成功フォルダ（MOVE_SUCCESS_DIR）に移動する画像を天地・傾き補正後画像にする (位置合わせ補正は行われない)
7	補正した画像の形式	MOVED_FILE_FORMAT	PDF, JPEG	CORRECT_MOVED_FILE が true の時に出力する画像のフォーマットを指定する（デフォルト JPEG） <以下はEnterpriseのみ> 「複数ページの帳票ファイルを1つの帳票として処理する」を指定している場合は常にPDF出力となる
8	アウトプットヘッダ情報の指定	HEADER_ITEM	文字列	アウトプットファイルへ出力するヘッダ情報の項目とその順番を指定可能 ※各項目の説明は6.1 共通を参照
9	出力フォーマット	OUTPUT_FORMAT	CSV XML CSV4DB XMLWAGBY SIMPLE_CSV SIMPLE_SEPARATE_CSV SIMPLE_TXT SIMPLE_SEPARATE_TXT	OCR読取結果の出力形式を選択する <Standard/Enterprise共通> ・CSV ・XML <Standardのみ> ・CSV4DB（DB連携のしやすいCSVフォーマット）・XMLWAGBY（Wagbyフォーマット） <Standard全文OCRのみ> ・SIMPLE_CSV (画像の見た目に近い出力) ・SIMPLE_SEPARATE_CSV (画像の見た目に近い出力、表ごとに1つのCSVを出力) ・SIMPLE_TXT (SIMPLE_CSVのタブ区切りになったもの) ・SIMPLE_SEPARATE_TXT (SIMPLE_SEPARATE_CSVのタブ区切りになったもの) ※SIMPLE_CSV(TXT)・SIMPLE_SEPARATE_CSV(TXT)については4.4.4 表検出付全文OCRを参照
10	出力文字コード	OUTPUT_ENCODING	UTF-8 Shift_JIS EUC-JP UTF-8with BOM	出力ファイルの文字コードを選択する（出力フォーマットがCSV、CSV4DBの場合）
11	CSV出力時の出力項目の指定	CSV_COLUMN_ITEM	文字列	CSVへ出力する項目とその順番を指定可能。 ※各出力項目の説明は6.2 CSVを参照
12	活字用OCRモデル	OCR_LANG	文字列	活字OCRエンジンで利用するモデル名 OCRモデルフォルダに存在するファイルの拡張子".traineddata"を除外したファイル名を指定する例）Japanese.traineddata → Japanese
13	優先モデルフォルダ	PRIORITY_MODEL_PATH	文字列	優先モデルフォルダとして指定するフォルダパス ※モデルは下記のフォルダ構成で配置すること※ 　[優先モデルフォルダ]\tessdata\[任意のモデル] 指定したフォルダ内のモデルを優先して使用し、指定されたモデルが存在しない場合、共通のモデルフォルダから使用する個別設定と組み合わせることで、帳票ごとに優先モデルと共通モデルの使い分けができる
14	デバッグファイルを出力する	IS_DEBUG	true, false	チェック(true)の時、DEBUG_PATHで設定されたフォルダへデバッグ情報を出力する
15	デバッグ出力先	DEBUG_PATH	文字列	デバッグファイルを出力するフォルダパス
16	出力ファイル名にタイムスタンプを付与する	MOVED_FILE_NAME	0,1	チェック(1)の時、抽出処理完了後の出力ファイル名にタイムスタンプを付与する
17	抽出モードの設定	COMPONENT_LEVEL	MANUAL ITEM CELL HW_ITEM	抽出モードを選択する・MANUAL : 座標指定・ITEM : キーワード指定・CELL : キーワード指定(表検出付き) ・HW_ITEM: キーワード指定(手書き文字あり) ※全文OCR時はキーワード指定・キーワード指定(表検出付き)を選択 ※キーワード指定(表検出付き)の詳細については4.4.4 表検出付全文OCRを参照 ※キーワード指定(手書き文字あり)を指定する場合は、all_model が必須オンプレミスインストールマニュアルを参照
18	セル内の改行に付与する文字	LINE_SEPARATER	SPACE LF NONE	<キーワード指定(表検出付き)のみ> 認識されたセル中の文字列が改行されていた場合、行間に付与する文字を指定する改行コードを指定した場合、LF(\n)が付与される
19	活字項目画像を出力する	CREATE_PR_COMP_IMAGE	true, false	チェック(true)の時、活字として読み取った範囲の切取画像を出力する（デフォルト false）
20	活字画像の出力先	PR_CUT_IMAGE_DIR	文字列	活字項目画像を出力するフォルダパス
21	表示用画像(PDF)を生成する	CREATE_DISPLAY_IMAGE	true, false	チェック(true)の時、データサイズを減らしたPDFを生成する天地補正・傾き補正後(位置合わせ無し)の画像がPDFに埋め込まれる入力ファイルが複数ページの場合、FILE_IDENFICATION_TYPEに関係なく複数ページのPDFを生成する
22	表示用画像の出力フォルダ	DISPLAY_IMAGE_DIR	文字列	生成した表示用PDFを出力するフォルダパス (デフォルト：指定なし、表示用画像(PDF)を生成するが有効のとき指定必須)
23	表示用画像の品質	DISPLAY_IMAGE_QUALITY	1～100	生成する表示用PDFの品質を指定する指定した値が低いほど画像品質は下がるが、データサイズも小さくなる（デフォルト 65）
24	保管用画像を生成する	CREATE_PRESERVATION_IMAGE	true, false	チェック(true)の時、電子帳票保存法向けに保管用の画像を生成する
25	保管用画像出力フォルダ	PRESERVATION_IMAGE_DIR	文字列	生成した電子帳票保存法向けの保管用画像を出力するフォルダパス (デフォルト：指定なし、保管用画像を生成するが有効のとき指定必須) 「<」「>」「*」「?」「"」「\|」「半角スペース」は使用不可使用されていた場合は、自動的に除去される任意の文字列以外に以下のタグも使用可能 <date>：システム日付(年月日の数字8桁　yyyymmdd) <time>：システム時間(時間秒ミリ秒の数字11桁　hhmmssfffff) <year>：システム日付(西暦の数字4桁　yyyy) <month>：システム日付(月の数字2桁　mm) <day>：システム日付(日付の数字2桁　dd)
26	保管用画像のファイル名	PRESERVATION_IMAGE_NAME	文字列	生成される電子帳票保存法向けの保管用画像のファイル名を指定する「<」「>」「¥」「/」「:」「*」「?」「"」「\|」「半角スペース」は使用不可任意の文字列以外に以下のタグも使用可能 <date>：システム日付(年月日の数字8桁　yyyymmdd) <time>：システム時間(時間秒ミリ秒の数字11桁　hhmmssfffff) <year>：システム日付(西暦の数字4桁　yyyy) <month>：システム日付(月の数字2桁　mm) <day>：システム日付(日付の数字2桁　dd) <inputfile>：読み取った対象のファイルから拡張子を除いた文字列 <item:項目名>：読み取りを行った際に、使用された帳票定義で指定されている項目名 (例えば、帳票定義で company_name と定義し、OCRにより実際の帳票から「アライズイノベーション株式会社」という文字列が取得されたとする。この場合、保管用画像のファイル名の <item:company_name> の部分が「アライズイノベーション株式会社」に置換される)

4.1.2. モード別設定

モード別（座標指定、キーワード指定）のパラメータを設定します。

4.1.2.1. 座標指定モード

<Standardのみ>
座標指定OCRを実行時の設定はこちらで行います。

No.	内容	項目名	書式	説明
1	フォーマットフォルダ	PROFILE_CONFIG_DIR	文字列	<Standardのみ> フォーマット定義フォルダのパス
2	手書き用OCRモデル	HAND_WRITE_OCR_LANG	文字列	指定された手書きモデルが存在しないときに使用するモデル名 "OCR_MODEL_PATH/tessdata/"以下に存在するフォルダ名例）jpn
3	改善した手書きの文字切り取りロジックを使用する	USE_SEGMENT_MODEL	true, false	フリーピッチで複数行の手書き文字を読み取る場合はチェック(true)する ※処理時間がチェックをしない場合と比べて1.5～2.5倍ほど増加する
4	OCR結果にスペースを含める	EXPORT_SPACE	true, false	チェック(true)の時、OCR結果にスペースを含める（活字読み取り時のみ）
5	手書き画像の出力先	HW_CUT_IMAGE_DIR	文字列	手書き項目/文字画像を出力するフォルダパス
6	手書き項目画像を出力する	CREATE_HW_COMP_IMAGE	true, false	チェック(true)の時、手書きで座標指定した範囲の切取画像を出力する
7	手書き文字画像を出力する	CREATE_HW_CHAR_IMAGE	true, false	チェック(true)の時、手書きで座標指定した範囲内の文字単位の切取画像を出力する
8	文字を置換する信頼度（手書き）	HW_REPLACE_THRESH	0～100	手書きの項目が指定された閾値未満の信頼度の時、任意の文字に変換する
9	置換後の文字	HW_REPLACE_CHAR	文字列	No. 8（HW_REPLACE_THRESH）で変換する文字（1文字）
10	位置合わせ最大矩形の認識マージン	FORMAT_MARGIN	0以上	位置合わせ時に大きな矩形を認識しない画像端(上下左右)からの範囲を指定する単位はピクセル（デフォルト 15）
11	位置合わせ外接矩形の認識マージン	FIX_TEXT_HEIGHT	0以上	位置合わせ時に外接矩形を認識しない画像端(上下左右)からの範囲を指定する単位はピクセル（デフォルト 100）
12	活字のノイズ閾値	PRINT_NOISE_FILTERS	-1～100	活字の認識で、項目中の最大文字高さに対して指定された閾値以下の文字をノイズとして除去する例） 30 を指定 → 読み取り範囲内の最大文字に対し30%以下の高さの文字をノイズとみなして除去する（デフォルト -1：本機能は動作しない） ※小さい文字や記号がノイズとして削除される可能性有り
13	手書きノイズの閾値 (文字の高さ、複数文字指定時)	HW_NOISE_FILTERS	文字列	手書き文字の認識で指定したモデルについて、項目中の最大文字高さに対して任意の割合以下の文字をノイズとして除去する手書き文字の文字数を「複数」で設定した項目を対象とする [モデル名]:[閾値(%)]の形式で記載するカンマ区切りで複数指定可能例） number:25,money:30 → 数値モデルは25%、通貨モデルは30%の高さの文字をノイズとみなして除去する ※小さい文字や記号がノイズとして削除される可能性があります
14	手書きノイズの閾値 (白画素の割合、1文字指定時)	HW_WHITE_THRESHOLD	0～1.0	手書き項目に1文字指定をしているとき、その項目画像を読取対象外(ノイズ)と判断する白ピクセルの割合と判断する閾値を指定する例） 0.99 を指定 → 手書き項目が1文字指定のとき、項目内の白ピクセルの割合が99%以上であれば、項目内の記載をノイズと判断して除去する（デフォルト 0.975）
15	改行を出力する	RECOGNIZE_NEWLINE	true, false	チェック(true)の時、読み取り項目内の改行を認識して\nとして出力する

4.1.2.2. キーワード指定モード

<Enterpriseのみ>
キーワード指定実行時の設定はこちらで行います。

<Standard/Enterprise共通>
全文OCRを実行時の一部の設定もこちらで行います。

No.	内容	項目名	書式	説明
1	帳票定義フォルダ	PROFILE_KWCONFIG_DIR	文字列	帳票定義フォルダのファイルパス
2	辞書データフォルダ	IDE_DIR	文字列	IDELibraryフォルダのパス “?”区切りで文書種別を指定可能 ※「帳票識別（DEFAULT_PROFILE_MODE）」が 1 or 2 の場合に有効例） ./IDELibrary/dicset/?Invoice
3	OCRを行う最大ページ数	PROC_MAX_PAGE	0以上の整数	OCRを実行する最大ページ枚数例） MAX_PAGE=1 → 2ページ目以降は無視する 0の場合は全ページが対象
4	テキスト付きPDFでもOCRを実行する	OCR_PDF_WITH_TEXT	true, false	チェックあり(true)：テキスト付きPDFの場合でもOCRを実行するチェックなし(false)：PDFのテキスト情報を使用して抽出する
5	テキスト付PDFの文字高さ情報にフォント高さを使用する	USE_PDF_TEXT_FONT_HEIGHT	true, false	チェックあり(true)：セル内にあるテキスト情報が複数ある場合、結合して出力されるよう補正するチェックなし(false)：従来のテキスト分割で出力する
6	抽出結果が0件のとき空のメタデータを出力する	LAYOUT_TYPE	0, 1	0：空のメタデータは出力しない 1：空のメタデータを出力する ※明細は空の場合出力しない
7	改善した文字列検知ロジックを使用する	USE_DL_STRING_DETECTION	true, false	<キーワード指定、キーワード指定(表検出付き)のみ指定> チェック(true)の時、従来のOCRよりも文字列検知の改善した処理を行う ※メモリの使用量が約500MB程度増加し、処理時間がA4画像1枚当たり5秒/枚ほど増加する ※文字列検知の処理が従来のものと変更となるため、読み取り結果に影響する可能性有り
8	行間隔が狭い文字列の精度改善	STRING_DETECTION_SPLIT_LARGE_RECTANGLE	true, false	チェックあり(true)：行間隔の狭い文字列に対して、改善した文字検知を行うチェックなし(false)：従来の文字検知のまま処理を行う
9	OCR結果から除外する文字リスト	BLACK_LIST_EXT	文字列	抽出処理時にキーワードおよび抽出する値から除外する文字を指定する
10	帳票識別の動作	DEFAULT_PROFILE_MODE	0～2	帳票識別の動作を指定する 0：帳票識別に失敗したらfalse 1：帳票識別に失敗したら、指定した文書種別定義で抽出 2：指定した文書種別定義で抽出（帳票識別なし）例） IDE_DIRへ”?”区切りで記載する例)IDE_DIR=./dicset/?invoice
11	文字種別	指定したい文字種別定義名	文字列	帳票種別の動作が、1もしくは2のときのみ設定可能指定したい文字種別定義を指定する
12	1つの文字列とみなす文字間隔(高さのN倍)	LINKED_ITEM_THRESHOLD	数値	1つの文字列とみなす文字の間隔を設定値は文字の大きさ（高さ）に対する倍率
13	改善したスペース検出ロジックを使用する	SPACE_MODE	0,1	0：スペース検知の改善した検出を行う 1：従来のスペース認識機能を使用する
14	画像の解像度が大きい場合に小さくする	REDUCE_IMAGE_BEFORE_OCR	true, false	チェックあり(true)：画像の解像度が大きいとき(長辺が5000ピクセル以上)解像度を小さくしてからOCRを行うチェックなし(false)：解像度を変えずそのままOCRを行う

4.1.3. 画像処理

文字認識の前に実施する画像処理関連の設定を変更します。

No.	内容	項目名	書式	説明
1	傾き補正を行う	IS_SLOPE_CORRECTION	true, false	チェック(true)の時、文字認識前に傾き補正を行う（35度まで）
2	回転補正を行う	AUTO_ROTATION	true, false	チェック(true)の時、文字認識前に90/180/270度の画像回転補正を行う
3	直線除去を行う最短の長さ	LINE_REMOVAL_THRESHOLD	0以上の整数	直線とみなす長さのしきい値（ピクセル） 0の場合、文字の大きさから自動で設定する
4	直線除去時の文字高さに対する倍率	LINE_REMOVAL_MULTIPLE_BY_TEXT_HEGHT	0.1以上の数値	指定した値×文字高さの平均(ピクセル)が直線除去の対象となる直線除去を行う最短の長さの値が0の場合にのみ動作する
5	点線除去を行う最短の長さ	HOUGH_THRESHOLD	0以上の整数	点線とみなす長さのしきい値（ピクセル）
6	罫線除去で欠けてしまった文字の復元処理を行う	RESTORE_TEXT	true, false	チェック(true)の時、罫線除去時に欠けてしまう罫線と隣接した文字を復元する ※必ず復元できるわけではない ※副作用として文字にノイズがつく場合がある
7	二値化の閾値	THRESH_VALUE	0～255	文字認識前の画像の二値化（白黒化）のしきい値 0の場合、画像全体のヒストグラムから自動で設定する詳細は4.4.1. 二値化の閾値を参照
8	直線除去時の二値化の閾値	BINTHRESH_ON_LINE_REMOVAL	0～255	直線除去時の二値化パラメータのしきい値 0の場合、画像全体のヒストグラムから自動で設定する
9	短い罫線（横）除去の閾値	SHORT_LINE_THRESH_H	-1以上	長い罫線に接している短い罫線（横）を検知・除去する閾値罫線の長さ（ピクセル）を指定する -1 : 除去を行わない 0 : 除去を行わない（-1と同じ） 1以上 : この値を直線検知の閾値とする
10	短い罫線（縦）除去の閾値	SHORT_LINE_THRESH_V	-1以上	長い罫線に接している短い罫線（縦）を検知・除去する閾値罫線の長さ（ピクセル）を指定する -1 : 除去を行わない 0 : 除去を行わない（-1と同じ） 1以上 : この値を直線検知の閾値とする
11	短い点線も除去する	USE_SHORT_DOTLINE_REMOVAL	true, false	チェック(true)の時、短い罫線除去時に点線も除去対象とする ※処理時間がA4画像1枚当たり2秒ほど増加する ※文字が除去される副作用が発生する可能性がある
12	細かいノイズ除去の閾値（幅）	THIN_LINE_REMOVAL_THRESHOLD_W	0以上	指定した幅(ピクセル)より細かいノイズを除去する値が大きいほど大きなサイズのノイズを除去する（デフォルト 0、推奨値 3）詳細は4.4.2. 細かいノイズ除去を参照
13	細かいノイズ除去の閾値（高さ）	THIN_LINE_REMOVAL_THRESHOLD_H	0以上	指定した高さ(ピクセル)より細かいノイズを除去する値が大きいほど大きなサイズのノイズを除去する（デフォルト 0、推奨値 3）詳細は4.4.2. 細かいノイズ除去を参照
14	細かいノイズ除去の縮小フィルタ（幅）	ERODE_THIN_LINE_W	1以上	細かいノイズ除去の収縮処理のフィルターサイズ（幅）値が大きいとより独立したノイズのみ除去する（デフォルト 12）詳細は4.4.2. 細かいノイズ除去を参照
15	細かいノイズ除去の縮小フィルタ（高さ）	ERODE_THIN_LINE_H	1以上	細かいノイズ除去の収縮処理のフィルターサイズ（高さ）値が大きいとより独立したノイズのみ除去する（デフォルト 7）詳細は4.4.2. 細かいノイズ除去を参照
16	TIFFを300DPIに変換してからOCRを実行する	CONV_TIFF_DPI	true, false	チェック(true)の時、TIFFを300DPIに変換してからOCRを実行する TIFFで縦横のDPIが異なる場合に指定する
17	抽出する色	EXTRACTION_COLORS	文字列	抽出する色を指定する（指定した色以外を除去する）複数色を指定する場合はカンマ区切りで記載する例) EXTRACTION_COLORS=K,R 指定可能な色・K（黒）・R（赤）・Y（黄）・G（緑）・C（シアン）・B（青）・P（紫）個別で指定する場合は、直接数値を指定詳細は4.4.5. 色の抽出・除去を参照
18	除去する色	REMOVAL_COLORS	文字列	除去する色を指定する指定方法は色抽出（EXTRACTION_COLORS）と同様抽出する色と両方指定した場合は抽出を優先する詳細は4.4.5. 色の抽出・除去を参照
19	色抽出・除去を罫線除去の前に行う	FILTER_COLOR_BEFORE_LINEREMOVAL	true, false	チェック(true)の時、罫線除去の前に色抽出・除去を行う
20	罫線を延長する長さ	LINE_EXTENSION_LEN	0以上	検知した罫線を延長する単位はピクセル（デフォルト 0）
21	矩形の丸い角を除去する閾値	ROUNDED_CORNER_THRESHOLD	0～100	半径が指定した値未満の丸い角を除去する単位はピクセル 0の場合は除去されない（デフォルト 0）詳細は4.4.3. 丸い角の除去を参照
22	丸い角の除去範囲を拡張する長さ	ROUNDED_CORNER_PADDING	0～100	丸い角を除去する際に、指定した値分の除去範囲を拡大する単位はピクセル（デフォルト 10）詳細は4.4.3. 丸い角の除去を参照
23	ドット背景除去を行う	REMOVE_DOTTED_BACKGROUND	true, false	チェック(true)の時、ドット背景除去を行う
24	ドットサイズ	DOT_SIZE_THRESHOLD	1~10	ドット背景除去時の削除するドットのピクセルサイズを指定する縦横が指定したピクセル以下のものを削除する（デフォルト 4）
25	小さい矩形を削除	REMOVE_SMALL_RECTANGLES	true, false	チェック(true)の時、小さい矩形の除去を行う
26	除去する矩形の最小面積	REMOVE_RECTANGLE_MIN_AREA_ THRESHOLD	0以上の整数	「小さい矩形を削除除去する」がチェック(true)の時に除去する矩形の最小面積を指定する
27	除去する矩形の最大面積	REMOVE_RECTANGLE_MAX_AREA_ THRESHOLD	0以上の整数	「小さい矩形を削除除去する」がチェック(true)の時に除去する矩形の最大面積を指定する
28	斜め線を除去	REMOVE_DIAGONAL_LINES	true, false	チェック(true)の時、矩形内の斜めの線を除去する

28～31のパラメータは普段は折り畳まれておりますが、全て表示を押下することで表示されるようになります。
※パラメータ増加に伴い、使用頻度の低いパラメータがデフォルトで非表示になっています。

No.	内容	項目名	書式	説明
28	ノイズ除去を行う	DE_NOISE	true, false	ノイズ除去処理の有無チェック(true)の時、文字認識前にノイズ除去を行う
29	罫線除去を無効化する	SKIP_LINE_REMOVE	true, false	チェック(true)の時、文字認識前の罫線除去を無効化する（罫線除去は行わない）
30	白黒反転処理を実施する黒の比率	BLACK_WHITE_THRESHOLD	0～100	二値化後に白黒を反転するしきい値（％）設定した％より黒の割合が多い場合に白黒を反転する
31	シャープ補正値	SHARPEN_VALUE	0以上の少数	OCR実行前に画像をシャープ化する画像がぼやけている場合などに利用すると効果的 0の場合は処理しない

4.1.4. 後処理設定

読み取り完了後に行う処理全般を設定します。
作成された個別読取結果変換リストと読み取り項目との紐づけは、RuleEditor/FormEditor から行います。

No.	項目名	説明
1	個別読取結果変換リストの保存先	個別読取結果変換設定ファイルの保存先を指定するデフォルトは、＜AIREAD_HOME＞\IDELibrary\OcrPostProcess
2	変換リスト名	選択中の個別読取結果変換設定ファイルが表示される個別読取結果変換設定ファイルを追加する場合は、変換リスト名に入力した名前で追加される
3	変換リスト名一覧	作成済みの個別読取結果変換設定ファイルの一覧が表示される
4	変換設定追加ボタン	変換リストに入力した名称で個別読取結果変換設定ファイルを追加する選択中の設定ファイル保存先に、同一の設定名の個別読取結果変換設定ファイルが存在する場合は追加不可
5	変換設定削除ボタン	選択中の個別読取結果変換設定ファイルを削除する
6	変換リスト	選択中の後個別読取結果変換設定ファイルの設定情報を表示する
7	読取後に実行するコマンドライン文字列	帳票の読み取り後に実行するコマンドライン文字列を設定する

4.1.4.1. 変換リストの設定

No.	項目名	説明
1	変換対象(正規表現)	変換対象の文字を指定する変換対象の文字は正規表現で記載する
2	変換後の文字	変換対象の文字から変換する文字を指定する変換後の文字は単語でも指定可能

4.1.4.2. 読取後に実行するコマンドライン文字列の設定

AIReadで帳票読み取りを行った後に、呼び出したいコマンドライン文字列を設定します。

例) 保管用画像を任意のフォルダへコピーするコマンド

copy /y "%AIREAD_PRESERVATION_FILE%" "任意のフォルダパス"

コマンドラインでは、AIRead独自の変数を使用することができます。
使用可能な変数と値については、下記を参照ください。

No.	環境変数名	内容	呼び出されるパスの例
1	AIREAD_ORIG_INPUT_FILE	オリジナルの読取対象ファイルまでのフルパス	C:\AIRead\debug\original\sample.pdf
2	AIREAD_PRESERVATION_FILE	保存用画像のファイルまでのフルパス ※基本設定タブで「保管用画像を生成する」が有効となっていることが前提無効になっている場合は空文字列("")が設定される	C:\AIRead\preseve\20230320123456_アライズイノベーション_物品仕入れ_sample.pdf

4.1.5. 文字認識調整

文字認識に関する設定を変更します。

No.	内容	項目名	書式	説明
1	文字列の切取ロジック	PAGE_SEG_MODE	4, 6	OCRエンジンの活字文字検知/分割アルゴリズムを指定する・4 : 1行内の文字サイズが可変とみなして文字を検知・6 : 1行内の文字サイズが固定とみなして文字を検知
2	文字の多重認識を減らす処理を行う	use_dup_char_reducer	true, false	複数の同じ文字が連続で出力されてしまうとき、本設定を有効にすることで回避できる（活字のみ） ※文字間が近い場合、複数文字を1文字として出力してしまう副作用が起きる可能性がある・チェックする(true) : 機能を有効にする・チェックしない(false) : 機能を無効にする
3	対象文字種	reduce_target	0～4	「文字の多重認識を減らす処理を行う（use_dup_char_reducer）」の対象となる文字種を指定する・0 : 数字・1 : 記号・2 : ひらがな・3 : カタカナ・4 : アルファベット　カンマ区切りで複数指定可能
4	再読み込みの閾値	RESCAN_THRESHOLD	0～100	指定した値よりもコンポーネントのConf値が閾値より低い場合に読み直す（活字のみ） ※コンポーネント内の文字のConf値の平均値

4.1.6. ログ出力

ログ出力に関する設定を変更します。

No.	内容	項目名	書式	説明
1	ログ出力フォルダ	LOGS_PATH	文字列	実行ログを出力するフォルダパス
2	ログ出力レベル	LOGS_LEVEL	0～3	指定したレベルで以下の内容を出力する・0 : DEBUG, INFO, WARNING, ERROR ・1 : INFO, WARNING, ERROR ・2 : WARNING, ERROR ・3 : ERROR
3	ログ1ファイルあたりのデータサイズ	LOG_ROTATION_SIZE	0～100	ログ1ファイルあたりの最大サイズ（MB） 0 の場合、プロセス単位でログを出力する
4	ログ全体のデータサイズ	LOG_MAX_SIZE	0以上の整数	ログファイルを保存する最大容量（MB） 0 の場合、制限なし（削除しない） ※LOG_ROTATION_SIZEより大きい値を設定すること

4.1.7.学習

教師データを作成するための設定を行います。

No.	内容	項目名	書式	説明
1	教師データを作成する	LEARNING_MODE	1, 0	学習のための教師データを作成する・チェックする(1) : 機能を有効にする・チェックしない(0) : 機能を無効にする
2	教師データ作成フォルダ	AUTO_LEARNING_DIR	文字列	教師データを作成するフォルダを指定する
3	学習するモデルの名称	AUTO_LEARNING_MODEL	文字列	学習するモデル名を指定する学習可能モデル(multi_number、multi_numeric、multi_katakana)が指定可能

4.1.8. ファイル

共通設定ファイルファイルの新規作成、保存の操作ができます。

No.	項目名	説明
1	新規	新規で共通設定ファイルを作成する
2	開く	共通設定ファイルを指定して開く
3	上書き保存	編集中の設定を上書き保存する
4	名前を付けて保存	編集中の設定を別ファイルとして保存する
5	履歴	過去に保存した共通設定ファイルの履歴を表示する選択することで対象ファイルを編集できる

4.2. 共通設定ファイルでのみ指定できる項目

No.	項目名	書式	説明
1	AUTO_CROPS	true, false	trueの場合、周囲の余白を削除する
2	OCR_MODEL_PATH	文字列	OCRエンジンで利用するモデルのフォルダパス（tessdataが存在するフォルダ）
3	OCR_MODE	1	OCRエンジンのOCRアルゴリズムを指定する

4.3. 項目/文字切り取り画像の出力

手書き項目画像を出力する機能が有効(CREATE_HW_COMP_IMAGE=true)、もしくは手書き文字画像を出力する機能が有効(CREATE_HW_CHAR_IMAGE=true)の際は、手書き画像の出力先(HW_CUT_IMAGE_DIR)の指定されたディレクトリにそれぞれの手書き画像を出力します。

?指定した出力先(HW_CUT_IMAGE_DIR)
├ ─ ─ ?char(手書きのみ)
│          ├ ? FileA.jpg_0_0.jpg
│          ├ ? FileA.jpg_0_1.jpg
│          ├ ? FileA.jpg_0_2.jpg
│          ├           ⁝
│          └ ? FileA.jpg_3_7.jpg
│
└ ─ ─ ?component(活字・手書き)
            ├ ? FileA.jpg_0.jpg
            ├ ? FileA.jpg_1.jpg
            ├ ? FileA.jpg_2.jpg
            └ ? FileA.jpg_3.jpg

項目(component)画像の数字は、同一入力ファイル中の連番です。
文字(char)画像の数字は、ファイル名で紐づく、項目画像ごとの連番です。

4.4. ユースケース

4.4.1. 二値化の閾値

OCRは画像を白と黒だけに変換(二値化)した状態で行います。各ピクセルの明るさ(黒0～255白)に対して、黒と白の境界とする値が二値化の閾値です。閾値は0～255を設定します。
二値化の閾値が低いと元の画像で濃い色のみが二値化で黒くなり、高いと薄い色でも黒くなります。
また、閾値を0とした場合は画像全体の明るさを基に自動で閾値を判定します。それによって目的の文字が消えてしまうなどあった場合は閾値を直接調整してください。

二値化の閾値の設定によって、下記画像のように変化します。

4.4.2. 細かいノイズ除去

細かいノイズ除去の閾値では、除去対象とするノイズの幅・高さを指定します。
どちらかのパラメータの対象となる場合は除去対象となります。

ControlPanel項目名	共通設定ファイル項目名	推奨値
細かいノイズ除去の閾値（幅）	THIN_LINE_REMOVAL_THRESHOLD_W	3
細かいノイズ除去の閾値（高さ）	THIN_LINE_REMOVAL_THRESHOLD_H	3

細かいノイズ除去の縮小フィルタは、近隣の文字・ノイズを結合して除去対象となるのを防ぎます。
結合する文字・ノイズ間の距離（ピクセル）を指定します。

ControlPanel項目名	共通設定ファイル項目名	推奨値
細かいノイズ除去の縮小フィルタ（幅）	ERODE_THIN_LINE_W	12
細かいノイズ除去の縮小フィルタ（高さ）	ERODE_THIN_LINE_H	7

4.4.3. 丸い角の除去

帳票によっては丸い角の矩形が存在し、直線除去では角が残ってしまい誤読の原因となる場合があります。
そういった場合に、下記のパラメータを設定することで丸い角の除去を行います。

ControlPanel項目名	共通設定ファイル項目名	推奨値
矩形の丸い角を除去する	ROUNDED_CORNER_THRESHOLD	30
丸い角の除去範囲を拡張する長さ	ROUNDED_CORNER_PADDING	10

4.4.4. 表検出付全文OCR

コントロールパネルの抽出モードの設定で「キーワード指定(表検出付)」を指定した状態で全文OCRを実行すると、認識した罫線を基に表を検出し、表の各セルに対してOCRを行います。
この際、表の各セルのOCR結果は表の行・列の形に再現可能な情報が付与され構造化されます。ETL等で後続処理に表の情報を渡したい場合などにご利用ください。

なお、構造化情報の利用に応じて出力形式を選択可能です。
・付与された構造化情報含め出力したい場合： CSV形式
・構造化した表の形で出力したい場合： SIMPLE_CSV / SIMPLE_SEPARATE_CSV形式
　※v2.3.1からタブ区切りのSIMPLE_TXT / SIMPLE_SEPARATE_TXT形式も追加されました

　※表が段組みになっている場合には正しく構造化されません。
　　行と列が揃っている表にのみ有効です。

4.4.5. 色の抽出・除去

帳票上の印影や背景の色がOCRに影響し、正しく読み取りを行えない場合があります。
OCRを行う前に、必要な文字の色のみ抽出、もしくは余計な色の除去を行って調整します。
色の指定はHSV色空間で範囲指定します。

4.4.5.1. HSV色空間について

	要素	指定範囲	説明
H	色相	0～179	具体的な色を定義する要素色が環状で表現するため、0°と179°で同じ色となる
S	彩度	0～255	色相で定義された色の鮮やかさ・濃さを表す要素彩度が255で最も鮮やかとなり、減少に合わせて色が薄くなり、0で灰色になる
V	明度	0～255	色相で定義された色の明るさ・暗さを表す要素明度が255で最も明るく(白)、明度の減少に合わせて暗くなり、0で黒になる

4.4.5.2. 色の指定方法（GUI）

No.	項目名	説明
1	指定した色	カラーパレット、もしくはスポイトで対象とした色が表示される
2	色の選択ボタン	カラーパレットを開き、対象とする色を指定する
3	スポイトボタン	スポイト画面を開き、クリックした場所の色を抽出して対象とする
4	色相	対象とした色の色相の表示、または色相を直接入力する
5	彩度	対象とした色の彩度の表示、または彩度を直接入力する
6	明度	対象とした色の明度の表示、または明度を直接入力する
7	±(指定幅)	対象とした色の色相、彩度、明度に対して、指定した数値分の幅を上下に持たせる指定された数値分の幅は、from-to の範囲となる
8	色の対象範囲(from)	対象とした色から±で指定した数値分をマイナスして表示する
9	色の対象範囲(to)	対象とした色から±で指定した数値分をプラスして表示する
10	確定ボタン	指定した色の範囲をAIRead ContorlPanel に反映させる
11	キャンセルボタン	編集内容を反映させずに、AIRead ContorlPanel へ戻る

例）赤い色の範囲を指定する場合（GUI）

対象の色の値に対して幅を持たせることで、近い色も対象とすることができます。

4.4.5.3. 色の指定方法（テキスト）

テキストで設定を行う場合、対象としたい色の色相、彩度、明度の順で”:”(コロン)で区切り、色の指定を行います。
色相が0°、彩度、明度が200を指定する際は、下記の指定となります。

0 : 200 : 200 - 0 : 200 : 200

色相に前後の幅を持たせ、さらに明るい色も対象としたい場合は、下記のような指定を行います。

-15 : 200 : 200 - 15 : 200 : 255

色相（-15 - 15）	明度（200 - 255）
0から±15の値	明度200より明るい色を取得するため、55プラスした値

※彩度を変更しない場合は、同じ値とします。

例）赤い色の範囲を指定する場合（テキスト）
純粋な赤色は、下記のように表現できます。

純粋な赤色の表現

0 : 255 : 255

実際は印刷等の条件により赤色の色合いは異なるため、範囲に幅を持たせることで色を対象とすることが可能です。
例）赤色を含むピンクからオレンジ色の範囲

-10:180:250-10:220:255

※色相 -10 は 170 と同義