帳票定義の構成
ルール定義フォルダの構成
AIRead_conf_kw/ —————————-(フォーマット定義フォルダ)
├AIRead_proflst.ini ——————– プロファイルリスト(自動生成)
└[帳票識別ID]/
├IDE_metadata_setting.ini ——- 定義ファイル
├IDE_setting.ini —————– 設定ファイル
└(template.png) —————- テンプレート画像※
※テンプレート画像はRuleEditor上での定義時に使用します
AIRead RuleEditorの使い方
ルールエディタを起動する
ルールエディタを起動します。
(スタートメニュー か <AIREAD_HOME>\RuleEditor\RuleEditor.exeから実行)
ルールを新規作成
「保存場所」で指定したディレクトリに「ルール名」で設定したフォルダを作成します。
ルールを開く
既存のルールを編集する場合は、ルールを開くからフォルダを選択します。
文書種別の設定
読み取り対象の帳票の中に識別キーワードとして登録された、”請求”があるため、「Invoice」の文書種別が使用されます。
読み取り対象の帳票の中に識別キーワードとして登録された、”請求”に加え、”西新宿株式会社”があるため、「Invoice2」の文書種別が使用されます。
複数の識別キーワードが登録されていると、OR条件となります。
いずれかのキーワードが見つかった場合に該当する文書種別のルールが適用されます。
1つのフィールド内のキーワードをカンマ(,)で区切るとAND条件となります。
カンマ(,)区切りのキーワードが全て存在する場合に該当する文書種別のルールが適用されます。
1システムに作成できる文書種別の数は1000 までです。
1つ1つの文書種別IDの文字数は100バイト以内となっています。
文書種別には、半角英数字、-(ハイフン)、_(アンダースコア)、(カンマ)、.(ピリオド)、#(シャープ)、&(アンパサンド)が設定できます。
文書種別IDの両端のスペースはトリミングされます。
文書種別に画像を追加する
画像を追加から画面で表示させたい画像を選択します。
画像を表示してルールの設定ができます。
画像は複数選択可能です。
抽出ルールの編集
1つ1つの項目の設定をメタデータと呼びます。
メタデータをダブルクリック もしくは、 +ボタン でメタデータ設定画面を表示します。
設定を変更した場合は必ず、保存ボタンを押下し、保存します。
メタデータ設定画面の項目
項目名 | 詳細 |
項目名 | メタデータの項目名を入力 半角英数字、-(ハイフン)、_(アンダースコア)、(カンマ)、.(ピリオド)、#(シャープ)、&(アンパサンド)が使用できる |
値の抽出方法 | キーワード、キーワードの座標指定、座標指定、型指定の4つのうち1つを必ず選択する 詳細は下部の表「値の抽出方法」を参照 |
抽出キーワード | 値抽出に使用するキーワード文字列を入力 |
値の探索方向 | 「値の抽出方法」 がキーワード か キーワードの座標指定の時のみ指定可能 右、左、上、下、右and下 の5つのうち1つを選択 値の探索方向には優先度が存在し、右 左 方向で値取得された後に、上 下 右and下 方向の取得が行われる。 |
サブキーワードを指定する | メインとなるキーワードの条件に、サブキーワードを追加条件として使用する 詳細は下部「サブキーワードを指定する」を参照 |
方向 | サブキーワードが使用する値探索方向を指定 右、左、上、下 の4つのうち1つを選択 |
キーワード | サブキーワードとして使用する文字列を入力 ※正規表現で指定可能 |
ベースメタデータ | 他のメタデータをベースメタデータ(親となるメタデータ)として使用する場合は、ドロップダウンより選択 ベースメタデータを使用しない場合は、「指定しない」を選択 |
2行目のデータを取得する | 値の出力時に、抽出キーワードで指定された文字列 と 指定された文字列の下1列を抽出し結合する 詳細は下部「2行目のデータを取得する」を参照 |
座標 | 「値の抽出方法」が キーワードの座標指定 か 座標指定の時のみ指定可能 詳細は下部「座標を使用する」を参照 |
型指定 | 「値の抽出方法」の内すべてのパターンで指定可能 「値の抽出方法」が型指定の場合、データタイプか正規表現を必ず使用する データタイプの詳細は下部表「データタイプの種類」を参照 |
マージン拡張(右) マージン拡張(左) | 抽出キーワードの文字列の領域を拡大する 詳細は下部「マージン拡張」を参照 |
レコード区切り | 設定されたメタデータをレコードの分割を行う |
値取得個数の制限 | 「抽出キーワード」で取得する文字列の数に制限をかける 詳細は下部「値取得個数の制限」を参照 |
値を必須列とする | 設定されたメタデータを必須列とする 詳細は下部「値を必須列とする」を参照 |
デリミタを無視 | 設定されたメタデータでデリミタを無視する |
文字列中の部分一致 | 設定されたメタデータは文字列中で「抽出キーワード」を使用することができる 詳細は下部「文字列中の部分一致」を参照 |
明細名 | 明細出力の際の明細名を入力する |
スクロールできます
・値の抽出方法
値の抽出方法 | 詳細 |
キーワード | 実際の帳票上の文字列を使用し、方向や条件を定義して読み取りを行う方法 |
キーワードの座標指定 | 座標を指定し、指定された座標内に仮のキーワードがあると見なして、仮のキーワードから方向や条件を定義して読み取りを行う方法 実際の帳票上にある文字列を指定することはできない |
座標指定 | 座標を指定し、指定された座標内に存在する文字列を読み取る方法 |
型指定 | キーワードや座標を使用せず、DATATYPE や 正規表現 を使用して読み取りを行う方法 |
スクロールできます
・サブキーワードを指定する
メタデータ 「item_amount」 で、金額(税抜)の下方向を抽出する定義を行っている場合に、サブキーワードの条件で消費税の金額を抽出します。
「サブキーワードを指定する」を選択した場合、「ベースメタデータ」もしくは「抽出キーワード」に合わせ、サブキーワードを指定します。
1.「ベースメタデータ」を使用する場合
①メタデータ設定画面で「値の抽出方法」をキーワードに指定し、「サブキーワードを指定する」にチェックを入れる
②「ベースメタデータ」を指定し、追加する条件に合わせ、「キーワード」と「方向」を指定する
2.「抽出キーワード」とサブキーワードを両方使用する場合
①メタデータ設定画面で「値の抽出方法」をキーワードに指定し、「サブキーワードを指定する」にチェックを入れる
②「抽出キーワード」「値の探索方向」を指定し、「方向」「キーワード」を指定する
・2行目のデータを取得する
キーワード「住所」の右方向を抽出する場合に、抽出できる文字列の下1行を抽出します。
キーワード「住所」で取得できるのは「東京都中央区勝どき3丁目13-1」までですが、2行目の値を取得することで、「フォアフロントタワーⅡ 12階」まで取得が可能となります。
・座標を使用する
「値の抽出方法」でキーワードの座標指定、座標指定を選択した場合、座標の入力をマウスの範囲指定で行います。
1.メタデータ設定画面で「キーワードの座標指定」もしくは「座標指定」を選択した上で、決定を押しメタデータ設定画面を閉じます。
2.画面上の画像で該当の位置をマウスドラッグで指定します。
・データタイプの種類
データタイプ | 説明 |
DATE_YMD | 年、月、日 の並びと合致するものを値とする 西暦・和暦ともに対応 |
DATE_MDY | 月、日、年 の並びと合致するものを値とする |
DATE_DMY | 日、月、年 の並びと合致するものを値とする |
YEN | 日本円のフォーマットと合致したものを値とする |
DOLLAR | 想定のフォーマット(アメリカドル、カナダドル等、小数点以下1桁以上の通貨)と合致するものを値とする |
PAGE | ページ番号とページ総数のフォーマットと合致するものを値とする |
NUMBER | 数値(整数と小数)で合致したものを値とする |
STRING | バリデーションを実施せず、抽出したそのものを値として扱う |
スクロールできます
・マージン拡張
「マージン拡張(右)」は領域を右に拡大します。
「マージン拡張(左)」は領域を左に拡大します。
・値取得個数の制限
「抽出キーワード」で取得する文字列の数に制限をかけることができます。
・値を必須列とする
設定されたメタデータを必須列とします。
「製品番号」を必須列とすると、製品番号の項目が存在しない行の値を取得しません。
・文字列中の部分一致
設定されたメタデータは文字列中で「抽出キーワード」を使用することができます。