目次
- 概要
- 更新履歴
- 2024/11/11 v5.1.1
- 2024/09/05 v5.1.0.1
- 2024/08/30 v5.1.0
- 2024/06/28 v5.0.2
- 2024/05/20 v5.0.1
- 2024/04/02 v5.0.0
- 2024/01/10 v4.2.3
- 2023/11/08 v4.2.2
- 2023/09/20 v4.2.1
- 2023/06/22 v4.2.0
- 2023/02/28 v4.1.0
- 2022/12/09 v4.0.1
- 2022/12/01 v4.0.0
- 2022/10/04 v3.3.0
- 2022/06/20 v3.2.3
- 2022/04/18 v3.2.2
- 2022/02/21 v3.2.1
- 2021/12/15 v3.2.0
- 2021/11/01 v3.1.0.1
- 2021/10/13 v3.1.0.0
- 2021/08/11 v3.0.2.1
- 2021/07/30 v3.0.2
- 2021/07/12 v3.0.1
- 2021/06/01 v3.0.0
- 2021/04/12 v2.3.4.1
- 2021/03/29 v2.3.4
- 2021/03/12 v2.3.3
- 2021/01/22 v2.3.2
- 2020/11/12 v2.3.1
- 2020/08/31 v2.3.0
- 2020/07/06 v2.2.2
- 2020/06/08 v2.2.1
- 2020/05/01 v2.2.0
- 2020/03/25 v2.1.8
- 2020/02/12 v2.1.7.1
- 2019/12/27 v2.1.7
- 2019/11/29 v2.1.6.1
- 2019/11/15 v2.1.6.0
- 2019/09/06 v2.1.5.0
- 2019/08/07 v2.1.4.3
- 2019/07/26 v2.1.4.2
- 2019/07/15 v2.1.4
- 2019/05/24 v2.1.3
- 2019/04/08 v2.1.2
- 2019/02/08 v2.1.1
- 2018/11/01 v2.1.0
- 2018/10/09 v2.0.2
- 2018/09/07 v2.0.1
- 2018/08/24 v2.0.0
- 2018/06/13 v1.3.6
- 2018/04/12 v1.3.5
- 2018/04/04 v1.3.4
- 2017/12/27 v1.3.3
- 2017/12/22 v1.3.2
- 2017/12/08 v1.3.1
- 2017/11/30 v1.3.0
- 2017/10/23 v1.2.1
- 2017/10/13 v1.2.0
- 2017/10/04 v1.1.0
- 2017/09/20 v1.0.0
概要
名 称 :AIRead
作成日時:2017/12/27
更新日時:2024/11/11
著作権 :アライズイノベーション株式会社
更新履歴
2024/11/11 v5.1.1
< AIRead >
(1)「座標指定(全文OCR)」を追加
・読み取り方法に「座標指定(全文OCR)」を追加しました。
以下のオプションが選択可能です。
・抽出条件
- 座標内の一部にかかるコンポーネントを抽出する
→指定した座標から文字がはみ出した場合でも誤読が少ない状態で抽出できます。
- 座標内に完全に収まるコンポーネントを抽出する
・抽出対象の文字列
- コンポーネントを結合し出力する
→文字列の間隔が空いている場合でも座標範囲内の文字はすべて抽出します。
- 最も面積の大きなコンポーネントのみを出力する
→文字列の間隔が空いている場合、どれか1つのカタマリだけ抽出します。
(2)座標指定+テキスト付PDFに対応
・座標指定でPDFに付与されているテキストを使用した抽出に対応しました。
- コントロールパネル
・文字認識 > 全体OCR > テキスト付PDFでもOCRを実行する からチェックを外す
- 設定ファイル
・OCR_PDF_WITH_TEXT=false
(3)不具合修正
・「TIFFを300DPIに変換してからOCRを実行する」(CONV_TIFF_DPI)を有効にするとエラーになる問題を修正しました。
・「テキスト付PDFでもOCRを実行する」が無効になっていてもOCRがかかってしまう問題を修正しました。
・読み取り方法「キーワード」でキーワードが検知できない不具合を修正しました。
< FormEditor >
(1)利便性向上
・PDFの登録に失敗した場合のメッセージを見直しました。
(2)不具合修正
・拡張子がPDF(大文字)のファイルを画像登録しようとするとエラーになる問題を修正しました。
< ControlPanel >
(1)利便性向上
・項目名が選択してコピーできるようになりました。
2024/09/05 v5.1.0.1
< AIRead >
(1)不具合修正
・位置合わせありの場合に読み取り位置がずれてしまう問題を修正しました。
2024/08/30 v5.1.0
< AIRead >
(1)読み取り方法「キーワード」の機能追加
・改行を認識して\nとして出力する機能を追加しました。
- コントロールパネル
・文字認識 > 座標指定 > 改行を出力
- 設定ファイル
・RECOGNIZE_NEWLINE=true(デフォルトはfalse)
・帳票のどの矩形(表)から取得した値かをRIDで区別できるようにしました。
- 表ごとに10000単位でスタートの番号を分ける
→1つ目の表のRIDは10000スタート、2つ目の表のRIDは20000スタート
(2)読み取り方法「型指定」の変更
・型指定で抽出したコンポーネントへRIDを振るようにしました。
(3)利便性向上
・座標指定のmulti2モデルの項目についてGPUが使用できるようにしました。
(4)不具合修正
・読み取り方法「キーワード」の読み取り結果で文字の順番が不正になる問題を修正しました。
・画像仕分けでエラーになる問題を修正しました。
・回転補正ありで実行した場合にsuccessに出力される画像が回転されない問題を修正しました。
< FormEditor >
(1)ShortcutCreatorの統合
・ShortcutCreatorをFormEditorへ統合しました。
「ショートカット」タブからショートカットを作成できます。
< Viewer >
(1)不具合修正
・ヘッダー設定の項目の順番を入れ替えても出力結果の順番が変わらない問題を修正しました。
・修正画面で「保存して確定」を押すと強制終了する問題を修正しました。
2024/06/28 v5.0.2
< AIRead >
(1)テキスト付PDF+キーワード指定の精度向上
・テキスト付PDF+キーワード指定の抽出精度を改善しました。
(2)読み取り方法「キーワード」で矩形内の値のみ取得する機能
・読み取り方法「キーワード」で、矩形内にある値のみ取得できるようになりました。
- 定義ファイル(AIRead_format.ini)
26列目:1を指定
(3)バーコード形式「Code128」対応
・バーコード形式「Code128」を読み取れるようになりました。
- FormEditor
読み取り方法=バーコード
種類で「Code128」を選択
- 定義ファイル(AIRead_format.ini)
9列目(type)で「0:Code128」を指定
(4)回転補正機能の精度向上
・文字が少ない帳票の回転補正の精度を向上しました。
(5)不具合修正
・仕分けOCRで「テキスト付きPDFでもOCRを実行する」のチェックを外してもOCRが実行されてしまう問題を修正しました。
・キーワード指定のパラメータ明細必須列がどれか一つでも有効になっていると明細項目のレコードがすべて出力されない問題を修正しました。
・キーワード指定のすべての項目が「キーワード正規表現」有効の場合エラーになる問題を修正しました。
・PRIORITY_MODEL_PATHが効かない問題を修正しました。
・活字だけの定義でAIReadを実行するとエラーになる問題を修正しました。
・メモリを大量に使用してしまう問題を改善しました。
< ControlPanel >
(1)読取モード別に出力フォーマットを選択できる機能
・定義なしOCRの出力フォーマットを選択できるようにしました。
- 「基本設定」タブ→「読取モード」で「定義なしOCR」を選択
- 「出力フォーマット」を選択
・SIMPLE_CSV
・SIMPLE_SEPARATE_CSV
・SIMPLE_TXT
・SIMPLE_SEPARATE_TXT
(2)不具合修正
・個別設定で環境タブはすべて個別設定不可にしました。
・ヘッダーアイテムで指定できる「file_idenfication_type」を「idenfication_type」に変更しました。
< FormEditor >
(1)利便性向上
・仕分け定義タブのキーワード列の表示を広くしました。
(2)不具合修正
・読み取り方法=キーワードの正規表現に全角文字が入力できない問題を修正しました。
・読取り定義のformのフォルダにPDFがあるとエラーになる問題を修正しました。
・フォームをリネームすると仕分け定義のキーワードが消える問題を修正しました。
・仕分けOCRの実行でテンプレート画像がないとエラーになる問題を修正しました。
・テンプレート画像がないと読取定義の一覧が表示されない問題を修正しました。
2024/05/20 v5.0.1
< AIRead >
(1)全文セルOCRの機能追加
・全文セルOCR(COMPONENT_LEVEL=CELL)でmulti2_xxxモデルが利用可能になりました。
(2)読み取り方法「キーワード」の正規表現指定
・読み取り方法「キーワード」で、キーワードを正規表現で記載できるようになりました。
- 定義ファイル(AIRead_format.ini)
19列目(キーワード):正規表現の形式でキーワードを指定
25列目:1を指定
(3)不具合修正
・仕分けあり、かつコントロールパネルの「アウトプットと帳票識別の単位」が「ページ単位でアウトプット、帳票識別」の場合にcsvのform_idが必ず1ページ目のform_idになってしまう問題を修正しました。
・読み取り方法「固定値」でグループ名を指定するとエラーになってしまう問題を修正しました。
・読み取り方法「キーワード」で帳票の見た目通りにレコードが出力されない問題を修正しました。
・読み取り方法「キーワード」で処理が進まなくなる問題を修正しました。
・読み取り方法「キーワード」でマージン拡張の範囲が不正な問題を修正しました。
・白紙ページがあると仕分けができずに処理が終了してしまう問題を修正しました。
・GPU環境でライブラリが不足していてエラーになってしまう問題を修正しました。
・GPUでAIReadを実行すると必ずリターンコード「-1073740791」で終了してしまう問題を修正しました。
・ネットワーク接続がない環境でOCRがエラーになってしまう問題を修正しました。
< FormEditor >
(1)不具合修正
・仕分け設定の「仕分けで読み取りをしたい範囲」が保存されない問題を修正しました。
2024/04/02 v5.0.0
< AIRead >
(1)新ルール指定
・FormEditorで作成する定義でルール指定(キーワード指定、キーワードの座標指定、型指定)ができるようになりました。
・新ルール指定では手書きのmulti2_xxxモデルが利用可能です。
- コントロールパネル
文字認識タブ→使用するモデル
リストから選択する
手書きモデル:「手書き用OCRモデル」で指定したモデルを利用、multi2から始まるモデルのみ(デフォルト)
活字モデル:「活字用OCRモデル」で指定したモデルを利用
デフォルト:手書きモデル
環境タブ→GPUを使用する
チェックあり:GPUを使用する
チェックなし:CPUを使用する(デフォルト)
デフォルト:チェックなし
環境タブ→バッチサイズ
数値を入力、-1以上の数値
デフォルト:8
説明:まとめて処理する文字列の数。値が大きいとパフォーマンスが向上する。
コンピューターのリソース (CPU、RAM など) が少ない場合に値を大きくすると、遅延が発生する可能性がある。
対象はmulti2モデルのみ。
-1を指定するとページ単位で動的に画像内の文字列数を設定する。
- 共通設定ファイル
OCR_ENGINE:
TESSERACT:活字モデル(DEVICEに影響しない)
ONNX:CPU向け手書きモデルのエンジン
PYTORCH:GPU向け手書きモデルのエンジン
DEVICE:
cpu:CPUでmulti2モデルの読取りを実行
gpu:GPUでmulti2モデルの読取りを実行
OCR_BATCH_SIZE:
コントロールパネルのバッチサイズと同様
(2)キーワード仕分け機能
・座標指定、ルール指定に関わらず、キーワードで仕分けができる機能を追加しました。
・仕分けで読み取りをしたい範囲と使用するOCRモデルは仕分け定義のsetting.iniで指定します。
- keywordRect:仕分けで読み取りをしたい範囲。方向(T Top:上、B Bottom:下、R Right:右、L Left:左)と割合で指定。
指定した範囲内に少しでもかかっている文字列について読み取る。
例)keywordRect=T,20,L,50 → 上から20%、かつ左から50%の範囲
※ルール指定を含む場合、このパラメータは無視して画像全体を読み取る
- classificationType:
IMAGE_FEATURE:画像の特徴点で仕分け(デフォルト)
KEYWORD:キーワード仕分け
・識別キーワードは仕分け定義のoption.csvの11列目にformごとに記載します。
- AND条件は半角スペース、OR条件はセミコロン(;)
・仕分け用に実行したOCRのデバッグファイルは以下を出力します。
_sorting.[拡張子]_debug.jpg
_sorting.[拡張子]_debug_AireadResult.tsv
(3)ライセンスの変更
・v5.0.0からライセンスを変更しました。v4.x以前のライセンスはご利用できません。
・有効期限、契約ページ数で利用を制限する機能を追加しました。
(4)不具合修正
・仕分けOCRで途中のページで失敗した場合に残りのページが処理されない問題を修正しました。
< FormEditor >
(1)RuleEditorとSortingEditorを統合
・RuleEditorとSortingEditorは廃止とし、機能を統合しました。
< ControlPanel >
(1)利便性の向上
・RuleEditorとSortingEditorの統廃合に伴い、パラメータの配置を修正しました。
・読取ページ数を月単位で表示できるようにしました。
< その他 >
(1)構成変更
・インストールフォルダのフォルダ構成を一部変更しました。
(2)補助ツール
・旧RuleEditorの定義をv5.x以降で使用できるように変換ツールを用意しました。
scripts\MetadataSettingIni2FormatIni-1.0.jar
使用方法はrun_MetadataSettingIni2FormatIni.batを参照してください。
2024/01/10 v4.2.3
< AIRead >
(1)精度向上
・手書き日本語モデルのサポートする文字を拡充しました。
- 名前:multi2_jpn
(2)機能追加
・座標指定OCRでファイル単位でアウトプット、帳票識別はページ単位で処理する機能を追加しました。
- コントロールパネル
「複数ページの帳票ファイルを1つの帳票として処理する」を「アウトプットと帳票識別の単位」に変更リストから選択する
ページ単位でアウトプット、帳票識別(デフォルト)
ファイル単位でアウトプット、帳票識別は1ページ目のみ
ファイル単位でアウトプット、帳票識別はページ単位
- 共通設定ファイル
FILE_IDENFICATION_TYPE:
0(ページ単位でアウトプット、帳票識別)
1(ファイル単位でアウトプット、帳票識別は1ページ目のみ)
2(ファイル単位でアウトプット、帳票識別はページ単位)
・HEADER_ITEMにgroup_name(formidが存在するフォルダ)を追加しました。
(3)構成の変更
・ConvertPDFToPNG.jarをAIReadEE.jarへ統合しました。
(4)不具合修正
・テキスト付PDFでsuccess/failedフォルダへの移動に失敗する問題を修正しました。
・キーワード指定OCRで「改善した文字列検知ロジックを使用する」と「行間隔の狭い文字列の精度改善」にチェックがある場合、まれにエラーになる問題を修正しました。
・キーワード指定OCRで「複数ページの帳票ファイルを1つの帳票として処理する」にチェックがない場合、未対応形式のファイルを処理した場合にCSVが出力されない問題を修正しました。
< FormEditor >
(1)不具合修正
・テキスト付PDFの画像を登録した時に文字がずれてしまう問題を修正しました。
・その他軽微な不具合を修正しました。
< RuleEditor >
(1)不具合修正
・FormIDの先頭が数字だとアプリが落ちる問題を修正しました。
< Viewer >
(1)利便性の向上
・リスト表示範囲が「Page」の場合、ページ単位でステータスを保持するようにしました。
・一覧画面に「グループ名」の列を追加しました。
・「確定」ボタンの名称と位置を変更しました。
- 「確定」→「保存し確定」
・画像の拡大率を記憶するようにしました。
2023/11/08 v4.2.2
< AIRead >
(1)精度向上
・手書き英語の新しいモデルをリリースしました。
- 名前:multi2_eng
(2)利便性の向上
・FILE_IDENFICATION_TYPE=0の場合、表示用画像をページ単位で出力できるようにしました。
(3)不具合修正
・罫線除去で欠けてしまった文字の復元処理が効かない問題を修正しました。
・新ロジックの位置合わせを使用して大量ページを実行するとメモリエラーになる問題を修正しました。
・サブフォームの読み取りでエラーになる問題を修正しました。
< ControlPanel >
(1)利便性の向上
・基本設定タブのパラメータ名を変更しました。
「出力ファイル名にタイムスタンプを付与する」→「出力ファイル名に日付時刻を付与する」
< FormEditor >
(1)利便性の向上
・読取定義のサブウインドウで別の項目を開けるようにしました。
・読取定義の各列の幅を記憶するようにしました。
・AIReadボタンのダイアログの参照ボタン押下後の表示フォルダを記憶するようにしました。
・項目名で以下の予約語は使用できないようにしました。
Image
Image_jshfilename
modifyDate
processDate
result
original
original_jshfilename
form_id
Image_for_display
< RuleEditor >
(1)利便性の向上
・抽出ルール設定の各列の幅を記憶するようにしました。
・項目名で以下の予約語は使用できないようにしました。
Image
Image_jshfilename
modifyDate
processDate
result
original
original_jshfilename
form_id
Image_for_display
(2)不具合修正
・識別キーワード変更後にformをリネームすると識別キーワードが変更前に戻ってしまう問題を修正しました。
< Viewer >
(1)利便性の向上
・タブおよびエンターキーで入力項目や各ボタンを移動できるようにしました。
・データ出力時の命名規則で以下を使用できるようにしました。
:システム日付(西暦の数字4桁 yyyy)
:システム日付(月の数字2桁 mm)
:システム日付(日付の数字2桁 dd)
2023/09/20 v4.2.1
< AIRead >
(1)精度向上
・手書きカタカナの新しいモデルをリリースしました。
- 名前:multi2_katakana
(2)点線削除の精度向上
・点線/破線削除の精度向上のため、以下のパラメータを追加しました。
- コントロールパネル
①画像処理 > 点線の間隔(横):横点線の間隔をピクセルで指定します。点と点の間隔が広い場合は大きい値を設定してください。(デフォルト値:12)
②画像処理 > 点線の間隔(縦):縦点線の間隔をピクセルで指定します。点と点の間隔が広い場合は大きい値を設定してください。(デフォルト値:7)
- 共通設定ファイル
ERODE_W:点線の間隔(横)
ERODE_H:点線の間隔(縦)
・点線検知のロジックを微修正しました。
(3)ドット削除の精度向上
・ドット削除の精度向上のため、以下のパラメータを追加しました。
- コントロールパネル
①画像処理 > ドットの除去(背景、点線)を行う:チェックを入れるとドットの除去をします。
②画像処理 > 除去したいドットの幅:削除したい背景や点線のドットのサイズの幅をピクセルで指定します。(デフォルト値:3)
③画像処理 > 除去したいドットの高さ:削除したい背景や点線のドットのサイズの高さをピクセルで指定します。(デフォルト値:3)
④画像処理 > 罫線/点線削除の前にドットを削除:チェックを入れると罫線/点線削除の前にドットを削除します。(デフォルト値:true)
※従来の「ドット背景除去を行う」は非表示にしました。「すべて表示」ボタンを押下で表示されます。
- 共通設定ファイル
REMOVE_DOT:true/false(デフォルト値:false)
DOTLINE_SIZE_W:除去したいドットの幅
DOTLINE_SIZE_H:除去したいドットの高さ
REMOVE_DOT_BEFORE_LINE:true/false(デフォルト値:true)
・本機能で点線を削除することも可能です。本機能で点線を削除した場合はノイズとみなすため、文字列の区切りなどに使用されません。
(4)[座標指定]アウトプット形式CSV4DBの出力内容を変更
・座標指定でアウトプット形式をCSV4DBでアウトプットした場合、明細項目は別ファイルで出力するように変更しました。
(5)不具合修正
・AIReadEE.jarの実行引数のオプション--input/--outputで、値の最後にバックスラッシュがあるとエラーになる問題を修正しました。
2023/06/22 v4.2.0
< AIRead >
(1)[座標指定]手書きモデル(multi)複数行対応
・手書きモデル(multiから始まる)を指定した読取範囲に複数行文字列がある場合の読み取りに対応しました。
- FormEditor
・行数:複数行を選択(デフォルトは1行)
・行判定の閾値:数値
→行を分割するための横方向の画素値の平均値(0~255)
推奨は248。文字数が少ない場合は値を大きく、文字数が多い場合は値を小さくすると良い。
- 設定ファイル(AIRead_format.ini)
・19列目にrows列を追加
[行数]:[行判定の閾値] の形式で記載
行数:(デフォルトは0)
0:1行
1:複数行
(2)[座標指定]位置合わせ機能の精度向上
・DeepLearningを使用した最大矩形/外接矩形での位置合わせ機能を追加しました。
- FormEditor
・位置合せタブで以下のどちらかを選択
外接矩形を自動検知し位置を合わせる(推奨)
大きな矩形で位置を合わせる
→旧ロジックは名称を変更
(旧)外接矩形を自動検知し位置を合わせる
(旧)大きな矩形で位置を合わせる
- 設定ファイル(AIRead_format.ini)
・12列目のtypeで以下を指定
3:大きな矩形で位置を合わせる
4:外接矩形を自動検知し位置を合わせる
- tessdataフォルダにモデルtabledetection.onnxを追加
(3)PDFにJPEG2000形式の画像が含まれるケースに対応
・PDFにJPEG2000形式の画像が含まれる場合でも読み取れるようにしました。
(4)[ルール指定]画像の解像度が大きい場合に小さくしてからOCRを実行する機能
・画像の解像度が大きい場合(長辺が5000px以上)、小さくしてからOCRを実行する機能を追加しました。
- コントロールパネル
モード別設定 > 「画像の解像度が大きい場合に小さくする」にチェックを入れる。
- 設定ファイル
REDUCE_IMAGE_BEFORE_OCR=true(記載しない場合はfalse)
(5)不具合修正
・2ファイル目以降の保管用画像が1ファイル目の名前になってしまう問題を修正しました。
< FormEditor >
(1)不具合対応
・チェックマーク項目を複数選択して一括編集した場合に異常終了する問題を修正しました。
< Viewer >
(1)不具合修正
・inputフォルダに複数ファイルを置いて実行した場合に、読み取り結果がに正常に表示されない問題を修正しました。
・編集画面で「×」ボタンで画面を閉じるとデータが消えてしまう問題を修正しました。
・Viewer起動ありでAIReadを実行した場合にスプラッシュ画面を表示しないようにしました。
2023/02/28 v4.1.0
< AIRead >
(1)読取後にコマンド実行できる機能
・AIReadによる帳票の読み取り後に実行するコマンドライン文字列を、設定できるようになりました。
- コントロールパネル
①後処理設定 > 「読取後に実行するコマンドライン文字列」にコマンドラインを入力する
- 設定ファイル
①POST_JOB_COMMAND=読取後に実行するコマンドライン文字列
(2)精度向上
・手書き名前のモデルを変更しました。以下のモデルが指定されます。
- 名前:multi2_jpn_name
(3)利便性の向上
・[座標指定]固定値の値が空の場合でも正常終了するように修正しました。
(4)不具合対応
・活字OCRで文字が欠ける問題の一部を改善しました。
・[座標指定]保存用画像生成を有効にしてinputフォルダへ複数のファイルを置いて実行した場合、1ファイルしか保存用画像が
作成されない問題を修正しました。
< FormEditor >
(1) 精度向上
・手書き名前のモデルを変更しました。以下のモデルが指定されます。
- 名前:multi2_jpn_name
- 名前(旧):jpn_name
(2)利便性の向上
・読取定義画面において「個別後処理」が「個別読取結果変換」に名称が変更されました。
・起動中にスプラッシュ画面を表示するようになりました。
・読取定義で項目が設定されていなくても、帳票定義を保存できるようになりました。
・画像の拡大縮小機能で、Ctrl+マウスホイールでの操作時と右下の「+」「ー」ボタンのクリック時の拡大/縮小率を統一しました。
・読取定義作成時のデフォルト値を以下のように変更しました。
- 使用するモデル:活字
- ずれ修正 > 基準:セル
- ずれ修正 > 基準 > 方法;「上下左右」すべてにチェックあり
(3)不具合対応
・位置合わせ認識後にテンプレート画像の拡張子が変わってしまう問題を修正しました。
< RuleEditor >
(1)利便性の向上
・メタデータ設定画面において、「後処理」が「個別読取結果変換」に名称が変更されました。
・起動中にスプラッシュ画面を表示するようになりました。
・画像の拡大縮小機能について、Ctrl+マウスホイールでの拡大縮小率を調整しました。
・画像の拡大縮小機能について、右下の「+」「ー」ボタンで拡大/縮小する機能を追加しました。
・「抽出ルール設定」の項目の幅を記憶するようにしました。
< Viewer >
(1)利便性の向上
・ファイル名をページ番号の降順でソートするように変更しました。
< ControlPanel >
(1)利便性の向上
・起動中にスプラッシュ画面を表示するようになりました。
・「個別後処理設定」タブのタブ名、パラメータ名を変更しました。
- 「個別後処理設定」タブ→「後処理設定」タブ
- 「保存先」→「個別読取結果変換リストの保存先」
- 「個別後処理変換リスト名」→「変換リスト名」
2022/12/09 v4.0.1
< FormEditor >
(1) 不具合修正
・PDFを取り込むとエラーになる場合がある問題を修正しました。
< RuleEditor >
(1) 不具合修正
・PDFを取り込むとエラーになる場合がある問題を修正しました。
< Viewer >
(1) 不具合修正
・PDFを取り込むとエラーになる場合がある問題を修正しました。
< SortingEditor >
(1) 不具合修正
・PDFを取り込むとエラーになる場合がある問題を修正しました。
2022/12/01 v4.0.0
< AIRead >
(1) 精度向上
・手書き日本語のモデルを変更しました。以下のモデルが指定されます。
- 日本語:multi2_jpn
※従来の日本語モデル(jpnフォルダ)も日本語(旧)として使用することが可能です。
(2) Windows11への対応
・Windows11へのインストールが可能になりました。
(3) 不具合修正
・座標指定において、項目名、GID、RIDが同じでも結合されない場合がある不具合を修正しました。
< FormEditor >
(1) 精度向上
・日本語のモデルを変更しました。以下のモデルが指定されます。
- 日本語:multi2_jpn
- 日本語(旧):jpn
2022/10/04 v3.3.0
< AIRead >
(1) 保管用画像出力機能
・電子帳票保存法向けに保管用の画像を出力する機能を追加しました。
- コントロールパネル
①基本設定 > 「保管用画像を生成する」にチェックを入れる。
②基本設定 > 「保管用画像出力フォルダ」にディレクトリーを入力する。
③基本設定 > 「保管用画像のファイル名」にファイル名を入力する。
- 設定ファイル
①CREATE_PRESERVATION_IMAGE=true(true:保管用画像を生成する、記載しない場合はfalse)
②PRESERVATION_IMAGE_DIR=保管用画像を出力するフォルダのパス
③PRESERVATION_IMAGE_NAME=保管用画像のファイル名
(2) 不具合修正
・テキスト付PDFの読取で文字が抜けてしまう問題を修正しました。
・読取枚数を確認するコマンドIDE_License.bat countが0件になってしまう問題を修正しました。
< RuleEditor >
(1) 不具合修正
・「サブキーワードを指定する」でベースメタデータに「キーワードの座標指定」のルールが選択できない問題を修正しました。
< Viewer >
(1) 利便性向上
・データ出力のダイアログで前回入力した内容を表示するようにしました。
(2) 不具合修正
・修正画面で明細の読み取った項目が表示されない問題を修正しました。
< ControlPanel >
(1) 利便性向上
・任意のパラメータを共通設定ファイルに記載していた場合、ControlPanelで保存時に削除せず残すようにしました。
2022/06/20 v3.2.3
< AIRead >
(1) 活字Japanese_modモデルの精度向上
・Japanese_modモデルで以下の文字の読取精度を向上しました。(右は読取結果)
㈱ → (株)
㈲ → (有)
▲ → -
(2) デフォルト値の変更
・精度向上のため、共通設定ファイルの下記項目のデフォルト値を変更しました。
- 短い罫線(横)除去の閾値 SHORT_LINE_THRESH_H=30
- 短い罫線(縦)除去の閾値 SHORT_LINE_THRESH_V=30
- 細かいノイズ除去の閾値(幅) THIN_LINE_REMOVAL_THRESHOLD_W=3
- 細かいノイズ除去の閾値(高さ) THIN_LINE_REMOVAL_THRESHOLD_H=3
- 矩形の丸い角を除去する閾値 ROUNDED_CORNER_THRESHOLD=30
(3) [キーワード指定]行間隔が狭い文字列の読取精度向上
・行間隔が狭い文字列の読取精度を向上しました。
- コントロールパネル
モード別設定 - キーワード指定モード >「行間隔の狭い文字列の精度改善」
- 設定ファイル
STRING_DETECTION_SPLIT_LARGE_RECTANGLE=true(共通設定ファイルに記載しない場合はfalse)
※「改善した文字列検知ロジックを使用する」が有効であることが前提
(4) 不具合修正
・「改善した文字列検知ロジックを使用する」が有効の場合に文字を二重で読み取ってしまう問題を修正しました。
・その他軽微な不具合を修正しました。
< ControlPanel >
(1) ユーザ認証機能
・各アプリケーションの実行をユーザ認証で制御できるようになりました。
- ユーザが登録されている場合、各アプリ起動時にユーザ認証をするかチェックし、必要であれば認証を行いアプリを起動する
対象アプリ:AIRead実行(ショートカット)、ControlPanel、FormEditor、RuleEditor、SortingEditor、Viewer、
ShortcutCreator、TrainStudio、TrainStudioHW
- ユーザを登録しない場合はアプリの実行で認証はしない(従来通り)
※TrainStudio、TrainStudioHWはダウンロードサイトから別途ダウンロードする必要があります
(2) 取り消された文字は認識しない機能の非表示
・機能を有効にした場合の副作用が大きいため、機能を非表示にしました。
2022/04/18 v3.2.2
< AIRead >
(1) サブイメージの読取精度向上
・ファイザーのロットシールが斜めになってしまう問題を修正しました。
・モデルナのロットシールが読み取れない問題を修正しました。
(2) 文字復元機能の精度向上
・文字復元機能を有効にした場合に復元する文字の精度を改善しました。
(3) 斜め線除去機能
・画像内のテーブル(表)に含まれる斜めの線を除去する機能を追加しました。
- コントロールパネル
画像処理 >「斜め線を除去」
- 設定ファイル
REMOVE_DIAGONAL_LINES=true(デフォルトはfalse)
(4) [座標指定]改行を出力する機能
・改行を認識して\nとして出力する機能を追加しました。
- コントロールパネル
モード別設定 - 座標指定モード >「改行を出力」
- 設定ファイル
RECOGNIZE_NEWLINE=true(デフォルトはfalse)
< FormEditor >
(1) 利便性向上
・Editor(Form,Rule,Sorting)からAIReadを実行した場合はinputファイルを残すようにしました。
(2) 不具合修正
・丸囲みを設定した場合に保存されない問題を修正しました。
・サブフォームで登録済みの固定値の表示が初期化されてしまう問題を修正しました。
< Viewer >
(1) 不具合修正
・データ出力でCSV(カンマ区切り)を指定した場合にステータスが更新されない問題を修正しました。
< インストーラ >
(1)インストール指定先の変更
・半角スペースを含むフォルダへのインストールを禁止しました。
(2)sample定義の修正
・sampleフォルダのorderの定義を最新版に合わせ修正しました。
2022/02/21 v3.2.1
< AIRead >
(1) 直線除去時の文字高さに対する倍数の設定機能
・LINE_REMOVAL_THRESHOLD=0の場合に、文字高さ平均の何倍を罫線除去の閾値とするかを設定できるようになりました。
- コントロールパネル
画像処理 >「直線除去時の文字高さに対する倍数」
- 設定ファイル
LINE_REMOVAL_MULTIPLE_BY_TEXT_HEGHT=<数値> を記載
→「未指定の場合は1.3」に変更
(2)利便性向上
・ルール指定での実行時、dicsetフォルダより下に出力されるログのログレベルを指定できるようになりました。
SIMPLEFORM_LOG_LEVEL=0を設定することで処理時間の向上が見込めます。
- システム設定(kme.conf)
SIMPLEFORM_LOG_LEVEL=0~3
指定値:
0:エラーログのみ
1:必要最低限出力する(デフォルト)
2:一部個別機能のログも出力する
3:全て出力する
・inputフォルダ、outputフォルダを引数で与えられるようにしました。
共通設定ファイルよりも引数が優先されます。以下の引数を指定します。
- inputフォルダ:--input <フォルダパス>
- outputフォルダ:--output <フォルダパス>
(3)不具合修正
・USE_DL_STRING_DETECTION=trueでOCRを実行した場合に、文字が複数回出力される問題を修正しました。
・multiモデルの信頼度が100になる問題を修正しました。
・AIReadEEInit.jarの実行でログが出力されなくなった問題を修正しました。
・その他軽微な不具合を修正しました。
< FormEditor >
(1)精度向上
・手書き数値とカタカナのモデルを変更しました。以下のモデルが指定されます。
- 手書き数値:multi_numeric
- 手書きカタカナ:multi_katakana
※新しいモデルはダウンロードしてください。
(2)利便性の向上
・選択した項目が画像の表示範囲に移動するようにしました。
・複数項目を一括で変更できるようにしました。
・固定値の設定を「読取定義」画面の「読み取り方法」から設定するように変更しました。
(3) 不具合修正
・軽微な不具合を修正しました。
< RuleEditor >
(1)利便性の向上
・formをリネームできるようにしました。
・複数項目の「明細名」を一括で変更できるようにしました。
(2) 不具合修正
・軽微な不具合を修正しました。
< Viewer >
(1)データ出力機能の拡張
・CSVファイルの命名規則を指定できるようになりました。
・PDFを保存できるようになりました。
(2)利便性向上
・選択した項目が画像の表示範囲に移動するようにしました。
・修正画面で処理日時を表示するようにしました。
(3) 不具合修正
・帳票画像の描画で以前のページのものが表示される問題を修正しました。
・LEARNING_MODE=1の場合に修正画面で保存押下時に「インデックスが範囲を超えています」のエラーとなる問題を
修正しました。
・その他軽微な不具合を修正しました。
< ControlPanel >
(1)デフォルト値の変更
・下記項目のデフォルト値を変更しました。
- 短い罫線(横)除去の閾値 SHORT_LINE_THRESH_H=30
- 短い罫線(縦)除去の閾値 SHORT_LINE_THRESH_V=30
- 細かいノイズ除去の閾値(幅) THIN_LINE_REMOVAL_THRESHOLD_W=3
- 細かいノイズ除去の閾値(高さ) THIN_LINE_REMOVAL_THRESHOLD_H=3
- 矩形の丸い角を除去する閾値 ROUNDED_CORNER_THRESHOLD=30
※同梱している共通設定ファイルも同様。
(2)利便性の向上
・使用頻度の低い項目の場所を下に移動し、起動時は非表示にしました。
- ノイズ除去を行う DE_NOISE
- 罫線除去を無効化する SKIP_LINE_REMOVE
- 白黒反転処理を実施する黒の比率 BLACK_WHITE_THRESHOLD
- シャープ補正値 SHARPEN_VALUE
< SortingEditor >
(1)不具合修正
・仕分け実行時にsetting.iniの内容が初期値に戻ってしまう問題を修正しました。
< ShortcutCreator >
(1)新規追加
・AIReadの読取を実行するショートカット作成アプリを追加しました。
2021/12/15 v3.2.0
< AIRead >
(1)不具合修正
・仕分け付きOCRを実行する場合、帳票の2枚目以降の処理に時間がかかっていましたが、これを大幅に短縮しました。
< FormEditor >
(1)利便性向上
・読取定義のコピーが、コピー元の項目の直後に作成されるようになりました。
・[読取定義]→[言語]のリストは実際に配置されている手書きモデルのみ表示されるようになりました。
(2)チェック判定の出力変換機能
・設定方法
- 読取定義画面
・出力方法 > 個別指定 > Trueの値/Falseの値 に変換したい文字列を指定
(3)レコードIDの複数指定
・同一項目にレコードIDを一括して複数指定できるようになりました。
・設定方法
- 読取定義画面
・レコード > 「1-4」など「{開始レコードID}-{終了レコードID}」の形式で一括して複数指定
(4)不具合修正
・軽微な不具合を修正しました。
< Viewer >
(1)読み取り領域の透明化機能
・実行結果詳細画面において読み取り領域を透明にする設定を追加しました。
・設定方法
- メイン画面
・設定ボタンを押下 > 「読取枠を透明にする」にチェック
(2)信頼値しきい値の設定機能
・設定方法
- メイン画面
・設定ボタンを押下 > 「読取結果の信頼値のしきい値」を設定
(3)教師データの作成
・文字認識モデル学習のための教師データを作成できるようになりました。
<出力エンコード>
- コントロールパネル
①学習 > 「教師データを作成する」にチェックを入れる。
②学習 > 「教師データ作成フォルダ」にディレクトリーを入力する。
③学習 > 「学習するモデルの名称」にモデル名を入力する。
- 設定ファイル
①LEARNING_MODE=1(0を設定:AUTO_LEARNING_DIRフォルダへ教師データを作成しない)
②AUTO_LEARNING_DIR=相対パス(教師データを出力するフォルダ)
③AUTO_LEARNING_MODEL=モデル名(学習するモデル名)
(4)不具合修正
・読取直後の一覧に同じ内容が複数行表示される問題を修正しました。
・その他、軽微な不具合を修正しました。
< ControlPanel >
(1)利便性の向上
・「後処理」が「個別後処理」に名称が変更されました。
(2) 不具合修正
・軽微な不具合を修正しました。
(3)初期値の変更
・直線除去を行う最短の長さ(LINE_REMOVAL_THRESHOLD)の初期値が変更となりました。
v3.1.0 以前の初期値:200 → v3.1.0以降の初期値:0
< SortingEditor >
(1)利便性向上
・設定が不十分な場合のエラーメッセージの内容を改善しました。
2021/11/01 v3.1.0.1
< AIRead >
(1)不具合修正
・仕分け付きOCRを実行する場合、帳票の2枚目以降の処理に時間がかかっていましたが、これを大幅に短縮しました。
< Viewer >
(1)不具合修正
・保存の動作に関する不具合を修正しました。
2021/10/13 v3.1.0.0
< AIRead >
(1) 精度向上
・手書きにおいて、読取定義枠の大きさに比べ文字列の領域が小さい場合、余白を除去してから文字検知を行うことで
文字検知精度の向上をはかりました。
・手書きの言語「名前」「住所」に、それぞれ後処理の辞書データを追加しました。
(2) 仕分けのみ実行
・仕分け付きOCRの実行において、OCRを実施せずに仕分けのみを行う機能を追加しました。
(3) 表検出付きでテキスト付きPDFを読み取り
・テキスト付きPDFを抽出モード「キーワード指定(表検出付き)」で読み取れる機能を追加しました。
(4) 不具合の修正
・テキスト付PDFの帳票を読み込んだとき、罫線が一部消える不具合を修正しました。
・ログ出力の不具合を修正しました。
< FormEditor >
(1) 定義自動作成機能
・フォームを追加するとき、テンプレート画像(未記入/記入の二つ)から定義を自動作成する機能を追加しました。
(2) 外接矩形での位置合わせ
・位置合せにおいて、基準とする画像の外接矩形をもとに位置合わせを行う機能を追加しました。
(3) 不具合の修正
・位置合せにおいて、基準とする画像がTIFF形式のときに発生する不具合を修正しました。
< RuleEditor >
(1) 不具合の修正
・1つのファイルが12ページ以上の帳票を読み込んだときに発生する不具合を修正しました。
・「文書種別」の識別キーワードに「'」(シングルクォーテーション)を使用したときに発生する不具合を修正しました。
< Viewer >
(1)利便性の向上
・複数のViewerから同一の読取結果を参照・編集するときの排他制御機能を強化しました。
・読取結果の絞り込み、一括選択機能を追加しました。
< ControlPanel >
(1)利便性の向上
・座標指定モードで「位置合わせ外接矩形の認識マージン(FIX_TEXT_HEIGHT)」を設定できるようになりました。
(2) 不具合の修正
・軽微な不具合を修正しました。
< SortingEditor>
(1)仕分け機能
・仕分けの設定を行うGUI(AIRead SortingEditor)を追加しました。
2021/08/11 v3.0.2.1
< AIRead >
(1) 不具合の修正
・ControlPanelのモード別設定で「取り消された文字は認識しない」をONにすると、座標指定された手書き数値・電話番号
モデル(multi_numberモデル)、チェックマーク、丸囲みの項目を読み取れなくなる不具合を修正しました。
・設定ファイルでIS_DEBUG=falseとしても罫線画像(*_lines.jpg)が出力してしまう不具合を修正しました。
・入力帳票上のサブイメージと登録されたサブイメージのサイズが大幅に異なる場合、サブイメージの値を読み込めない
不具合を修正しました。
< Viewer >
(1) 不具合の修正
・「改善した文字列検知ロジックを使用する」を変更したときに、設定ファイルに誤ってUSE_DL_STRING_DETECTION=1、または
0で保存される不具合を、USE_DL_STRING_DETECTION=true又はfalseで保存されるように修正しました。
< Control Panel >
(1)利便性向上
・モード別タブの座標指定モードで、「位置合わせ外接矩形の認識マージン(FIX_TEXT_HEIGHT)」をControlPanelから変更できる
ようになりました。
(2) 不具合の修正
・画像処理タブで「除去する小さい矩形の最小面積」及び「除去する小さい矩形の最大面積」に整数以外を入力した場合に、
「少数で入力してください」という誤った警告メッセージが出る不具合を「整数で入力してください」と表示するように
修正しました。
・AIRead_setting_kw.iniの"Conf"の設定が表示されない不具合を修正しました。
・「直線除去を行う最短の長さ(ピクセル)」と「直線除去時の二値化の閾値」の初期設定が0ではない不具合を修正しました。
2021/07/30 v3.0.2
< AIRead >
(1) 精度向上
・タイミングマークでの位置合わせの精度が向上しました。
・サブイメージの文字認識の精度が、座標指定OCRを利用することにより向上しました。
(2) 利便性向上
・仕分け付きOCR機能でpng形式を扱えるようになりました。
(3) 不具合の修正
・「大きな矩形で位置を合わせる」を選択した時に発生するエラーを修正しました。
(4) デフォルトのサブイメージの指定
・サブイメージの仕分けに失敗した場合に、デフォルトのサブイメージのフォーマットで空のデータを出力できるようになりま
した。
(5) 小さい矩形除去機能
・数字を書き込むマスなどの小さい矩形の除去機能が強化されました。
- 設定ファイル
REMOVE_SMALL_RECTANGLES 機能をON/OFFする(ON:true, OFF:false)
REMOVE_RECTANGLE_MIN_AREA_THRESHOLD 除去する矩形の最小面積
REMOVE_RECTANGLE_MAX_AREA_THRESHOLD 除去する矩形の最大面積
< FormEditor >
(1) 不具合の修正
・位置合わせタブをクリックすると例外が発生する不具合を修正しました。
(2) 利便性の向上
・サブイメージの抽出は固定値または活字のみが処理可能ですが、他の指定できるようになっていました。
これを処理可能な固定値または活字のみ指定可能となるように修正しました。
< Viewer >
(1) 利便性の向上
・コントロールパネルで「テキスト付PDFでもOCRを実行する」のチェックを外した場合、当該PDFを画像としてOCRを実行し、
Viewerで表示できるようにしました。
・Viewer上からCSV出力を行う際に、出力するヘッダ情報を選択できるようになりました。
< Control Panel >
(1) スペース検出ロジック
・改善したスペース検出ロジックを使用することができるようになりました。
2021/07/12 v3.0.1
< AIRead >
(1) QRコード読み取り機能の追加
・QRコードの読み取りが行えるようになりました。
(2) 二重取消線認識機能の追加
・設定方法
- コントロールパネル
・モード別設定 > 座標指定モード >「取り消された文字は認識しない」にチェック。
- 設定ファイル
・IGNORE_CANCELED_STRINGS=trueとする。
(3) 利便性の向上
・出力されるdebug情報を変更しました。
(4) 不具合の修正
・テキスト付PDFでOCR実行すると、Y座標がマイナス値になる不具合を修正しました。
・Program Files下などのスペースが含まれるフォルダにインストールした際の不具合を修正しました。
・画像抽出で文字認識できない問題の改善
< FormEditor >
(1) QRコード読み取り機能の追加
・設定方法
読み取りたいQRコードに座標を指定
- 読み取り方法> QRコード >QRコードの数を指定
※「QRコードの数」には指定した座標内にあるQRコードの数を指定
(2) 不具合の修正
・タイミングマークを使用した位置合わせの保存データの読み取りの不具合を修正しました。
・大きい矩形の位置合わせの処理中にマイナス値が存在すると例外が発生する不具合を修正しました。
(3) 利便性の向上
・コピーボタン押下時にコピー後の項目をフォーカスするようにしました。
これによりコピー直後にカーソルキーで調整が可能です。
< RuleEditor >
(1) サブキーワード機能の変更
・1つのベースメタデータに対して複数のメタデータがサブキーワードを設定できるように変更しました。
(2) 2行目のデータを取得する機能の変更
・値の探索方向が「右」の場合のみ2行目のデータを取得する機能を有効にできるように変更しました。
・帳票によって2行目が取得できない不具合を修正しました。
(3) 利便性の向上
・メタデータ作成ダイアログ開いたときに「項目名」にカーソルをフォーカスするようにしました。
< Control Panel >
(1) 二重取消線認識機能の追加
・設定方法
- コントロールパネル
・モード別設定 > 座標指定モード >「取り消された文字は認識しない」にチェック。
2021/06/01 v3.0.0
< AIRead >
(1) OCRモデルの改善
・下記OCRモデルの精度を改善しました。
- 精度向上:手書きカタカナ(katakana)
(2) Enterprise版手書き認識機能の追加
・設定方法
- コントロールパネル
・基本設定 > 抽出モードの指定 >「キーワード指定(手書き文字あり)」を指定。
- 設定ファイル
・COMPONENT_LEVEL=HW_ITEMとする。
- 学習モデル
・allmodel.zipを解凍してtessdataフォルダへ配置する。
※allmodel.zipはAIReadと同様、サイトからダウンロードできます。
(3) batファイルの変更
・実行bat(run.bat,run_kw.bat,run_assort.bat,run_register.bat,run_whole_ocr.bat)で実行しているコマンドを変更しました。
①「set MAIN_CLASS_NAME=co.jp.ariseinnovation.AIReadEE.AIReadEE」の追加
②「-jar "%AIRead_HOME%\IDELibrary\lib\AIReadEE.jar"」の箇所を「-classpath %CLASSPATH% %MAIN_CLASS_NAME%」に
差し替え。
[例(run.bat)]
・従来のbat内の実行コマンド
@echo off
call "%AIREAD_HOME%\IDELibrary\scripts\set_envs.bat"
"%AIREAD_JAVA%/java" -Xmx8192m -jar "%AIRead_HOME%\IDELibrary\lib\AIReadEE.jar" -s
"%AIRead_HOME%\AIRead_setting.ini" -C order
pause;
・変更後の実行コマンド
@echo off
call "%AIREAD_HOME%\IDELibrary\scripts\set_envs.bat"
set MAIN_CLASS_NAME=co.jp.ariseinnovation.AIReadEE.AIReadEE
"%AIREAD_JAVA%/java" -Xmx8192m -classpath %CLASSPATH% %MAIN_CLASS_NAME% -s
"%AIRead_HOME%\AIRead_setting.ini" -C order
pause;
(4) 対応する画像形式の追加
・JBIG2形式のPDFに対応しました。
(5) 精度向上
・バーコード読み取りの精度が改善しました。
(6) 利便性の向上
・出力されるdebug情報を変更しました。
(7) 罫線除去ロジックの修正
・背景に色があるような帳票が上手く読み取れない可能性があります。下記パラメーターを調整することにより改善する可能性
があります。
- コントロールパネル
・画像処理 > 「直線除去時の二値化の閾値」を調整。
- 設定ファイル
・BINTHRESH_ON_LINE_REMOVALの値を調整。
(8) 不具合の修正
・OUTPUT_FORMAT=CSV4DB、FILE_IDENFICATION_TYPE=1を指定した場合に一行で出力される問題を修正しました。
< FormEditor >
(1) 後処理の設定
・読取定義編集画面で後処理を設定、編集できるようになりました。
(2) サブフォームの作成、編集
・Editorからサブフォームを作成、編集できるようになりました。
(3) 位置合わせ方法の追加
・画像の4隅にあるタイミングマークを用いて位置合わせが行えるようになりました。
< RuleEditor >
(1) 後処理の設定
・メタデータ設定編集画面で後処理を設定、編集できるようになりました。
< Viewer >
(1) 利便性の向上
・インストール画面でAIRead Viewerのショートカットを作成できるようになりました。
(2) 不具合の修正
・一部の帳票定義でCSVに出力されている明細が画面に表示されない不具合を修正しました
< ControlPanel >
(1) 後処理設定の編集
・後処理を設定、編集できるようになりました。
2021/04/12 v2.3.4.1
< FormEditor >
(1) OCR手書き言語の追加
・新たに以下の言語が選択できるようになりました。
- 日本語名前モデル (名前 jpn_name)
- 日本語住所モデル (住所 jpn_adress)
※該当のモデルは allmodel.zip から入手する
(2) SubFormで固定値の指定
・SubFormで固定値の指定が可能になりました。
2021/03/29 v2.3.4
< AIRead >
(1) バーコード認識機能の追加
・座標指定でバーコード(NW-7)を認識できるようになりました。
<変更点>
- tessdataフォルダ
バーコード認識に必要なモデル「barcode_detector」をtessdataフォルダに追加しました。
(2) 画像抽出機能の追加
・座標指定で「画像抽出」を指定した項目について、SubFormで設定した画像との画像マッチング、傾き補正、文字認識ができるようになりました。
(3) 不具合の修正
・角丸除去の処理で罫線のx座標がerode分より小さい時にエラーが発生する問題を修正しました。
・チェック判定 - 丸囲みの信頼値の最大が99になるように修正しました。
< FormEditor >
(1) 利便性の向上
・読取項目の複数削除と移動に対応しました。
(2) バーコード認識機能の追加
・座標指定でバーコード(NW-7)を指定できるようになりました。
(3) 画像抽出機能の追加
・座標指定でSubFormで設定した画像の抽出ができるようになりました。
< Viewer >
(1) 不具合の修正
・大きな矩形で位置合わせをしたとき、チェックマークの項目位置の表示がずれる問題を修正しました。
2021/03/12 v2.3.3
< AIRead >
(1) ドット背景除去機能
ドット背景の除去機能を追加しました。
- コントロールパネル
① 画像処理 > 「ドット背景除去を行う」にチェックを付ける
② 画像処理 > 「ドットサイズ」に整数値を入力する
- 設定ファイル
① REMOVE_DOTTED_BACKGROUND=true(falseを設定:ドット背景除去は行われない)
② DOT_SIZE_THRESHOLD=整数値(px)(削除するドット背景のピクセルサイズ)
(2) USE_SEGMENT_MODEL のデフォルトを "true" にする
- コントロールパネル
・モード別設定 > 「改善した手書きの文字切取りロジックを使用する」のデフォルトをチェックありに変更しました。
- 設定ファイル
・USE_SEGMENT_MODEL=true をデフォルトに変更しました。
- tessdataフォルダ
・「改善した手書きの文字切取りロジックを使用する」に必要なモデル「char_segmentation」をインストーラーに同梱しました。
< FormEditor >
(1) 不具合の修正
・一定の操作を行った際、ずれ修正の設定情報が消えてしまう不具合を修正しました。
(2) 使用可能文字の変更
・form_idにカンマを使用できなくしました。
< RuleEditor >
(1) 利便性の向上
・メタデータの複数削除と移動に対応しました。
(2) 使用可能文字の変更
・form_idにカンマを使用できなくしました。
< Viewer >
(1) 利便性の向上
・ファイル名が長いと表示が途切れていましたが、マウスオーバーでファイル名をすべて表示するように改善しました。
・帳票一覧画面で該当行をダブルクリックで編集画面に遷移する機能を追加しました。
(2) 不具合修正
・一定の操作を行った際、チェックを入れていないデータがCSVに含まれる問題を修正しました。
< ControlPanel >
(1) 大きい文字検知機能を廃止
・「大きい文字の認識補正処理を行う」の機能を廃止しました。
・インストーラーから Python ランタイムを削除しました。
2021/01/22 v2.3.2
< AIRead >
(1) OCRモデルの改善
・下記OCRモデルの精度を改善しました。
- 精度向上:手書き日本語(jpn)
(2) 文字切り取りモジュールの改善
・手書きの座標指定の範囲が横長の場合に切り取り精度が落ちてしまう問題を修正しました。
- 前提条件:設定ファイルで「改善した手書きの文字切り取りロジックを使用する」にチェック
< FormEditor >
(1) 定義をコピーする機能を追加
①任意のフォームID/文書種別 上で右クリックを押下。表示したコンテキストメニューからコピーを選択する。
②コピー先のフォームID入力画面を表示する。ユーザはユニークなフォームID(必須入力)を指定する。
(2) 不具合の修正
・form_idに&を使用した場合OCRに失敗する不具合を修正しました。
< RuleEditor >
(1) 定義をコピーする機能を追加
①任意のフォームID/文書種別 上でマウス右ボタンを押下。表示したコンテキストメニューからコピーを選択する。
②コピー先の文書種別名および識別キーワードの入力画面を表示する。ユーザはユニークな文書種別名(必須入力)、およびユニークな識別キーワードを指定する。
(2) 不具合修正
・個別設定でCOMPONENT_LEVEL=CELLを指定してもITEMで実行される不具合を修正しました。
・form_idに&を使用した場合OCRに失敗する不具合を修正しました。
< Viewer >
(1) 表示ラベルを修正
・一覧のチェックボックスのラベルの□を削除しました。
2020/11/12 v2.3.1
< AIRead >
(1) OCRモデルの改善
・下記OCRモデルの精度・処理速度を改善しました。
- 精度向上:活字文字検知モデル(「改善した文字列検知モデルを使用する」で使用)
- 精度向上:手書き数値・電話番号モデル(multi_numberモデル)
- 精度向上:手書きカタカナモデル(katakanaモデル)
- 処理速度向上:手書き文字切り取りモデル(「改善した手書きの文字切取りロジックを使用する」で使用)
(2) 【スタンダード版】複数ページ帳票に対して1ファイル出力する機能の追加
・複数ページ帳票の結果を1ファイルにまとめる機能を追加しました(エンタープライズ版は既に対応済み)。
<出力エンコード>
- コントロールパネル:基本設定 > 「複数ページの帳票ファイルを1つの帳票として処理する」にチェックを付ける
- 設定ファイル:FILE_IDENFICATION_TYPE=1を設定(0を設定:1ページ1ファイル出力)
(3) 出力エンコードの追加
・BOM付UTF-8が選択可能になりました。
<出力エンコード>
- コントロールパネル:基本設定 > 「出力文字コード」でUTF-8(BOM付)を選択
- 設定ファイル:OUTPUT_ENCODINGに「UTF-8withBOM」を指定
(4) 罫線除去で欠けてしまった文字の復元処理機能の追加
・罫線除去で欠けてしまった文字の復元処理機能を追加しました。
<出力エンコード>
- コントロールパネル:画像処理 > 「罫線除去で欠けてしまった文字の復元処理を行う」のチェックで選択
- 設定ファイル:RESTORE_TEXTにtrue:復元処理を行う/false:行わない を指定(デフォルト:false)
・必ず復元できるわけではありません。また、副作用として文字にノイズがつく場合があります。
(5) 【スタンダード版のみ】出力形式の追加
・SIMPLE_CSV/SIMPLE_SEPARATE_CSV形式をTSV形式にした出力形式を追加しました。
<出力形式の指定>
- コントロールパネル:基本設定 > 「出力フォーマット」からSIMPLE_TXT または SIMPLE_SEPARATE_TXT選択
- 設定ファイル:OUTPUT_FORMAT=SIMPLE_TXT または SIMPLE_SEPARATE_TXTを指定
・SIMPLE_TXT/SIMPLE_SEPARATE_TXT形式はSIMPLE_CSV/SIMPLE_SEPARATE_CSVと同様に
「抽出モードの指定」で「キーワード指定(表検出付き)」を指定した場合のみ指定可能です。
(6) 画像仕分けOCRに全文OCRを追加
・画像仕分けOCRで全文OCRが指定可能となりました。
<仕分けOCRで全文OCRを指定>
- option.csv:3列目にWを指定
(7) 全文OCRでの個別設定機能の追加
・全文OCRで個別設定が設定可能になりました。
・詳細はマニュアルをご覧ください。
(8) 優先モデルフォルダ機能の追加
・本機能で指定したフォルダにモデルを配置すると優先して使用します。
・優先モデルフォルダに指定されたモデルが存在しない場合、共通のモデルフォルダから使用します。
・自前で学習したモデルがある場合に、優先フォルダに配置することで共通フォルダと分けることが可能です。
個別設定と組み合わせることで、帳票ごとに優先モデル/共通モデルの使い分けが可能です。
<優先モデルフォルダの指定>
- コントロールパネル:基本設定 > 「優先モデルフォルダ」にフォルダパスを指定
- 設定ファイル:PRIORITY_MODEL_PATHにフォルダパスを指定(デフォルト:指定なし)
(9) 表示用PDF画像生成機能の追加
・データサイズを減らした表示用のPDFを生成する機能を追加しました。
・OCR処理が成功したとき、入力ファイルが複数ページの場合FILE_IDENFICATION_TYPEに関係なく1ファイル複数ページのPDFを生成します。
※仕分け付OCR時はFILE_IDENFICATION_TYPE=0の場合、1ページ1ファイルの表示用画像が生成されます。
<表示用画像生成>
- コントロールパネル:基本設定 > 「表示用画像(PDF)を生成する」のチェックで選択
- 設定ファイル:CREATE_DISPLAY_IMAGEにtrue:表示用画像を生成する、false:生成しない(デフォルト:false)を指定
<表示用画像の出力フォルダ>
- コントロールパネル:基本設定 > 「表示用画像の出力フォルダ」にフォルダパスを指定
- 設定ファイル:DISPLAY_IMAGE_DIRにフォルダパスを指定(デフォルト:指定なし、CREATE_DISPLAY_IMAGE=trueのとき指定必須)
<表示用画像の品質>
- コントロールパネル:基本設定 > 「表示用画像の品質」で1~100の整数を指定
- 設定ファイル:DISPLAY_IMAGE_QUALITYに1~100の整数(デフォルト:65)
- 備考:PDFに埋め込むJPEG画像の品質に該当する。低いほど画像品質は下がるがデータサイズも小さくなる
(10) 罫線除去の無効化機能の追加
・罫線除去を無効化する機能を追加しました。
<罫線除去を無効化>
- コントロールパネル:画像処理 > 「罫線除去を無効化する」のチェックで選択
- 設定ファイル:SKIP_LINE_REMOVEにtrue:罫線除去を無効化する、false:罫線除去を行う(デフォルト:false)を指定
(11) 不具合対応
・罫線がない画像で傾き補正が正しく動作しない問題を修正しました。
・座標指定の手書き項目で、1文字指定しているのに文字切り取り処理が行われる問題を修正しました。
・色抽出/除去処理を行った際にその結果がずれ修正機能に反映されず意図しない結果となる問題を修正しました。
・キーワード抽出時にPROFILE_KWCONFIG_DIRの値の末尾に/がないと出力ファイルが生成されない問題を修正しました。
・キーワード抽出時に複数ページ画像を入力した際に正しくない文字列座標が返される問題を修正しました。
・手書き文字切り取りの改善ロジックを使用した場合に稀に手書き処理が終らなくなる問題を修正しました。
・表検出OCR時に除去された点線がセルの認識に反映されない問題を修正しました。
・補正後画像出力を設定し、なおかつ出力形式がJPEGのとき、
座標指定/全文OCR時にヘッダのImage/Image_jshfilenameの記載にページ番号が正しく記載されない問題を修正しました。
< FormEditor >
(1) UIの改善
・読み取り定義のレコードに設定できる数を0~1000に制限しました。
(2) クラウド版との分離
・クラウド版と区別がつきやすいように、画面タイトルを下記の形式に変更しました。
AIRead Form Editor [on Premises | on Cloud] [バージョン番号]
・アイコンがオンプレミス版とクラウド版で異なるようにしました。
・Windowsスタート画面でオンプレミス版とクラウド版でショートカットが異なるフォルダに配置されるようにしました。
(3) 不具合対応
・読み取り指定の選択モードで、画像の範囲外にドラッグすると青い枠線が消えなくなる問題を修正しました。
・固定値の設定でEnterを押したときのフォーカスの移動がおかしい問題を修正しました。
・読み取り指定で手書きモデルの「数値・電話番号」を指定した際、文字の区切り線の設定ができない場合がある問題を修正しました。
・読み取り指定でOCR設定時に区切り線の本数が正しく表示されない事がある問題を修正しました。
・位置合わせ設定時に個別設定が働かない問題を修正しました。
・特殊な埋め込みフォントを持つPDFを画像登録した際に文字が欠落する問題を修正しました。
< RuleEditor >
(1) クラウド版との分離
・クラウド版と区別がつきやすいように、画面タイトルを下記の形式に変更しました。
AIRead Rule Editor [on Premises | on Cloud] [バージョン番号]
・アイコンがオンプレミス版とクラウド版で異なるようにしました。
・Windowsスタート画面でオンプレミス版とクラウド版でショートカットが異なるフォルダに配置されるようにしました。
(2) 不具合対応
・特殊な埋め込みフォントを持つPDFを画像登録した際に文字が欠落する問題を修正しました。
< Viewer >
(1) UX改善
・結果の一覧画面を追加しました。
・複数の結果をまとめて出力できる機能を追加しました。
・バージョン番号を画面タイトルに追加しました。
(2) 不具合対応
・キーワード抽出のSUB_KEYWORD_NEARの2行目のデータが、矩形強調範囲に含まれない問題を修正しました。
・座標指定時に、定義した明細の順と表示される順が異なる場合がある問題を修正しました。
< ControlPanel >
(1) 設定の追加
・新規機能の設定を追加しました。
詳しくはの項をご覧ください。
(2) UX改善
・個別設定時に任意の共通設定ファイルを指定することでデフォルトで表示する各値を指定できるようになりました。
・色抽出・除去の色設定にカラーパレットを適用し、設定しやすくなりました。
(3) クラウド版との分離
・クラウド版と区別がつきやすいように、画面タイトルを下記の形式に変更しました。
AIRead ControlPanel [on Premises | on Cloud] [バージョン番号]
・アイコンがオンプレミス版とクラウド版で異なるようにしました。
・Windowsスタート画面でオンプレミス版とクラウド版でショートカットが異なるフォルダに配置されるようにしました。
< インストーラ >
(1) クラウド版と分離
・オンプレミス用とオンクラウド用のインストーラを分離しました。
(2) システム環境変数の登録数の削減
・"PATH"、"CLASS_PATH"、"LD_LIBRARY_PATH"のシステム環境変数への登録を削減しました。
⇒削減した各変数は各種OCR実行バッチ、GUI中でAIRead実行時に独自に設定するように修正しています。
(3) 再起動の必須化
・インストール時の再起動を必須にしました。
2020/08/31 v2.3.0
< AIRead >
(1) 手書きモデルの刷新
・全ての手書きモデルについて、モデルの構成や学習データを最適化したモデルに刷新し、精度・処理速度が改善されました。
・v2.2.2以前のモデルと互換性はありません。また、人名モデルは廃止となりました。
・カタカナを対象としたモデルを追加しました。
(2) 活字モデルの追加
・これまで読めなかったいくつかの文字が読み取れるように学習したモデルを用意しました。
・学習した文字以外の精度は若干低下する傾向があるため、上記追加した文字の読み取りが必要な場合にのみご利用ください。
モデル名:Japanese_mod.traineddata
追加された文字: ㈱、㈲、〃
備考:追加された各文字の読み取り結果は、㈱ ⇒ (株)、㈲ ⇒ (有)、〃 ⇒ " (ダブルクォーテーション) となります
(3) 【座標指定】区切り罫線の除去機能の追加
・座標指定した箇所に対して文字数を指定すると「文字数―1」本の区切り罫線が等間隔に並んでいると仮定し、
除去を行う機能を追加しました。
※等間隔に並んでいない場合、関係ない箇所が除去されてしまう副作用があります。
(4) 傾き補正処理の性能改善
・傾き補正にかかる処理時間を短縮しました。
(5) チェックマーク認識機能の強化
・?の認識に特化したチェックマーク認識機能を追加しました。
<強化版チェックマーク認識機能の指定方法>
- FormEditor:読み取り設定 > 読取方法 > 「チェック判定」を選択し、読み取り対象 > チェックマークを選択
※読み取り対象 > 丸囲み を指定するとv2.2.2以前のチェックマーク認識機能が使用可能
(6) 座標指定時の固定値の拡張
・座標指定時の固定値にグループ・レコードを指定可能になりました。
(7) 座標指定時の活字文字補正機能の追加
・活字の項目指定時に特定の文字種に変換されるように指定する「属性」機能が追加されました。
(8) 短い点線除去機能の追加
・短い罫線除去時に点線も除去対象とする機能を追加しました。
<短い点線除去機能>
- コントロールパネル:画像処理 > 「短い点線も除去する(処理時間がA4画像1枚当たり2秒ほど増加)」をチェックする
- 設定ファイル:USE_SHORT_DOTLINE_REMOVAL=true/falseを指定(true:除去する、false:しない、default:false)
(9) 不具合対応
・Enterprise版のInit処理でキーワード+正規表現で定義されている項目に方向の設定が正しく反映されない問題を修正しました。
・座標指定OCR時に指定範囲に隣接するノイズが入ったり、一部の文字が全く認識されない問題を修正しました。
・複数行を含む手書き項目を読み取る場合、文字の並び順がおかしくなる問題を修正しました。
・テキスト付PDFを画像変換する際に一部の文字が抜ける問題を修正しました。
・表検出付OCRで同一行と判定された各セルの列番号が左から順に採番されないことがある問題を修正しました。
・表検出付OCRで同一行が異なる行と認識される問題を修正しました。
・表検出付OCRでセルが全く見つからなかった時に処理が停止する問題を修正しました。
・改善した文字列検知ロジックを使用した際に、文字がない場所を認識する問題を修正しました。
< RuleEditor >
(1) 抽出ルールの複製機能の追加
・作成した抽出ルールをコピーできる機能を追加しました。
(2) 元に戻す、やり直す機能の追加
・抽出ルール・メタデータ設定の編集時に元に戻す、やり直すが使えるようになりました。
(3) 不具合対応
・特定の操作を行うと、同じ項目名で抽出ルールが作成できてしまう問題を修正しました。
< FormEditor >
(1) 設定項目の追加
・読取設定時に区切り罫線の本数を指定できるようになりました。
・読取設定時にチェックマークの選択肢が増えました。
・固定値設定時にグループ・レコードを指定可能になりました。
(2) 不具合対応
・一度表示した画像が次にFormEditorを起動するまでの間にアクセス不可となった場合、
FormEditorが起動できなくなる問題を修正しました
< Viewer >
(1) UX改善
・起動直後に帳票が何も設定されていない状態であったのを最新の帳票が選択されるように修正しました。
(2) 不具合対応
・FormEditorで位置合わせを設定してAIRead実行をした際にOCR範囲の表示がずれる問題を修正しました。
・サムネイルを小さくすると削除メニューが表示されない問題を修正しました。
< ControlPanel >
(1) 設定の追加
・短い罫線除去機能の設定を追加
画像処理 > 「短い点線も除去する(処理時間がA4画像1枚当たり2秒ほど増加)」。
< インストーラ >
(1) フォルダ構成の変更
・AIReadフォルダに生成されるバージョン番号がついたフォルダをなくしました。
・デフォルトのインストール先を「C:\AIRead」に変更しました。
2020/07/06 v2.2.2
< AIRead >
(1) 天地補正の性能改善
・画像の端に画像上の文字の向きと異なる文字があった場合でも天地補正が成功しやすくなるように改善しました。
(2) 表検出付き全文OCR機能の追加
・罫線情報から表を検出し、表の各セルごとにOCRを行う機能を追加しました。
・キーワード抽出または後述する全文OCR機能で使用可能です。
<表検出付き全文OCR機能>
- コントロールパネル:基本設定 > 抽出モードの指定 > 「キーワード抽出(表検出付き)」を選択
- 設定ファイル:COMPONENT_LEVEL=CELLを指定
・セル内での改行を検出し、改行箇所に対して特定の文字コードを付加する指定が可能です。
<セル内の改行時に付与する文字>
- コントロールパネル:モード別設定 > キーワード指定モード > セル内の改行に付与する文字
- 設定ファイル:LINE_SEPARATERに SPACE / LF / NONE のいずれかを設定
各値の意味:SPACE(半角スペース) / LF(改行コードLF) / NONE(何も付与しない)
(3) 全文OCR実行機能の追加 (スタンダード版/エンタープライズ版の両方)
・画像全体に対してOCRを実行する機能(キーワード抽出なし)を追加しました。
AIReadの起動オプションを設定することで、実行可能です。
全文OCR実行時のAIRead起動オプション: -W をつける
・以下の設定でないと動作しません。
- コントロールパネル:基本設定 > 抽出モードの指定 > 「キーワード抽出」または「キーワード抽出(表検出付き)」
※選択上はキーワード抽出と記載されていますが、キーワード抽出は行いません。
- 設定ファイル:COMPONENT_LEVEL=ITEM または CELL
・当該起動オプション付きのバッチファイルを追加しました。
バッチファイル名:run_whole_ocr.bat
(4) 新規出力形式の追加
・認識した表に近い見た目でOCR結果を出力する形式を追加しました。
<表に近い見た目の出力形式(画像全体を1ファイルで出力)>
- コントロールパネル:基本設定 > 出力フォーマット > 「SIMPLE_CSV」を選択
- 設定ファイル:OUTPUT_FORMAT=SIMPLE_CSVを指定
<表に近い見た目の出力形式(表ごとに1ファイルずつ出力)>
- コントロールパネル:基本設定 > 出力フォーマット > 「SIMPLE_SEPARATE_CSV」を選択
- 設定ファイル:OUTPUT_FORMAT=SIMPLE_SEPARATE_CSVを指定
・以下の設定でないと動作しません。
- (2) 表検出付全文OCR機能 かつ (3) 全文OCR機能での実行 であること
(5) 罫線延長機能の改善
・罫線延長をした際に、他の罫線と結合または直交した箇所のみ延長するように修正しました。
これにより、罫線延長を設定しても位置合わせの矩形がずれなくなりました。
< RuleEditor >
(1) 帳票画像の90度回転機能の追加
・表示中の帳票画像を90度回転させる機能を追加しました。
(2) AIRead on Cloudとの連携機能追加
・作成したAIReadの設定をAIRead on Cloudにアップロードできる機能を追加しました。
(3) 不具合対応
・拡張子tiffの画像が読み込めない問題を修正しました。
・その他、軽微なUX改善。
< FormEditor >
(1) 帳票画像の90度回転機能の追加
・表示中の帳票画像を90度回転させる機能を追加しました。
(2) 不具合対応
・拡張子tiffの画像が読み込めない問題を修正しました。
・座標指定時に座標位置が不正でも保存・読込ができてしまう問題を修正しました。
・その他、軽微なUX改善。
< ControlPanel >
(1) パラメータ/設定値の追加
・新たなパラメータ/設定値を追加しました。
- セル内の改行時に付与する文字
- 抽出モードの指定:キーワード抽出(表検出付き)
- 出力フォーマット: SIMPLE_CSV / SIMPLE_SEPARATE_CSV
- CSV出力時の出力項目の指定: form_id / TableName
(2) 不具合対応
・出力文字コードが正しく設定できない問題を修正しました。
< Viewer >
(1) 不具合対応
・RuleEditorからの実行時に明細項目の列順が定義した順番と異なる問題を修正しました。
2020/06/08 v2.2.1
< AIRead >
(1) 不具合対応
・大量ページのPDF⇒PNG変換時にメモリを大量に消費する問題を修正しました。
・手書きOCRを含む座標指定OCR時のメモリ消費を効率化しました。
< RuleEditor >
(1) 不具合対応
・大量ページのAIRead実行時に画面の待機状態が解除されなくなる問題を修正しました。
< FormEditor >
(1) AIRead on Cloudとの連携機能追加
・作成したAIReadの設定をAIRead on Cloudにアップロードできる機能を追加しました。
(2) 不具合対応
・大量ページのAIRead実行時に画面の待機状態が解除されなくなる問題を修正しました。
・一部、中国語の表記を修正しました。
< インストーラ >
(1) インストールの選択機能追加
・AIReadのオンプレミス版/オンクラウド版、またはその両方のインストールが選択できるようになりました。
2020/05/01 v2.2.0
< AIRead >
(1) 【キーワード抽出】OCR処理の改善
・OCR処理の過程である文字列検知処理を改善しました。
<改善された文字列検知アルゴリズムを使用する>
- コントロールパネル:モード別設定 > キーワード抽出 > 「改善した文字列検知ロジックを使用する」
- 設定ファイル:USE_DL_STRING_DETECTIONにtrue/falseを設定する(デフォルト=true;使用する)
・OCRモデルフォルダに「text_detection」モデル(インストーラ同梱)が配置されている必要があります。
(2) 【座標指定】手書きOCR処理の改善
・手書きOCR時の1文字切り取り処理を改善しました。
<改善した手書きの文字切取りロジックを使用する>
- コントロールパネル:モード別設定 > 座標指定 > 「改善した手書きの文字切取りロジックを使用する」
- 設定ファイル:USE_SEGMENT_MODELにtrue/falseを設定する(デフォルト=false;使用しない)
・OCRモデルフォルダに「char_segmentation」モデル(公式HPからダウンロード可)が配置されている必要があります。
・メモリの使用量が約5GB程度増え、処理時間が3倍程度増加します。
(3) 【座標指定/キーワード抽出】個別設定機能の追加
・各帳票定義専用のOCR設定が可能となりました。
・キーワード抽出の場合は、帳票定義を指定して実行する場合にのみ有効です。
(4) 【座標指定/キーワード抽出】活字項目画像の生成機能追加
・活字OCRで認識した項目画像を生成する機能を追加しました。
<活字項目画像を出力する>
- コントロールパネル:基本設定 > 「活字項目画像を出力する」
- 設定ファイル:CREATE_PR_COMP_IMAGEにtrue/falseを設定する(デフォルト=false;生成しない)
<活字画像の出力フォルダの指定>
- コントロールパネル:基本設定 > 「活字画像の出力先」
- 設定ファイル:PR_CUT_IMAGE_DIR=<活字項目画像の出力フォルダ>(デフォルトなし、CREATE_PR_COMP_IMAGE=trueのとき必ず設定してください)
(5) batファイルの修正
・各batの実行時のメモリ使用量上限を8GBに増やしました。
※上限を増やしたのみで、常に8GB消費するわけではありません。
(6) 不具合対応
・座標指定時とキーワード抽出時で活字モデルが存在しなかった場合に異なる挙動となる問題を修正しました。
< ControlPanel >
(1) パラメータの追加
・新機能のパラメータを追加しました。
- 改善した手書きの文字切取りロジックを使用する
- 改善した文字列検知ロジックを使用する
- 活字項目画像を出力する
- 活字画像の出力先
(2) 利便性向上
・起動した際、直近で編集した設定ファイルが開かれるように修正しました。
・ライセンス画面でバージョン情報が表示されるようになりました。
・ライセンス画面で枚数表示がされるようになりました(Enterpriseライセンスのみ)。
(3) 不具合対応
・設定を新規作成してそのまま保存すると、true/falseの表記が大文字になる問題を修正しました。
< RuleEditor >
(1) 個別OCR設定機能の追加
・帳票定義ごとに個別でOCR設定ができるようになりました。
※キーワード抽出で個別OCR設定が有効となるのは、定義を指定してAIReadを実行した場合のみです。
(2) 新規データタイプの追加
・新規のデータタイプが設定可能となりました。
- SUB_KEYWORD_NEAR
- SUB_KEYWORD_DIR
(3) 抽出パラメータの追加/変更/削除
・新規の抽出パラメータが設定可能となりました。
- IGNORED_KEYWORD
・抽出パラメータのデフォルト値が変更となりました。
- RECORD_SEG_NODE_COUNT:3⇒100
- KEYWORD_EXTRACT_LEVEL:0⇒3(GUI設定から廃止し、固定値化)
- MARGIN_BY_BOX_EXT:0⇒1
- KEYWORD_RANGE_CHECK:0⇒1
・抽出パラメータを廃止しました。
- SYMBOL_REGEX_ID
(4) AIReadボタンの表示の変更
・AIReadがインストールされていない環境でAIReadボタンが非表示となりました。
(5) 不具合対応
・固定値の設定時にtypeが正しく設定されない問題を修正しました。
・抽出パラメータ設定画面でリスト表示の項目にデフォルト値が設定されていない問題を修正しました。
< FormEditor >
(1) 個別OCR設定機能の追加
・帳票定義ごとに個別でOCR設定ができるようになりました。
(2) AIReadボタンの表示の変更
・AIReadがインストールされていない環境でAIReadボタンが非表示となりました。
(3) 不具合対応
・位置合わせ設定時に画像上に表示される矩形をダブルクリックすると不正終了する問題を修正しました。
< Viewer >
(1) 不具合対応
・ヘッダ項目の表示順・出力順がフォーマット定義と異なる問題を修正しました。
2020/03/25 v2.1.8
< AIRead >
(1) 【座標指定】指定位置のずれ修正機能の追加
・OCR時に読取定義位置と実際の読み取りたい箇所がずれてしまう問題に対し、
罫線や文字列をガイドとして修正する機能を追加しました。
詳しい設定方法はマニュアルをご覧ください。
(2) 【座標指定】手書き文字のノイズ閾値設定の追加
・手書き項目に対して1文字指定をしているとき、
その項目画像を読取対象外(ノイズ)と判断する白ピクセルの割合を指定できるようになりました。
- コントロールパネル:モード別設定 > 座標指定モード >「手書き文字のノイズ閾値(白画素の割合、1文字指定時)」
- 設定ファイル:HW_WHITE_THRESHOLDに0~1.0の値を設定する(デフォルト=0.975)
(3) 不具合対応
・init_kw.batを実行したときのエラー処理を修正しました。
・キーワード抽出で抽出パラメータ「IV_SYMBOL_REGEX_ID」が正常に動作しない問題を修正しました。
・仕分け実行時に、仕分けの該当帳票なしと判定した際に出力フォルダが存在しないと出力に失敗する問題を修正しました。
< ControlPanel >
(1) パラメータの追加
・新機能のパラメータを追加しました。
- 手書き文字のノイズ閾値(白画素の割合、1文字指定時)
(2) 不具合対応
・「抽出モードの指定」でキーワード指定を選択している際に、
「出力フォーマット」で対応していないCSV4DB・XMLが選択できてしまう問題を修正しました。
< RuleEditor >
(1) 明細表示対応
・AIRead実行時に明細表示(表形式の表示)が可能となりました。
(2) CSV4DB出力の対応
・AIRead実行後の出力にCSV4DB形式が選択可能になりました。
※CSV4DB形式の出力は、RuleEditor経由で実行した場合のみ対応しています。
(3) 英語対応
・英語表示に対応しました。
< FormEditor >
(1) 明細表示対応
・AIRead実行時に明細表示(表形式の表示)が可能となりました。
(2) ずれ修正機能対応
・読取定義時にずれ修正設定が追加されました。
(3) 操作性向上
・読み取り位置を矢印キーで1ピクセルずつ移動できるようになりました。
(4) 不具合対応
・読取定義を行っていない定義に対して帳票定義名をリネームすると、読取定義用の各種ボタンが表示されない問題を修正しました。
< Viewer >
(1) 明細表示対応
・AIRead実行時に明細表示(表形式の表示)が可能となりました。
(2) CSV4DB出力の対応
・AIRead実行後の出力にCSV4DB形式が選択可能になりました。
< インストーラ >
(1) 不具合修正
・一部のOSにおいて、AIReadをインストールした後に
環境変数PATH中の変数を含むパス(%で囲まれたもの)が無効となる問題を修正しました。
2020/02/12 v2.1.7.1
< AIRead >
(1) 【座標指定】手書き項目/文字画像の出力仕様変更
・手書き項目/文字の画像切り取り時のファイル配置の仕様が変更となりました。
詳しくは、マニュアルをご確認ください。
(2) 【座標指定/キーワード抽出】補正後画像の出力仕様の変更
・キーワード抽出+FILE_IDENFICATION_TYPE=1 かつ 補正画像の出力形式がJPEGのとき、
複数のJPEGを出力する仕様に変更となりました(以前はPDFで出力)。
・この際、出力ファイルヘッダーには複数のImage_jshfilename(入力画像)が出力されます。
(3) 不具合修正
・キーワード抽出+FILE_IDENFICATION_TYPE=1 かつ 補正後画像の出力時に、
補正後画像が生成できずにエラーが発生する不具合を修正しました。
・丸い角を除去する機能使用時にまれにエラーが発生する問題を修正しました。
・短い罫線除去または細かなノイズ除去機能を使用した場合、メモリリークが発生する不具合を修正しました。
・出力ヘッダーに「ProcessDate」または「ModifyDate」を選択した際に
該当する年月日情報が年末の数日間である場合に年の表記が1年ずれる問題を修正しました。
・MOVED_FILE_NAME=1の時に、
ファイル名に付与される年月日情報が年末の数日間である場合に年の表記が1年ずれる問題を修正しました。
・座標指定でデフォルト手書きモデルをmulti_numberとした場合に動作しない問題を修正しました。
< RuleEditor >
(1) AIRead実行時の複数画像対応
・FILE_IDENFICATION_TYPE=1を設定している状態でAIReadを実行した際の
複数ページの結果出力に対応しました。
(2) 固定値設定の追加
・固定値設定が可能となりました。
(3) 不具合対応
・座標位置での読取指定が正しく設定されない問題を修正しました。
・画像登録をしていないとAIRead実行ができない問題を修正しました。
< FormEditor >
(1) 表示の改善
・変更した設定の名称に*マークがつくようになりました。保存するとマークは消えます。
(2) 不具合対応
・設定ファイルグループを開く際にドキュメントフォルダを開くとエラーが発生する問題を修正しました。
< Viewer >
(1) 複数画像対応
・キーワード抽出+FILE_IDENFICATION_TYPE=1を設定している状態でAIReadを実行した際の
複数ページの結果出力に対応しました。
2019/12/27 v2.1.7
< AIRead >
(1) ライセンスの変更
・AIReadライセンスが指定のマシンでのみ認証されるように修正しました。
- ライセンスの申請方法も変更となりました。詳しくは、インストールマニュアルをご覧ください。
(2) 【活字】日本語モデルの精度向上
・活字日本語モデル(Japanese.traineddata)の半角カナに対する精度が向上しました。
※本モデルの読み取り結果がv2.1.6.1までに比べて変化する場合がございます。
※これまでの半角カナ学習モデル(Japanese_kana.traineddata)は撤廃となります。
(3) 【座標指定/キーワード抽出】丸い角の除去機能追加
・角が丸い矩形の角を除去可能になりました。
・設定方法は下記の通りです。
<矩形の丸い角を除去する閾値>
- コントロールパネル:画像処理 > 「矩形の丸い角を除去する閾値」
- 設定ファイル:ROUNDED_CORNER_THRESHOLDに0~100の値を設定する(デフォルト=0;除去処理を行わない)
<丸い角の除去範囲を拡張する長さ>
- コントロールパネル:画像処理 > 「丸い角の除去範囲を拡張する長さ」
- 設定ファイル:ROUNDED_CORNER_PADDINGに0~100の値を設定する(デフォルト=10)
(4) 不具合修正
・キーワード抽出時にworkフォルダに画像ファイルが残ってしまう現象を修正しました。
・回転補正と色除去処理を組み合わせて使用した場合にエラーが発生する現象を修正しました。
< ControlPanel >
(1) パラメータの追加
・新機能のパラメータを追加しました。
- 矩形の丸い角を除去する閾値
- 丸い角の除去範囲を拡張する長さ
(2) ライセンス登録画面
・ライセンス申請用のマシン情報をファイル出力する機能を追加しました。
< RuleEditor >
(1) AIRead実行結果のプレビュー画面
・傾き補正処理後の画像が表示されるようになりました。
・実行結果保存時の出力文字コード指定がファイルを保存するときにできるようになりました。
(2) 不具合修正
・「画像を追加」ボタンを押した際、jpg,pngが登録できない不具合を修正しました。
・画像のページ番号表示が正しくない不具合を修正しました。
< FormEditor >
(1) OCRモデルのヘルプ追加
・OCRモデルの詳細なヘルプが確認できるようになりました。
(2) AIRead実行結果のプレビュー画面
・傾き補正処理後の画像が表示されるようになりました。
・実行結果保存時の出力文字コード指定がファイルを保存するときにできるようになりました。
・出力形式にCSV4DBが選択可能になりました。
(3) 表示言語設定
・前回起動時の表示言語選択を引き継ぐよう修正しました。
< Viewer >
(1) 初版リリース
・OCRの実行と結果プレビュー画面の表示を一括した処理をコマンドライン上から実行できるようになりました。
- 複数の入力ファイルに対して、連続してOCR実行→プレビュー画面表示を行うことが可能です。
2019/11/29 v2.1.6.1
< AIRead >
(1) 【座標指定】活字のノイズ除去機能の追加
・活字読取対象の項目について、項目中の文字の最大の高さに対する高さの割合が
ユーザ指定の割合(%)未満である文字を除去する機能を追加しました。
・設定方法は下記の通りです。
- コントロールパネル:モード別設定>座標指定「活字のノイズ閾値」
- 設定ファイル:PRINT_NOISE_FILTERSに-1~100の値を設定する(デフォルト=-1;ノイズ除去処理を行わない)
< ControlPanel >
(1) パラメータの追加
・新機能のパラメータを追加しました
-活字のノイズ除去機能(PRINT_NOISE_FILTERS)
(2) 不具合修正
・軽微な表示の不具合を修正しました。
< RuleEditor >
(1) AIRead実行ボタンの追加
・キーワード抽出OCRの実行がRuleEditor上から可能となりました。
(2) 不具合修正
・PDFの画像を取り込もうとすると失敗する場合がある問題を修正しました。
・PDFの画像を取り込む際に、プログレスバーが表示されない問題を修正しました。
・その他、軽微な不具合を修正しました。
< FormEditor >
(1) 不具合修正
・読取定義で修正した事項が、位置合わせや固定値のタブに移動すると元に戻る現象を修正しました。
・その他、軽微な不具合を修正しました。
2019/11/15 v2.1.6.0
< AIRead >
(1) 【手書き】数値・電話番号を読む専用モデルの追加
・ 数値・電話番号(数字と記号4種[()-,])に対応した手書きモデルを追加しました。
- 前後の文字とで結合・近接しているような場合において従来の数字モデルより高い精度でOCR可能です
- 本モデルを使用する場合は文字数の指定が不要となります
・モデルは弊社ダウンロードサイトからダウンロードし、解凍した上で/tessdata に配置してください。
・FormEditorの手書きモデル一覧から「数値・電話番号」を選択することで使用可能です。
(2) 【座標指定/キーワード抽出】仕分け機能の追加
・ あらかじめテンプレートとなる画像とそれに紐づく帳票設定を登録することで、
入力画像が最も類似するテンプレートの帳票設定でAIReadを実行する事が可能です。
- 座標指定/キーワード抽出を横断的に使用可能です。
- 使用法につきましてはAIReadマニュアルをご覧ください。
(3) 【座標指定/キーワード抽出】補正後画像の出力機能追加
・OCRが成功したとき、成功フォルダに移動する画像を天地・傾き補正後の画像に修正します。
- OCRに失敗した場合(失敗フォルダに移動する場合)は、補正がかかりません。
- 座標指定の位置合わせによる補正はかかりません。
・補正後の画像は、JPEG/PDFを指定可能です。
ただし、キーワード抽出かつ「複数ページの帳票ファイルを1つの帳票として処理する(FILE_IDENFICATION_TYPE=1)」の
ときは常にPDFで出力されます。このとき、各ページの補正がかかった画像を1つのPDFに結合して出力します。
・設定方法は下記の通りです。
<補正後画像を出力するように設定>
- コントロールパネル:基本設定「OCR成功時に傾きを補正した画像を出力する」のチェックをオンにする
- 設定ファイル:CORRECT_MOVED_FILE=trueを[AIRead]領域に追加する(デフォルト=false;補正画像を出力しない)
<補正後画像の出力形式の指定>
- コントロールパネル:基本設定「OCR成功時に傾きを補正した画像を出力する」のチェックをオンにする
- 設定ファイル:MOVED_FILE_FORMAT=PDFまたはJPEGを[AIRead]領域に追加する(デフォルト=PDF)
PDFならPDF形式、JPEGならJPEG形式を出力する
(4) 【活字OCR】精度向上
・一部の文字が認識されない現象を改善しました。
(5) 不具合修正
・キーワード抽出時にスペースがデバッグ画像上に出力されない問題を修正しました。
< ControlPanel >
(1) パラメータの追加
・v2.1.6の新機能のパラメータを追加しました
- OCR成功時に傾きを補正した画像を出力する(CORRECT_MOVED_FILE)
-補正した画像の形式(MOVED_FILE_FORMAT)
(2) 不具合修正
・手書きのノイズ閾値を消せない不具合を修正しました。
・回転補正をONの状態で大きな矩形認識を実行する際、必要なファイルが存在しないとアプリが強制終了する問題を修正しました。
< FormEditor >
(1) 画面の改善
・帳票画像とフォーマット指定をフォルダごと管理できるように変更しました。
・位置合わせ/読取定義/固定値設定ボタンを画面右段のタブでの切り替えに変更しました。
・読取定義での枠線を細くし、矩形内を塗りつぶすよう変更しました。
(2) 画面の機能追加
・読み取り結果確認画面で結果を修正することが可能になりました。
(3) 不具合修正
・軽微な不具合を修正しました。
< RuleEditor >
(1) 初版リリース
・キーワード抽出定義用のGUIをリリースしました。
2019/09/06 v2.1.5.0
(1) 【キーワード抽出/座標指定OCR】回転補正機能の追加
・画像の90度単位での回転補正を行う機能を正式に追加しました。
- コントロールパネル:回転補正を行う(90度単位)、設定ファイル:AUTO_ROTATION
(2) 【コントロールパネル】設定の追加等
・回転補正機能の設定を追加しました。
・中国語表示機能を追加しました。
(3) 【フォームエディタ】多言語対応
・中国語表示機能を追加しました。
(4) 不具合修正
・フォームエディタの位置合わせ時に不正な設定ファイルを選ぶとアプリが強制終了する問題を修正しました。
・フォームエディタ上でのAIRead実行時にチェックマーク認識が正常に行われない問題を修正しました。
2019/08/07 v2.1.4.3
(1) 不具合修正
・コントロールパネルで共通設定ファイルを保存した場合に、文字コードがUTF-8のBOM付となる問題を修正しました。
2019/07/26 v2.1.4.2
(1) 不具合修正
・キーワード抽出でテキスト付PDFのテキスト読込が失敗する問題を修正しました。
- テキスト付きPDFでもOCRを実行する のチェックを外した時(コントロールパネル)
- OCR_PDF_WITH_TEXT=false のとき(共通設定ファイル)
2019/07/15 v2.1.4
(1) 【キーワード抽出/座標指定OCR】検知した罫線の長さを延長する機能の追加
・検知した罫線の両端の長さ(ピクセル)を延長する機能を追加しました。
- LINE_EXTENSION_LEN
※0以上の整数で指定。デフォルトは0(延長なし)。
(2) 【キーワード抽出/座標指定OCR】色抽出・除去機能の追加
・指定した色のみを抽出または除去した上でOCRを実行する機能を追加しました。
- (抽出) コントロールパネル:抽出する色、設定ファイル:EXTRACTION_COLORS
- (除去) コントロールパネル:除去する色、設定ファイル:REMOVAL_COLORS
・色除去を行うタイミングを罫線除去を行う前に指定することが可能です。
- コントロールパネル:色抽出・除去を罫線除去の前に行う、設定ファイル:FILTER_COLOR_BEFORE_LINEREMOVAL
(3) 【座標指定OCR】位置合わせに使う大きな矩形の対象外範囲の指定機能
・座標指定の位置合わせ時に大きな矩形を認識しない画像端(上下左右)からの範囲を指定する機能を
追加しました。
- コントロールパネル:位置合わせ矩形の認識マージン、設定ファイル:FORMAT_MARGIN
(4) 【座標指定OCR】縦横比を基準とした手書き文字分割機能の追加
・指定した文字の幅/高さの比率基準に対し、
1文字と認識された領域の幅/高さ比率が超えている場合に文字を分割する機能を追加しました。
- コントロールパネル:(未対応)、設定ファイル:HW_CONTOURS_DIVIDE_RATE
(5) 【コントロールパネル】設定の変更
・1つの文字列とみなす文字間隔の設定の表示場所をモード別設定タブに移動しました。
・以下2つの設定を廃止し、固定値となるように修正しました。
- OCRモデルフォルダ
- 文字列認識ツールのフォルダ
(6) 軽微な修正
・2値化後に黒背景と判定された(画像全体に対する黒の割合がBLACK_WHITE_THRESHOLDより大きい)場合、
エラーが発生する不具合を修正しました。
・キーワード抽出時にworkフォルダに不要なファイルが残る現象を修正しました。
・FormEditorの読み取り箇所設定時の不具合を修正しました。
2019/05/24 v2.1.3
(1) 【画像処理】除去した罫線の座標
・一部が黒背景の画像で罫線除去の閾値を自動とした場合(LINE_REMOVAL_THRESHOLD=0)に、
出力される罫線の座標がずれる問題を修正しました。
・検知した罫線が傾いている場合(完全な水平/鉛直でないとき)の、
出力される罫線座標が傾きの中心を通るように修正しました。
(2) 【座標指定OCR】同一条件で実行しても出力される手書き文字認識結果が異なる問題の修正
・手書きの行検知アルゴリズムを修正することで、同一条件で実行しても出力される手書き文字認識結果が異なる場合がある問題を修正しました。
(3) 【座標指定】機能改善・修正
・活字OCRでスペースを出力できる機能を追加しました。
- EXPORT_SPACE
・位置合わせをしない場合でも、罫線が除去できるように修正しました。
・項目の座標が画像の範囲を超えるときに、
画像範囲内に収まる座標でOCRを行うように修正しました。
(4) 【画像処理】ノイズ除去機能
・長い罫線を除去する機能でLINE_REMOVAL_THRESHOLD=0の場合に、
同一インスタンス内で初回実行時の値を使用して処理してしまう不具合を修正しました。
・長い罫線に接している短い罫線を除去する機能で
除去する条件を満たしているのに除去できない場合がある不具合を修正しました。
(5) 【活字OCR/座標指定OCR】CSV出力の文字エンコード指定機能
・CSVファイル(座標指定はCSV4DB含む)の文字エンコードを指定する機能を追加しました。
- OUTPUT_ENCODING (指定したい文字エンコードを文字列で指定)
(6) 軽微な修正
・活字OCRのログ(ai_*.log)に対し、LOG_MAX_SIZEの設定が機能していない問題を修正しました。
2019/04/08 v2.1.2
(1) 【画像処理】ノイズ除去機能
・長い罫線に接している短い罫線を除去する機能を追加しました。
- SHORT_LINE_THRESH_H (短い横罫線の長さの閾値[ピクセル]、0:除去を行わない)
- SHORT_LINE_THRESH_V (短い縦罫線の長さの閾値[ピクセル]、0:除去を行わない)
・細かいノイズを除去する機能を追加しました。
- THIN_LINE_REMOVAL_THRESHOLD_W (細かいノイズを除去の幅の閾値)
- THIN_LINE_REMOVAL_THRESHOLD_H (細かいノイズを除去の高さの閾値)
→値が大きいと、大きなサイズのノイズを除去する。
- ERODE_THIN_LINE_W (細かいノイズ除去の収縮処理のフィルターサイズ(幅)、デフォルトは12)
- ERODE_THIN_LINE_H (細かいノイズ除去の収縮処理のフィルターサイズ(高さ)、デフォルトは7)
→値が大きいとより独立したノイズのみ除去する。
(2) 【活字OCR】信頼度が低いComponentを読み直す機能
・ComponentのConf値が低い場合に読み直す機能を追加しました。(活字のみ)
「ComponentのConf値」はComponent内の文字の平均値です。
- RESCAN_THRESHOLD (0~100)
(3) 【座標指定/キーワード指定】性能改善
・文字列検知アルゴリズムの改善により処理時間を改善しました。
(LINE_REMOVAL_THRESHOLD=0の場合は従来通り)
(4) 【座標指定】チェックマーク認識機能
・チェックマークを認識する機能を追加しました。
(5) 【座標指定】CSVにComponent画像のパスを出力する機能を追加
(6) 使用コア数の制限
・文字認識処理で使用するコア数を制限する機能を追加しました。
環境変数へ以下を指定してください。
- AIREAD_THREAD:single
<制限事項>
- 1スレッドモードでも処理に一部、マルチスレッドで動作する箇所があり、
一時的に1コア以上のCPUを使用します。
(7) 【フォームエディタ】AIRead実行ボタン
・AIReadを即座に実行するボタンを追加しました。
(8) メモリ使用量の改善
・手書きOCRで使用するメモリを軽減しました。
(9) その他
・スタートメニューへ表示する機能を追加しました。
・ショートカットを作成する機能を追加しました。
・コードサイニング証明書を組み込みました。
(セキュリティに引っかかってしまう問題へ対応)
2019/02/08 v2.1.1
(1) 手書き読み取り機能の改善
・指定したモデルについて、項目中の最大文字高さに対して任意の割合以下の
文字をノイズとして除去する機能を追加しました。
- HW_NOISE_FILTERS
(2) デフォルト帳票定義指定(キーワード指定機能)
・全ての帳票判定に失敗した場合に使用する帳票定義の指定が可能となりました。
また、帳票判定を行わずに直接帳票定義を指定することが可能となりました。
- DEFAULT_PROFILE_MODE
(3) CSV出力のカスタマイズ(座標指定/キーワード指定機能)
・CSV出力時のヘッダ項目とその順番が指定可能となりました。
- HEADER_ITEM
・CSV出力時の出力項目とその順番が指定可能となりました。
- CSV_COLUMN_ITEM
(4) ライセンス認証の追加
・ライセンス認証を追加しました(コントロールパネル)。
2018/11/01 v2.1.0
(1) 座標エディタのリリース
・座標指定ファイルを作成できるGUI、座標エディタをリリースしました。
(2) 活字読み取り機能の改善(キーワード指定機能)
・細かなノイズが認識されてしまう現象に対応しました。
(3) 座標指定機能の改善
・手書き読み取り時に指定した閾値以下の信頼度である文字を、
任意の文字に変換する機能を追加しました。
- HW_REPLACE_THRESH
- HW_REPLACE_CHAR
(4) 不具合対応
・軽微なバグを修正しました。
2018/10/09 v2.0.2
(1) コントロールパネルの修正
・共通設定ファイルの拡張子が.datでも編集可能となりました。
(2) 座標指定機能の改善
・手書きとして座標指定した範囲の切取画像を出力する機能を追加しました。
- HW_CUT_IMAGE_DIR
- CREATE_HW_COMP_IMAGE
・認識した文字の切取画像を出力する機能を追加しました。
- HW_CUT_IMAGE_DIR
- CREATE_HW_CHAR_IMAGE
・出力フォーマットを追加しました。
- 対象設定名
OUTPUT_FORMAT
- 追加したフォーマット
CSV4DB ⇒DBに連携可能なcsvフォーマットです。
XML ⇒XML形式です。
XMLWAGBY ⇒WAGBYに連携可能なXML形式です。
・手書きの読取結果の信頼度を出力するように修正しました。
・csvフォーマットの各行の出力順がフォーマットファイルの記載順に一致するよう修正しました。
(3) キーワード指定機能の改善
・網掛け背景を除去できるようになりました。
・単語の末尾の文字が消失する問題を修正しました。
2018/09/07 v2.0.1
(1) コントロールパネルの提供
・共通設定ファイルのGUIを用意し、ユーザビリティを向上しました。
(2) 座標指定機能の改善
・手書き文字指定の項目について、項目単位でモデルを指定できる機能を追加しました。
・AIRead_format.iniのSequenceIDをnull許容するように修正しました。
(3) キーワード指定機能の改善
・抽出対象から除外する文字を指定する機能を追加しました。
- BLACK_LIST_EXT
(4) 活字文字認識の改善
・大きな文字の認識率を向上するオプションを追加しました。
- USE_LARGE_TEXT_DETECTION
- CTPN_PATH
・文字幅が0になる不具合を修正しました。
・文字の座標が重なる問題を修正しました。
・"reduce_target"での文字種指定が適切に働いていない問題を修正しました。
(1文字が複数文字認識される現象への対策)
(5) 画像前処理機能の改善
・直線除去時の二値化パラメータの設定を追加しました。
- BINTHRESH_ON_LINE_REMOVAL
(6) 不具合対応
・細かなバグ修正を行いました。
2018/08/24 v2.0.0
(1) インストーラーの提供
・インストールの自動化により、煩雑であった設定作業を改善しました。
(2) 座標指定機能の統合
・スタンダード版として提供していた座標指定機能と
エンタープライズ版として提供していたキーワード指定機能を1つのモジュールに統合しました。
コマンドライン引数により座標/キーワード指定の切り替えを可能にしました。
※ただし、エンタープライズ版はエンタープライズ版使用の契約が必要です。
・付随して追加した共通設定項目:
- PROFILE_KWCONFIG_DIR
=> キーワード設定関連のフォルダ指定に使用します。
これまでのPROFILE_CONFIG_DIRは座標設定関連のフォルダ指定に使用します。
(3) 手書き日本語機能(座標指定)の実装
・付随して追加した共通設定項目:
- HANDWRITE_LANG
=> 手書き用のモデル名の指定に使用します。
・手書き認識モデルの追加:
- jpn:日本語(英数記号含む)
- eng:英数記号
- money:通貨(数字+通貨表記に関わる記号)
- number:数字
(4) キーワード抽出機能の改善
・キーワード抽出と正規表現を組み合わせて利用可能にしました。
・キーワード抽出時にキーワードとなる文字列が離れていてもキーワードとして
認識させることを可能にしました。
・抽出パラメータ「SET_MARGIN_BY_BOX」を有効利用するためのパラメータを追加しました。
・明細の認識において、複数行を1行と認識させないようにするためのパラメータを
追加しました。
・キーワード抽出において、キーワードの近くにある文字列を値としないための
パラメータを追加しました。
・キーワード抽出において、キーワードに正規表現を指定可能としました。
[追加した抽出パラメータ]
- IGNORE_CHAR_IN_KEYWORD
- NO_ADD_SPACE
- KEYWORD_EXTRACT_LEVEL
- CH_GRPH_SPACE_RATE_HORIZONTAL
- MARGIN_BY_BOX_EXT
- KEYWORD_RANGE_CHECK
- REMOVE_SPACE_FOR_REGEX_MATCH
- KEYWORD_REG_EXT
- KEYWORD_DTY_EXT
(5) 対応形式の追加
・複数ページtiffの対応しました。
(6) 画像前処理機能の改善
・ドット背景を除去する機能を追加しました。
・白抜き文字を読みとる機能を追加しました。
(7) 不具合対応
・1文字が2文字に認識される不具合に対応しました。
- use_dup_char_reducer
=> 対応処理の可否を設定します。
- reduce_target
=> 対策を行う文字種を設定します。
・スキップ機能を有効にして、10個程度ファイルを投入すると、IDEW02002-Eとともに
エラーが発生することがあった件を修正しました。
・制御文字が含まれるPDFファイルを入力とした場合、データ抽出処理でエラーが
発生する件を修正しました。
・その他、細かなバグ修正を行いました。
2018/06/13 v1.3.6
(1) 機能改善
・メタデータ定義で抽出範囲の座標を指定できる機能を追加しました。
- POSITIONTOEXTRACT
・辞書照合判定で無視する文字を設定できる機能を追加しました。
- IGNORE_CHAR_IN_KEYWORD
・OCR結果にスペースを含める処理を追加しました。
- EXPORT_SPACE
(2) 画像前処理機能の改善
・シャープ補正機能を追加しました。
- SHARPEN_VALUE
・傾き補正機能のON/OFFを切り替えられるようにしました。
- IS_SLOPE_CORRECTION
(3) 出力ファイルの改善
・処理結果の成功/失敗を追加しました。
・OCR認識の信頼度を追加しました。
・抽出したキーワードを追加しました。(CSV)
2018/04/12 v1.3.5
(1) 対応形式の追加
・PDFに対応しました。
(2) 機能改善
・テキスト付きPDFの場合にOCRを実行するか選択できる機能を追加しました。
- OCR_PDF_WITH_TEXT
・処理するページ枚数を指定できる機能を追加しました。
- PROC_MAX_PAGE
・抽出できなかった項目を空で出力する機能を追加しました。
- LAYOUT_TYPE
・ファイル名の末尾にタイムスタンプを付与する機能を追加しました。
- MOVED_FILE_NAME
2018/04/04 v1.3.4
(1) 出力ファイルの改善
・OCR認識の信頼度を追加しました。
2017/12/27 v1.3.3
(1) AIReadEE(キーワード指定版)
・初版リリース
(2) 機能改善
・debugの出力ファイルを追加しました。
・OCR結果にスペースを含める処理を追加しました。
- EXPORT_SPACE
(3) 画像前処理機能の改善
・シャープ補正機能を追加しました。
- SHARPEN_VALUE
・傾き補正機能のON/OFFを切り替えられるようにしました。
- IS_SLOPE_CORRECTION
(4) 不具合対応
・信頼度の低い文字が出力されない不具合を修正しました。
・その他不具合を修正しました。
2017/12/22 v1.3.2
(1) 画像前処理機能の改善
・ノイズ除去機能を改善しました。
(2) 不具合対応
・軽微な不具合を修正しました。
2017/12/08 v1.3.1
(1) 不具合対応
・DLLが競合した場合の不具合を修正しました
2017/11/30 v1.3.0
(1) 画像前処理機能の改善
・ノイズ除去機能を改善しました。
・ノイズ除去機能のON/OFFを可能にしました。
- DE_NOISE
(2) ライブラリの展開
・dllライブラリをユーザフォルダ以下に展開するように修正しました。
(3) 不具合対応
・ログファイルのハンドルが解放されない不具合を修正しました。
2017/10/23 v1.2.1
(1) 不具合対応
・1つの文字列(Component)が複数出力される不具合を修正
2017/10/13 v1.2.0
(1) ログ出力の仕様を変更
(2) 不具合対応
・メモリリークの不具合を修正
2017/10/04 v1.1.0
(1) 不具合対応
・座標の不具合を修正しました。
・強制終了する不具合を修正しました。
2017/09/20 v1.0.0
(1) 初版リリース