1. 概要
本ソフトウェアは、画像に含まれる文字を認識してテキストファイルへ出力します。
あらかじめ作成された定義に基づき文字を認識します。
AIRead on Cloudをご利用の場合、作成したフォーム定義をFormEditor、RuleEditorからクラウド環境へアップロードすることが可能です。
※インストール方法についてはAIReadインストールマニュアルをご覧ください。
1.1. サポートしている画像形式
サポートしている画像ファイル形式は以下の通りです。
| 画像 (拡張子) | Windows>ファイル「プロパティ」での表示 |
|---|---|
| PDF ※ | |
| PDF JBIG2形式 | |
| jpeg ( .jpeg, .jpg ) | |
| png ( .png ) | |
| Tiff LZW圧縮 ( .tif, .tiff ) | LZW |
| Tiff ZIP圧縮 ( .tif, .tiff ) | - |
| Tiff Packbits圧縮 ( .tif, .tiff ) | Packbits |
| Tiff CCITT T6圧縮 ( .tif, .tiff ) | CCITT T6 |
| Tiff CCITT T4JPEG圧縮 ( .tif, .tiff ) | CCITT T4 |
| Tiff 圧縮しない ( .tif, .tiff ) | 圧縮しない |
※PDFは中に含んでいる画像がサポートしていない形式の場合は対象外となります。
・サポートしていない画像形式
| 画像 (拡張子) | Windows>ファイル「プロパティ」での表示 |
|---|---|
| jpeg2000 ( .jp2 ) | |
| gif ( .gif ) | |
| bitmap ( .bmp ) | |
| Tiff JPEG圧縮 ( .tif, .tiff ) | JPEG |
1.2. 使用する用語
・帳票定義
OCRをかけ、データ化されたものから、必要なデータのみを抽出するための設定です。帳票の読み取りには、必ず設定する必要があります。
・学習モデル
– 活字OCR用学習モデル
活字にOCRをかけ、データ化する際に使用するファイルです。手書き文字をデータ化することはできません。
– 手書き文字OCR用学習モデル
手書き文字にOCRをかけ、データ化する際に使用するファイルです。活字モデルと比較すると精度は劣りますが、活字文字もデータ化することが可能です。
・Edition
– 座標
定型の帳票のデータ化に適した機能です。手書き/活字の両モデルに対応しています。
FormEditorで定義を作成し、アップロードします。
– ルールv1
非定型の帳票にOCRをかけ、データ化する際に適した機能です。手書き/活字の両モデルに対応しています。
RuleEditorで定義を作成し、アップロードします。
– ルールv2
定型の帳票のデータ化に適した機能です。手書き/活字の両モデルに対応しています。
FormEditorで定義を作成し、アップロードします。
読み取り方法で「キーワード」「型指定」「キーワード座標指定」を使用した場合に「ルールv2」となります。
・共通設定ファイル
OCRをかける際に、使用する設定ファイルです。フォルダパスの指定やデータ抽出のチューニングを行います。
・AIRead FormEditor
座標・ルールv2の機能で帳票を読み取る際に使用します。帳票定義の作成・チューニングを行うためのGUIです。
・AIRead RuleEditor
座標・ルールv1の機能で帳票を読み取る際に使用します。帳票定義の作成・チューニングを行うためのGUIです。
・AIRead ControlPanel
共通設定ファイルの作成・チューニングを行うためのGUIです。ライセンスの登録・更新、ユーザ認証の設定もこちらのツールで行います。
・AIREAD_CLOUD_HOME
AIRead が使用するシステム環境変数です。AIRead のインストール先が、AIREAD_CLOUD_HOMEとなります。インストール時に作成されるため、事前に設定する必要はありません。