概要

ALOCR Ver1.0は1999年5月にリリースされた、最新の日本語活字文字認識ライブラリです。Ver.1.0で提供されるのは、1行テキスト認識機能、1段落テキスト認識機能と、1文字認識機能です。

 文書から段落を抽出するには、別製品のALPRIMライブラリを用います。ALPRIMライブラリのパラメータを調整することによって、斜めの段落・行を含む広範なタイプのテキストを抽出することができます。

文字認識システム

特長

  1. 高精度認識
    CPU性能の向上と記憶領域の増大に見合った最新の認識アルゴリズムを採用。
  2. 極めて高いカスタマイズ性
    今まで全く認識不可能だった低品質文字や特殊フォントにも対応可能。
  3. 強力な言語処理
    20メガバイトの言語辞書を用いた強力な言語処理で、一般文書の場合、誤認識を半減。

認識対象文字種

認識対象文字種はJIS第1水準の全漢字、記号の一部、アルファベット、数字、カタカナ、ひらがな3324文字+JIS第2水準の人名漢字(58文字)+JIS第2水準の高頻度漢字(468文字)です。ただし、パターン辞書を追加、入れ替えることによって、認識対象文字種は自由に拡張することができます。
2005年8月31日にJIS第2水準の54文字が追加されました。
2022年11月の深層学習対応エンジンでは、さらにJIS第2水準の文字を1000以上追加してトータル5438文字をサポートしています。

認識対象フォント

認識対象フォントは、明朝体、ゴシック体、丸ゴシック体、教科書体の任意の種類、太さのマルチフォント対応となっています。パターン辞書を追加することで認識対象フォントを自由に拡張することができます。拡張用として、低品質画像向け辞書、楷書体のパターン辞書が標準で提供されます。

認識対象文字サイズ

認識対象の文字サイズは、400dpiで6ポイント〜です。4〜6ポイントの小さい文字は低品質画像向け辞書を組み込むことで実用的な認識率を得ることができます。
ユーザーズマニュアル

リファレンスマニュアル