概要
ALOCR-C Ver1.0は2000年5月にリリースされた、日本語活字文字認識ライブラリです。
Ver.1.0で提供されるのは、縦書き横書きのテキストブロック抽出機能と、日本語活字OCR機能です。
APIはC言語呼び出しに基づき、32bit版Windowsの動的リンクライブラリDLLとして、C++、C、VB等から動的にリンクして用います。
Ver.2.0
ALOCR-C Ver2.0は2005年12月に、ALOCR-C Ver.1.0の性能・機能を強化したものです。社内限定のサーバーライセンスによる
提供も開始しました。
- 認識速度、認識制度の大幅アップ
- 認識結果のPDF出力サポート
- バッチ処理コマンドにより、APIひとつを呼び出すだけで、画像ファイルを画像+透明テキストPDFに変換することができるようになりました。
バッチ処理コマンドに関しては、ユーザーに応じて、ブックスキャナの画像対応、XML出力、Unicode出力などのカスタマイズを行ないました。
Ver.3.0
ALOCR-C Ver3.0は2008年12月に、ALOCR-C Ver.2.0の機能を強化したものです。サーバーライセンスを社外向けサービス許諾つきに拡張いたしました。
- 入力画像フォーマットとして従来のTIF/BMP形式に加えて、PDF/JPEG/GIF/PNG/JPEG2000フォーマットを新たにサポート
- マニュアル操作によるテキストの指定をサポート
- 長方形フック(長方形内部+長方形にかかる画像)
- 長方形インナー(長方形内部のみ、長方形にかかる画像は認識対象に含まない)
- ラインフック(線分+線分にかかる画像+全体を囲う長方形内部の画像)
- 認識結果の編集機能に対応したAPIを追加
- 認識結果の削除、挿入
- 候補文字の入れ替え
- 認識した文字画像を任意の文字コードでユーザー辞書登録
- 指定回数までのUndo/Redoサポート
認識対象文字種
認識対象文字種はJIS第1水準の全漢字、記号の一部、アルファベット、数字、カタカナ、ひらがな+JIS第2水準の人名漢字(58文字)です。ただし、パターン辞書を追加、入れ替えることによって、認識対象文字種は自由に拡張することができます。
認識対象フォント
認識対象フォントは、明朝体、ゴシック体、丸ゴシック体、教科書体の任意の種類、太さのマルチフォント対応となっています。低品質画像向け辞書、楷書体のパターン辞書が標準で提供されます。
楷書体に関しては、名刺等の特殊な文書の認識時に組み込んで通常は外すようにしてください。
認識対象文字サイズ
認識対象の文字サイズは、400dpiで6ポイント〜です。4〜6ポイントの小さい文字は低品質画像向け辞書を組み込むことで認識率を上げることができます。
リファレンスマニュアル
パラメータ調整ツール操作マニュアル