2009年~2016年に導入した新しいアルゴリズムです
2008年以前からあるアルゴリズム
- 高速ラべリングアルゴリズムを利用した2値化
グレイスケール画像の2値化において、輝度値を1~255のしきい値で2値化した画像を255枚用意する。その
全てについて高速ラべリング処理をして、ラベル付した領域の数のヒストグラムを得る。
領域数が多い場合は「かすれ」、少ない場合は「つぶれ」と判断して、最適なしきい値を取得する2値化。
速度が遅くても良好な2値画像を取得したい時に用いる、低速・高品質2値化。
- 入れ子段落抽出
異なる段組みの段落を一つの段落や行として抽出した場合に、段落内で入れ子の段落抽出を行うことができるようになりました。
- 新接触文字列処理
上のような3文字以上の接触文字列を認識することができるようになりました
|