0463オボエガキ: tesseractの数字と一部の記号のみ識字させる方法

2018/10/10

https://code-examples.net/ja/q/4b73be
此処に記載があった。

outputbase digits　のオプションでは、何故か上手く行かなかったので、

少し調べてみたところ
標準出力にオプションでキャラクタの設定が出来るとあった。

stdout -c tessedit_char_whitelist=指定したい内容

これは上手くいったので、一旦標準出力させたものを無理やりファイル出力させた。

正規の方法は、学習させることだと思うが、

数字とハイフンのみ識別させればよかったので、この方法を採った。

数字の認識のみさせるであれば余程特殊なフォントでなければ、かなりの精度で認識した。

ファイル出力する場合
$ tesseract test.png stdout -c tessedit_char_whitelist=0123456789- >test.txt

このようにすると良い。

デフォルトのライブラリを通すと、~や#に誤認識することが有り、

上手くなかったので、探してみたところ有益な情報が見つかったので、オボエガキ

0463オボエガキ