トップページ -> データベース研究スタート -> ナンバープレート読み取り -> Ubuntu で Tesseract 3.0.4 の学習(訓練)のためにフォントを追加
[サイトマップへ]  

Ubuntu で Tesseract 3.0.4 の学習(訓練)のためにフォントを追加

Ubuntu での手順を示します

前準備

tesseract_ubuntu.html の手順を一通り行っていること (このウェブページで作成する /tmp/langdata を使います)

  1. フォントリストの作成
    text2image --list_available_fonts --fonts_dir /usr/share/fonts &> /tmp/fontlist1
    

  2. フォントファイルを準備

    以下、フォントファイル名を「hoge.ttf 」と書く. ttf や otf は OK のようです.

  3. フォントファイルを /usr/share/fonts にコピー
    sudo cp hoge.ttf /usr/share/fonts
    

  4. 再度、フォントリストを作成
    text2image --list_available_fonts --fonts_dir /usr/share/fonts &> /tmp/fontlist2
    

  5. フォントリストの差分を得る

    これで、フォント名を確認(あとで、フォント名を使う).

    /tmp/fontlist1 /tmp/fontlist2 
    

  6. フォントを追加したいので、/tmp/langdata/font_properties を編集

    いま確認したフォント名を設定

    フォント名> 0 0 0 0 0
    

  7. フォントを学習(訓練)に使いたいので、/usr/share/tesseract-ocr/language-specific.sh の編集

    JPN_FONTS のところで、 いま確認したフォント名を設定

  8. 確認のため,tesstrain.sh を実行してみる

    ※ フォントのインストールと設定ファイルに問題がないかの確認のため

    tesstrain.sh --overwrite --lang jpn --langdata_dir /tmp/langdata 
    

  9. 上の実行の結果、エラーメッセージが出ていないことを確認

  10. インストール済みの jpn.traineddata を上書き
    sudo cp /tmp/tesstrain/tessdata/jpn.traineddata /usr/share/tesseract-ocr/tessdata/jpn.traineddata 
    

  11. テスト実行

    ※ 生成された jpn.traineddata に問題が無いかの確認のため

    tesseract 48.png -l jpn outbase 
    cat outbase.txt