トップページ -> データベース研究スタート -> ナンバープレート読み取り -> Ubuntu で Tesseract 3.0.4 の学習(訓練)
[サイトマップへ]  

Ubuntu で Tesseract 3.0.4 の学習(訓練)

Tesseract 3.0.4 の学習(訓練)には Linux を使うのが便利です.Ubuntuでの Tesseract 3.0.4 の学習(訓練)の手順を説明します.

この Web ページでは、次の方針で学習(訓練)します

次のWebページの手順をたどる https://qiita.com/atuyosi/items/c0933b5edf605c4a7c19


Tesseract-OCR のインストール

  1. システムの更新
    sudo apt-get update
    sudo apt-get upgrade
    sudo apt-get dist-upgrade
    

  2. Tesseract-OCR のインストール
    sudo apt-get install tesseract-ocr-dev
    sudo apt-get install tesseract-ocr 
    sudo apt-get install tesseract-ocr-jpn 
    

  3. Tesseract のバージョンの確認
    tesseract -v 
    

    実行結果の例

  4. テスト実行

    画像ファイルを用意し、テスト実行してみる

    tesseract 48.png -l jpn outbase 
    cat outbase.txt 
    

フォントファイルの準備

  1. Tesseract の langdata のダウンロード

    ※ /tmp/langdata に langdata をダウンロードする

    cd /tmp
    git clone git://github.com/tesseract-ocr/langdata.git
    

  2. 確認
    ls /tmp/langdata 
    

    次のように表示されれば OK.

  3. 縦書きしないことにしたいので、/tmp/landdata/jpn/jpn.config から、次の行を消す
    tessedit_load_sublangs jpn_vert
    

  4. フォントのインストール

    Ubuntu での実行手順例をつぎに示す.

    sudo apt-get install -y fonts-takao-gothic
    sudo apt-get install -y fonts-takao-mincho
    sudo apt-get install -y fonts-takao-pgothic
    sudo apt-get install -y fonts-takao
    sudo apt-get install -y fonts-hanazono
    sudo apt-get install -y fonts-horai-umefont
    sudo apt-get install -y fonts-mona
    sudo apt-get install -y fonts-monapo
    sudo apt-get install -y fonts-sawaribi-gothic
    sudo apt-get install -y fonts-umeplus
    sudo apt-get install -y fonts-ipaexfont
    sudo apt-get install -y fonts-ipaexfont-gothic
    sudo apt-get install -y fonts-noto-cjk
    sudo apt-get install -y fonts-noto 
    sudo apt-get install -y fonts-noto-hinted 
    sudo apt-get install -y fonts-noto-mono
    sudo apt-get install -y fonts-noto-unhinted 
    sudo apt-get install -y ttf-mscorefonts-installer
    

  5. Ubuntuにインストールされているフォントの確認
    text2image --list_available_fonts --fonts_dir /usr/share/fonts 
    

    実行結果の例

  6. /usr/share/tesseract-ocr/language-specific.sh

    Ubuntuにインストールされていないフォントは、この設定ファイルの中から消したい

    JPN_FONTS のところで、 次を削除することにする(両方とも削除)

        "TakaoExGothic" \
        "TakaoExMincho" \
    
        "VL Gothic" \
        "VL PGothic" \
    

    編集の結果、次のようになる

    縦書きを行わないことにしたいので、VERTICAL_FONTS のところで、 次の2行を削除することにする

        "TakaoExGothic" \ # for jpn
        "TakaoExMincho" \ # for jpn
    

    編集の結果、次のようになる

  7. 確認のため,tesstrain.sh を実行してみる

    ※ フォントのインストールと設定ファイルに問題がないかの確認のため

    tesstrain.sh --overwrite --lang jpn --langdata_dir /tmp/langdata 
    

  8. 上の実行の結果、エラーメッセージが出ていないことを確認

  9. インストール済みの jpn.traineddata を上書き
    sudo cp /tmp/tesstrain/tessdata/jpn.traineddata /usr/share/tesseract-ocr/tessdata/jpn.traineddata 
    

  10. テスト実行

    ※ 生成された jpn.traineddata に問題が無いかの確認のため

    tesseract 48.png -l jpn outbase 
    cat outbase.txt 
    

  11. フォントを追加したいので、/tmp/langdata/font_properties を編集
    IPAexMincho 0 0 0 1 0
    IPAexGothic 0 0 0 0 0
    Noto Sans Gothic 0 0 0 0 0
    Ume_Gothic 0 0 1 0 0
    Ume_P_Gothic 0 0 0 0 0
    

  12. フォントを追加したいので、/usr/share/tesseract-ocr/language-specific.sh を編集

    次を追加

    IPAexMincho 
    IPAexGothic 
    Noto Sans Gothic
    Ume Gothic
    Ume P Gothic
    UmePlus Gothic
    UmePlus P Gothic
    

  13. tesstrain.sh を実行
    tesstrain.sh --overwrite --lang jpn --langdata_dir /tmp/langdata 
    

  14. 上の実行の結果、エラーメッセージが出ていないことを確認

  15. インストール済みの jpn.traineddata を上書き
    sudo cp /tmp/tesstrain/tessdata/jpn.traineddata /usr/share/tesseract-ocr/tessdata/jpn.traineddata 
    

  16. テスト実行

    ※ 生成された jpn.traineddata に問題が無いかの確認のため

    tesseract 48.png -l jpn outbase 
    cat outbase.txt