トップページ -> 最新情報技術の実習と研究ツール -> ナンバープレート読み取り -> Windows で Tesseract 3.0.5 を使ってみる
[サイトマップへ]  

Windows で Tesseract 3.0.5 を使ってみる

Tesseract は、文字認識のソフトウエア.

Tesseract の学習(訓練)については、別のウェブページで説明しています.

手順については https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05

先人に感謝


Tesseract 3.0.5 のダウンロードとインストール

  1. 「Tesseract OCR のバイナリ」の Web ページを開く

    https://github.com/tesseract-ocr/tesseract/wiki

  2. Windows のところの「Tesseract at UB Mannheim」をクリック

  3. 最新版を選ぶ

    ※「beta」が付いているものはやめておく

  4. .exe ファイルがダウンロードされる

  5. ダウンロードした .exe ファイルを実行

  6. ようこそ画面では「Next」をクリック

  7. ライセンス条項の確認

  8. ユーザの選択 (Choose Users).既定(デフォルト)のままでよい.「Next」をクリック

  9. コンポーネントの選択 (Choose Components)では、 「Additional language data (download)」を展開する

  10. スクロールし、 「Japanese」をチェック.「Next」をクリック

  11. インストールディレクトリ(フォルダ)は、既定(デフォルト)のままでよい.「Next」をクリック

  12. スタートメニューフォルダは、既定(デフォルト)のままでよい.「Install」をクリック

  13. インストール終了の確認.「Next」をクリック

  14. インストール終了の確認.「Finish」をクリック

    Tesseract 用の言語データを追加したいときは、次の Web ページから ダウンロードしてC:\Program Files (x86)\Tesseract-OCR\tessdataに置く

    https://github.com/tesseract-ocr/tesseract/wiki/Data-Files

  15. Windows のシステム環境変数 TESSDATA_PREFIX を 「C:\Program Files (x86)\Tesseract-OCR\tessdata」に設定する

  16. 日本語の文章が書かれた画像を用意する

    次の画像は、Wikipedia「日本国憲法前文」から取得

    URL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87

  17. 新しくWindows のコマンドプロンプトを起動

  18. 画像から文字を認識してみる

    d:\outbase」の「d:\」のところは、分かりやすいディレクトリを指定すること

    但し、「C:\outbase」のように設定してはいけない(これは C:\ の直下にファイルを保存せよ、という意味になる.C:\ の直下には、特別な操作をしないとファイルを書き込めない.下の操作をしても、結局ファイルが何もできないことになってしまう)

    "C:\Program Files (x86)\Tesseract-OCR\tesseract.exe" <画像ファイル名> -l jpn d:\outbase
    

  19. outbase.txtというファイルができるので,メモ帳で確認

    d:\outbase」と指定したときは、「d:\outbase.txt」というファイルが新しくできる

  20. 今度はサイズが大きい画像(画素数が多い画像)

    次の画像は、Wikipedia「日本国憲法前文」から取得

    URL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87

  21. 画像から文字を認識してみる

    d:\outbase」の「d:\」のところは、分かりやすいディレクトリを指定すること

    但し、「C:\outbase」のように設定してはいけない(これは C:\ の直下にファイルを保存せよ、という意味になる.C:\ の直下には、特別な操作をしないとファイルを書き込めない.下の操作をしても、結局ファイルが何もできないことになってしまう)

    "C:\Program Files (x86)\Tesseract-OCR\tesseract.exe" <画像ファイル名> -l jpn d:\outbase
    

  22. outbase.txtというファイルを,メモ帳で確認

    認識精度が変化することがある.

    ※この場合は、サイズが大きい画像(画素数が多い画像)の方が認識の精度が高い、最初の「日本国民は」ところなど