トップページ -> データベース研究スタート -> ナンバープレート読み取り -> Windows で Tesseract 3.0.5 を使ってみる
[サイトマップへ]  

Windows で Tesseract 3.0.5 を使ってみる

Tesseract は、文字認識のソフトウエア.

Tesseract の学習(訓練)については、別のウェブページで説明しています.

手順については https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05

先人に感謝


Tesseract 3.0.5 のダウンロードとインストール

  1. 「Tesseract OCR のバイナリ」の Web ページを開く

    https://github.com/tesseract-ocr/tesseract/wiki

  2. Windows のところの「Tesseract at UB Mannheim」をクリック

  3. 最新版を選ぶ

    ※「beta」が付いているものはやめておく

  4. .exe ファイルがダウンロードされる

  5. ダウンロードした .exe ファイルを実行

  6. ようこそ画面では「Next」をクリック

  7. ライセンス条項の確認

  8. ユーザの選択 (Choose Users).既定(デフォルト)のままでよい.「Next」をクリック

  9. コンポーネントの選択 (Choose Components).既定(デフォルト)のままでよい.「Next」をクリック

  10. インストールディレクトリ(フォルダ)は、既定(デフォルト)のままでよい.「Next」をクリック

  11. スタートメニューフォルダは、既定(デフォルト)のままでよい.「Install」をクリック

  12. インストール終了の確認.「Next」をクリック

  13. インストール終了の確認.「Finish」をクリック

  14. Tesseract 用の日本語データが欲しいので,次の Web ページを開く

    https://github.com/tesseract-ocr/tesseract/wiki/Data-Files

  15. 「Data files for Version 3.04/3.05」を探す

  16. その下にある jpn.traineddata をクリックして、ダウンロード

  17. ダウンロードしたファイルを C:\Program Files (x86)\Tesseract-OCR\tessdata に置く

  18. 日本語の文章が書かれた画像を用意する

    次の画像は、Wikipedia「日本国憲法前文」から取得

    URL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87

  19. Windows のコマンドプロンプトを起動

  20. 画像から文字を認識してみる

  21. "C:\Program Files (x86)\Tesseract-OCR\tesseract.exe" <画像ファイル名> -l jpn outbase

  22. outbase.txtというファイルができるので,メモ帳で確認

  23. 今度はサイズが大きい画像(画素数が多い画像)」

    次の画像は、Wikipedia「日本国憲法前文」から取得

    URL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87

  24. 画像から文字を認識してみる

  25. "C:\Program Files (x86)\Tesseract-OCR\tesseract.exe" <画像ファイル名> -l jpn outbase

  26. outbase.txtというファイルを,メモ帳で確認

    精度が変化することがある.