トップページ -> 最新情報技術の実習と研究ツール -> ナンバープレート読み取り -> Tesseract を用いて数字と漢字の認識)
[サイトマップへ]  

Tesseract を用いて数字とひらがなの認識

実験1

実験結果例(handa)

Ubuntu で次のように実行

cd dblab/data67881/licenseplate_tile-2018-04-19/handa
for i in *.png; do
  echo $i
  tesseract $i -l jpn -psm 10 outbase &> /dev/null
  nkf -s outbase.txt
  rm -f outbase.txt;
done

認識結果

jp0.png
'

jp1.png
jp2.png
Z

jp3.png
3

jp4.png
4

jp5.png
5

jp6.png
.

jp7.png
7

jp8.png
8

jp9.png
.

jpa.png
あ

jpe.png
え

jpha.png
は

jphe.png
へ

jphi.png
ひ

jpho.png
ぼ

jphu.png
ふ

jpi.png
い

jpka.png
か

jpke.png
け

jpki.png
き

jpko.png
こ

jpku.png
く

jpma.png
.

jpme.png
め

jpmi.png
み

jpmo.png
も

jpmu.png
む

jpna.png
な

jpne.png
.

jpni.png
に

jpnn.png
ん

jpno.png
の

jpnu.png
ぬ

jpo.png
お

jps0.png
O

jps1.png
1

jps2.png
2

jps3.png
3

jps4.png
4

jps5.png
5

jps6.png
6

jps7.png
7

jps8.png
jps9.png
9

jpsa.png
さ

jpse.png
せ

jpsi.png
し

jpso.png
そ

jpsu.png
.

jpta.png
た

jpte.png
て

jpti.png
ち

jpto.png
と

jptu.png
つ

jpu.png
う

jpwa.png
わ

jpwo.png
を

jpya.png
や

jpyo.png
.

jpyu.png
ゆ

実験結果例(inoue)

Ubuntu で次のように実行

cd dblab/data67881/licenseplate_tile-2018-04-19/inoue
for i in 2018*.png; do
  echo $i
  tesseract $i -l jpn -psm 10 outbase &> /dev/null
  nkf -s outbase.txt
  rm -f outbase.txt;
done

認識結果

2018y04m12d_000658152.png
あ

2018y04m12d_000707634.png
い

2018y04m12d_000712612.png
う

2018y04m12d_000717908.png
え

2018y04m12d_000724314.png
お

2018y04m12d_000742950.png
か

2018y04m12d_000748192.png
き

2018y04m12d_000753094.png
く

2018y04m12d_000759002.png
け

2018y04m12d_000834180.png
こ

2018y04m12d_000838174.png
さ

2018y04m12d_000843708.png
し

2018y04m12d_000849428.png
.

2018y04m12d_000854114.png
せ

2018y04m12d_000858638.png
そ

2018y04m12d_000907802.png
た

2018y04m12d_000913526.png
ち

2018y04m12d_000917965.png
つ

2018y04m12d_000926712.png
て

2018y04m12d_000932869.png
と

2018y04m12d_000938978.png
な

2018y04m12d_000946816.png
に

2018y04m12d_000954058.png
ぬ

2018y04m12d_000959758.png
.

2018y04m12d_001004334.png
の

2018y04m12d_001010244.png
は

2018y04m12d_001018386.png
ひ

2018y04m12d_001043428.png
ふ

2018y04m12d_001052382.png
へ

2018y04m12d_001057708.png
ほ

2018y04m12d_001102201.png
.

2018y04m12d_001107159.png
み

2018y04m12d_001112913.png
む

2018y04m12d_001119644.png
め

2018y04m12d_001126502.png
も

2018y04m12d_001133286.png
や

2018y04m12d_001139335.png
ゆ

2018y04m12d_001145259.png
.

2018y04m12d_001153512.png
ら

2018y04m12d_001159699.png
り

2018y04m12d_001205681.png
.

2018y04m12d_001210484.png
れ

2018y04m12d_001218690.png
ろ

2018y04m12d_001229098.png
わ

2018y04m12d_001238832.png
を

2018y04m12d_001244052.png
ん

2018y04m12d_001432832.png
O

2018y04m12d_001438818.png
1

2018y04m12d_001447719.png
2

2018y04m12d_001453217.png
3

2018y04m12d_001458639.png
4

2018y04m12d_001503488.png
5

2018y04m12d_001508004.png
6

2018y04m12d_001512285.png
7

2018y04m12d_001516551.png
8

2018y04m12d_001524536.png
9

2018y04m12d_001551885.png
|

2018y04m12d_001559167.png
2018y04m12d_001604639.png
Z

2018y04m12d_001609557.png
3

2018y04m12d_001614264.png
4

2018y04m12d_001618793.png
5

2018y04m12d_001623671.png
.

2018y04m12d_001631700.png
フ

2018y04m12d_001636189.png
8

2018y04m12d_001641757.png
.

実験2

実験結果例(handa)

Ubuntu で次のように実行

cd dblab/data67881/licenseplate_tile-2018-04-19/handa
echo 
for i in *.png; do
  echo $i
  tesseract $i -l jpn -psm 10 outbase &> /dev/null
  nkf -s outbase.txt
  rm -f outbase.txt;
done

実験結果

jp0.png
1

jp1.png
jp2.png
2

jp3.png
3

jp4.png
4

jp5.png
5

jp6.png
6

jp7.png
7

jp8.png
8

jp9.png
9

jpa.png
あ

jpe.png
え

jpha.png
は

jphe.png
な

jphi.png
ひ

jpho.png
ほ

jphu.png
ふ

jpi.png
い

jpka.png
か

jpke.png
け

jpki.png
き

jpko.png
こ

jpku.png
く

jpma.png
ま

jpme.png
め

jpmi.png
み

jpmo.png
も

jpmu.png
む

jpna.png
な

jpne.png
ね

jpni.png
に

jpnn.png
ゆ

jpno.png
の

jpnu.png
ぬ

jpo.png
あ

jps0.png
0

jps1.png
1

jps2.png
2

jps3.png
3

jps4.png
4

jps5.png
5

jps6.png
6

jps7.png
7

jps8.png
jps9.png
9

jpsa.png
さ

jpse.png
せ

jpsi.png
0

jpso.png
そ

jpsu.png
す

jpta.png
た

jpte.png
て

jpti.png
ち

jpto.png
と

jptu.png
つ

jpu.png
う

jpwa.png
わ

jpwo.png
を

jpya.png
や

jpyo.png
よ

jpyu.png
ゆ

実験結果例(inoue)

Ubuntu で次のように実行

cd dblab/data67881/licenseplate_tile-2018-04-19/inoue
echo 
for i in 2018*.png; do
  echo $i
  tesseract $i -l jpn -psm 10 outbase &> /dev/null
  nkf -s outbase.txt
  rm -f outbase.txt;
done

実験結果

2018y04m12d_000658152.png
あ

2018y04m12d_000707634.png
い

2018y04m12d_000712612.png
う

2018y04m12d_000717908.png
え

2018y04m12d_000724314.png
あ

2018y04m12d_000742950.png
か

2018y04m12d_000748192.png
き

2018y04m12d_000753094.png
く

2018y04m12d_000759002.png
け

2018y04m12d_000834180.png
こ

2018y04m12d_000838174.png
さ

2018y04m12d_000843708.png
わ

2018y04m12d_000849428.png
す

2018y04m12d_000854114.png
せ

2018y04m12d_000858638.png
そ

2018y04m12d_000907802.png
た

2018y04m12d_000913526.png
ち

2018y04m12d_000917965.png
つ

2018y04m12d_000926712.png
て

2018y04m12d_000932869.png
と

2018y04m12d_000938978.png
な

2018y04m12d_000946816.png
に

2018y04m12d_000954058.png
ぬ

2018y04m12d_000959758.png
ね

2018y04m12d_001004334.png
の

2018y04m12d_001010244.png
は

2018y04m12d_001018386.png
ひ

2018y04m12d_001043428.png
ふ

2018y04m12d_001052382.png
な

2018y04m12d_001057708.png
ほ

2018y04m12d_001102201.png
ま

2018y04m12d_001107159.png
み

2018y04m12d_001112913.png
む

2018y04m12d_001119644.png
め

2018y04m12d_001126502.png
も

2018y04m12d_001133286.png
や

2018y04m12d_001139335.png
ゆ

2018y04m12d_001145259.png
よ

2018y04m12d_001153512.png
ら

2018y04m12d_001159699.png
り

2018y04m12d_001205681.png
る

2018y04m12d_001210484.png
れ

2018y04m12d_001218690.png
ろ

2018y04m12d_001229098.png
わ

2018y04m12d_001238832.png
を

2018y04m12d_001244052.png
か

2018y04m12d_001432832.png
0

2018y04m12d_001438818.png
1

2018y04m12d_001447719.png
2

2018y04m12d_001453217.png
3

2018y04m12d_001458639.png
4

2018y04m12d_001503488.png
5

2018y04m12d_001508004.png
6

2018y04m12d_001512285.png
7

2018y04m12d_001516551.png
8

2018y04m12d_001524536.png
9

2018y04m12d_001551885.png
1

2018y04m12d_001559167.png
2018y04m12d_001604639.png
2

2018y04m12d_001609557.png
3

2018y04m12d_001614264.png
4

2018y04m12d_001618793.png
5

2018y04m12d_001623671.png
6

2018y04m12d_001631700.png
7

2018y04m12d_001636189.png
8

2018y04m12d_001641757.png
9

実験結果 今度はナンバープレート画像

cd dblab/data67881/licenseplate_tile-2018-04-19/inoue
echo 
for i in ??.png ??.PNG; do
  echo $i
  tesseract $i -l jpn -psm 6 outbase &> /dev/null
  nkf -s outbase.txt
  rm -f outbase.txt;
done
05.png
0そ5ぬ 897う
か92104

15.png
0そ5ぬ 897う
け12134

16.png
0そ5ぬ 897う
け73165

17.png
0そ5ぬ 897う
け98158

18.png
0そ5ぬ 986う
け19187

19.png
0そ5ぬ 986う
け96174

20.png
075ぬ 9866
こ46145

21.png
075ぬ 9866
こ13159

22.png
075ぬ 9866
こ46158

23.png
075ぬ 9866
こ78179

24.png
075ぬ 9866
こ98109

25.png
075ぬ 9866
さ85166

26.png
075ぬ 9866
さ89176

27.png
075ぬ 9866
さ54156

28.png
075ぬ 9866
さ87157

29.png
075ぬ 9866
さ28165

30.png
075ぬ 9866
079189

31.png
075ぬ 9866
087158

32.png
075ぬ 9866
028197

33.png
075ぬ 9866
い14178

34.png
075ぬ 9866
079179

35.png
075ぬ 9866
す77177

36.png
075ぬ 9866
す88185

37.png
075ぬ 9866
す96166

38.png
075ぬ 9866
す89159

39.png
075ぬ 9866
す12132

40.png
075ぬ 9866
せ85188

41.png
075ぬ 9866
せ741 1 2

42.png
075ぬ 9866
せ67167

43.png
075ぬ 9866
せ36154

44.png
075ぬ 9866
せ19187

45.png
075ぬ 9866
そ24168

46.png
035ぬ 164う
そ99194

47.png
035ぬ 164う
そ39189

48.png
035ぬ 164う
そ46149

49.png
035ぬ 164う
そ37156

50.png
0そ5ぬ 897う
け98178

01.PNG
075ぬ 6676
ら21154

02.PNG
075ぬ 6786
あ48155

03.PNG
0そ5ぬ 897う
か85176

04.PNG
0そ5ぬ 897う
か97184

06.PNG
075ぬ 8976
き76145

07.PNG
075ぬ 8976
き67189

08.PNG
075ぬ 8976
き24168

09.PNG
075ぬ 8976
き27195

10.PNG
075ぬ 8976
く27191

11.PNG
075ぬ 8976
く79185

12.PNG
075ぬ 8976
く59178

13.PNG
075ぬ 8976
く10154

14.PNG
075ぬ 8976
く35178

キャラクタタイルの学習(訓練)

次のWebページに記載の http://doc.openalpr.com/opensource.html 「Creating the Character Tiles」を実施

  1. キャラクタタイル画像をひとそろい準備

    集めます

  2. ImageMagick をインストール

    ImageMagick は画像処理のソフトウエア

  3. 次の作業を行う

Tesseract の学習(訓練)手順

学習(訓練)データの作成手順例

※ magick convert でエラーが出るときは ImageMagick のインストールを行う

magick convert <画像ファイル名>  jpn.hoge.exp0.png
"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"  jpn.hoge.exp0.png jpn.hoge.exp0 -l jpn batch.nochop makebox
"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"  jpn.hoge.exp0.png jpn.hoge.exp0 -l jpn nobatch box.train.stderr
"C:\Program Files (x86)\Tesseract-OCR\unicharset_extractor.exe" jpn.hoge.exp0.box

データファイル unicharset ができる

メモ帳でデータファイル unicharset を開くと次のようになる

でデータファイル unicharset を開くと次のようになる