역시 오픈소스라 그런가... 설명이 아주 불친절하다.
뭐하나 하려면 크고 작은 언덕을 넘어야 하니....
지난 (1)화에서 생성한 학습데이터를 학습시키기 위해서는
사전에 선행설치해야하는 것이 있으니 scrollView.jar 이다.
이 scrollView.jar와 이에 필요한 jar 3종 세트는 아래 사이트에서 받을 수 있다.
https://github.com/tesseract-ocr/tesseract/wiki/ViewerDebugging
받고 난 후 JAVA가 설치 안되있다면 추가 설치해주자
준비가 되면 아래 명령어를 실행한다 (tesseract 디렉토리 밑에서 진행)
lstmtraining --debug_interval 100 \
--traineddata ~/tesstutorial/engtrain/eng/eng.traineddata \
--net_spec '[1,36,0,1 Ct3,3,16 Mp3,3 Lfys48 Lfx96 Lrx96 Lfx256 O1c111]' \
--model_output ~/tesstutorial/engoutput/base --learning_rate 20e-4 \
--train_listfile ~/tesstutorial/engtrain/eng.training_files.txt \
--eval_listfile ~/tesstutorial/engeval/eng.training_files.txt \
--max_iterations 5000
한참동안 학습과정이 진행되고
체크포인트마다 .checkpoint 확장자의 파일들이 ~/tesstutorial/engoutput 디렉토리 밑에 쌓이게 된다
중간에 학습을 멈췄다면 다음 실행할 때 마지막 체크포인트부터 다시 학습하게 된다
** 주의 : 트레이닝은 scrollView 때문에 UI가 있는 데스크탑 환경에서 실행해야 하는 것 같다. 터미널 환경에서 실행하면 Graphic 관련 에러가 발생한다. 서버 환경에서 실행하고 싶다면 아래와 같이 Tesseract를 rebuild 하면 된다는데... 뾰족한 해결책은 아닌듯 하다.
./configure --disable-graphics
|