는 off-line 기
abstract
off-line 기 개다.
모 라 리는 는 근 방법(segmentation-free approach) 다.
리, , 모델링 방법들 개고, 독립 방법, 복 , 명 기 대 들 루 것다.
, (linear discriminant analysis)과 allograph 문 모델, 결 방법 볼 것다.
는(lexicon-off) 기 결과는 는 방 것다.
off-line 기 개다.
모 라 리는 는 근 방법(segmentation-free approach) 다.
리, , 모델링 방법들 개고, 독립 방법, 복 , 명 기 대 들 루 것다.
, (linear discriminant analysis)과 allograph 문 모델, 결 방법 볼 것다.
는(lexicon-off) 기 결과는 는 방 것다.
1.
만 는 기 다.
까는 대부 off-line 기 를 나 모 리는데 된다.
런 들 된 문나 단만 로 되고 고, 는 기 무 다.
것 방대 대 글나 단 경가 기 때문 러 복가 라가기 때문다.
만 능력 가가 더 복 리를 가능게 기 때문 기 기 더 볼 만 가는 다.
만 는 기 다.
까는 대부 off-line 기 를 나 모 리는데 된다.
런 들 된 문나 단만 로 되고 고, 는 기 무 다.
것 방대 대 글나 단 경가 기 때문 러 복가 라가기 때문다.
만 능력 가가 더 복 리를 가능게 기 때문 기 기 더 볼 만 가는 다.
논문는 는 off-line 기 기본로 Hidden-Markov-Model 개 것다.
그리고 독립 방법과 복 , 단 대 문 데베 기반 몇몇 들 개 것다.
리 방법들 기 것데, 가로 , allograph 문 모델, 더 교 방법 볼 것다.
그리고 독립 방법과 복 , 단 대 문 데베 기반 몇몇 들 개 것다.
리 방법들 기 것데, 가로 , allograph 문 모델, 더 교 방법 볼 것다.
다 는 기 대 관련 구를 단 볼 것다.
리가 데베 대는 3 개다.
그 는 들 리 과, 방법들, 모델링과 된 기 들 대 것다.
방법 과를 나내기 가 결과는 7 개 것다.
리가 데베 대는 3 개다.
그 는 들 리 과, 방법들, 모델링과 된 기 들 대 것다.
방법 과를 나내기 가 결과는 7 개 것다.
는 달리 방대 단를 는 는 기 렵다.
런 들 로 문맥 보나 단 구 보가 기 때문 난다. 러 려 리된 단 리를 들 내되 나난다.
런 려들 구고 는 기 많 발달 다.
들 로 (feature extract) 나 단 또는 라 리나 는 가 다.
1, 18과 15 HMMs 방법 는 리 기반 둔 방법과 recurrent neural network HMMs를 방법 각 가 다.
15 단 데베 반면, 1, 18 나난 들 복 데를 를 다.
대규모 off-line 기 대 는 16 보라.
런 들 로 문맥 보나 단 구 보가 기 때문 난다. 러 려 리된 단 리를 들 내되 나난다.
런 려들 구고 는 기 많 발달 다.
들 로 (feature extract) 나 단 또는 라 리나 는 가 다.
1, 18과 15 HMMs 방법 는 리 기반 둔 방법과 recurrent neural network HMMs를 방법 각 가 다.
15 단 데베 반면, 1, 18 나난 들 복 데를 를 다.
대규모 off-line 기 대 는 16 보라.
른 단 라 리는 것 문 기 , 9는 라 모 력는 무(segmentation-free) 방법 개되 다.
단 로 되고, 과 결로 망 는 결과를 달다.
독립고 는 된 명 만들 대 데베10 된 내 11 기되 다.
는 들 명 근법 는데, 리 방법 다르다.
가로, 각 문 류 따라 HMMs나 모델 는 allograph 문 모델 는 것 뿐 라 벡들 대 과 대 보다.
단 로 되고, 과 결로 망 는 결과를 달다.
독립고 는 된 명 만들 대 데베10 된 내 11 기되 다.
는 들 명 근법 는데, 리 방법 다르다.
가로, 각 문 류 따라 HMMs나 모델 는 allograph 문 모델 는 것 뿐 라 벡들 대 과 대 보다.
3. 말뭉
과 력 데는 Lancaster-Oslo/Bergen 말뭉 기반 둔 문 데베 공되다.
독립 경 뿐만 라 복 대 IAM과 Bern 대 기 를 루다.
데베는 다 고리들(문, 교, 대 , )과 500명 다른 들 1200류 기 를 다루고 다.
리는 독립 경 250명 가 만든 고리 a..f 들 다. 그리고 복 경 6명 만들 c03 부를 다.
과 력 데는 Lancaster-Oslo/Bergen 말뭉 기반 둔 문 데베 공되다.
독립 경 뿐만 라 복 대 IAM과 Bern 대 기 를 루다.
데베는 다 고리들(문, 교, 대 , )과 500명 다른 들 1200류 기 를 다루고 다.
리는 독립 경 250명 가 만든 고리 a..f 들 다. 그리고 복 경 6명 만들 c03 부를 다.
리 단 경 가기 노(Senior)들게 된 데베 공는 기 를 다.
데베는 단 25 기 로 루 며, 공개로 다.
데베는 단 25 기 로 루 며, 공개로 다.
두 데베 기 는 300dpi 256 그 벨로 되다.
Fig. 1 각 데베 를 보다.
Fig. 1 각 데베 를 보다.
4. 리
나 기 동로 부 렬 되는 것로 발는 러를 보기 기 미는 듬게 되 다.
따라 된 미 농 그램 무를 가 때까 미를 다.
리 단는 IAM 데베는 가 다는 것다. 들 두 를 게 되고 는 동 공 렬 되기 때문다.
나 기 동로 부 렬 되는 것로 발는 러를 보기 기 미는 듬게 되 다.
따라 된 미 농 그램 무를 가 때까 미를 다.
리 단는 IAM 데베는 가 다는 것다. 들 두 를 게 되고 는 동 공 렬 되기 때문다.
가 리를 기 는 각각 기 라들 다.
것 라 부 미를 는 것로 가능다.
라 나 기 같 류 기 나내기 는 들 들 나내는 를 는 것로 다.
된 밀 그램 는 Otsu method를 면 를 동로 구 다.
그 된 그램 각 라들 검 들 가 된다. 그리고 미는 된 그램 따라 로 된다.
것 라 부 미를 는 것로 가능다.
라 나 기 같 류 기 나내기 는 들 들 나내는 를 는 것로 다.
된 밀 그램 는 Otsu method를 면 를 동로 구 다.
그 된 그램 각 라들 검 들 가 된다. 그리고 미는 된 그램 따라 로 된다.
다 기 나 때문 단게 기 는 기들 규 되 다.
기 , 그러 는 것 리 다고 명되다.
가 규는 기 기 그 벨 강 다.
기 , 그러 는 것 리 다고 명되다.
가 규는 기 기 그 벨 강 다.
가끔 기 라 게 달라 다는 관 리는 각 라 , 그러 로 교다.
따라 각 공 는 방법 나다.
규 를 기 무 기 를 다.
따라 각 공 는 방법 나다.
규 를 기 무 기 를 다.
반면 그러 15 나 것과 귀(linear regression)를 베라 방법 교다. 그러 각 각 방 기반로 다.
따라 당 미는 되고, 그러 다는 고려 방 검-, -검 변들 된다.
각 그램 되는 모리 기반 데를 기 교 모리 검기가 되다.
그램 균값 그러 각(slant angle)로 되다.
따라 당 미는 되고, 그러 다는 고려 방 검-, -검 변들 된다.
각 그램 되는 모리 기반 데를 기 교 모리 검기가 되다.
그램 균값 그러 각(slant angle)로 되다.
기 기를 규기 리는 각 기 라 극값(local extrema) 고 값 라 교다.
(scaling factor)는 로 관 기반다. 는 관가 록 기 기 때문다.
막 리 단는 다른 류 과 를 보기 그 벨 규로 루 다.
따라 미 그 벨 격 가 두 곳 0 되고 가 밝 곳 255가 된다.
리 단 과는 말뭉 라 그림 3 나나 다.
(scaling factor)는 로 관 기반다. 는 관가 록 기 기 때문다.
막 리 단는 다른 류 과 를 보기 그 벨 규로 루 다.
따라 미 그 벨 격 가 두 곳 0 되고 가 밝 곳 255가 된다.
리 단 과는 말뭉 라 그림 3 나나 다.
5.
기 라 리 된 미는 단 력 데로 들다.
11 기된 것과 근방법 sliding window 기법 되다.
리 경는 미 높 4 를 가 가 2만 겹면 미 로 동다. 그리고 두 개 기 들 다.
기 라 리 된 미는 단 력 데로 들다.
11 기된 것과 근방법 sliding window 기법 되다.
리 경는 미 높 4 를 가 가 2만 겹면 미 로 동다. 그리고 두 개 기 들 다.
sliding window 각 다 다 7가 들 되다.
(1) 검- 변 (window 들 미를 )
(2) 기 고려 때 극값 균값 (position of the mean value of the intensity distribution)
(3) 단 기까 리
(4) 단 기까 리
(5) 단과 단 리
(6) 단과 단 균 극값
(7) 균 극값
기 대 견고 가기 (2)-(5)는 단 기과 단 기 리( 고값 line fitting로 됨)를 규되다.
그 window 4다 모든 들 균되다.
(1) 검- 변 (window 들 미를 )
(2) 기 고려 때 극값 균값 (position of the mean value of the intensity distribution)
(3) 단 기까 리
(4) 단 기까 리
(5) 단과 단 리
(6) 단과 단 균 극값
(7) 균 극값
기 대 견고 가기 (2)-(5)는 단 기과 단 기 리( 고값 line fitting로 됨)를 규되다.
그 window 4다 모든 들 균되다.
극값 균값 경 뿐만 라 단 곽 방 고려기 , 리는 가로 3개 방 다.
따라 리는 window 내부 는 4개 단 곽과 단 곽, 균 값 라 다. 그리고 라 를 각각 (8), (9), (10) 로 다.
따라 리는 window 내부 는 4개 단 곽과 단 곽, 균 값 라 다. 그리고 라 를 각각 (8), (9), (10) 로 다.
더 문맥 고려, 리는 각 벡 다 근 물(approximate horizental derivative) 다. 따라 20 벡를 다.(window당 10개 + 10개 물)
벡들 관 고 래(...) 리 가기 리는 련과 단 다.(cf. 6)
변과 공 는 방법 (........ original feature representation) 다.
변 A는 련 데 는 class scatter matrix Sw과 scatter matrix Sb 고값(eigenvalue) 문를 는 것로 다.
scatter matrix들 각 벡가 HMM로 류되고 리는 련 데 기반 렬 따라 반 련 다. (...........................)
scatter matirx들 고 때 LDA 변 다 고값 문를 는 것로 다.
변과 공 는 방법 (........ original feature representation) 다.
변 A는 련 데 는 class scatter matrix Sw과 scatter matrix Sb 고값(eigenvalue) 문를 는 것로 다.
scatter matrix들 각 벡가 HMM로 류되고 리는 련 데 기반 렬 따라 반 련 다. (...........................)
scatter matirx들 고 때 LDA 변 다 고값 문를 는 것로 다.
...
... ...는 S-1wSb 고값과 고벡다.
m개 대 고값들 m개 고벡를 구는 것 고려는 것로 는다.
모든 벡들 LDA 변 로 HMM 된다.
m개 대 고값들 m개 고벡를 구는 것 고려는 것로 는다.
모든 벡들 LDA 변 로 HMM 된다.
6. 모델링과
기 , , HMMs 독 ESMERALDA 개발 경5 공되는 방법들과 구들 된다.
HMMs 반 구 리는 512개 Gaussian mixtures with diagonal covariance matrices를 담고 는 공 codebook과 반- 들 다.
기본 모델 52개 문, 10개 , 12개 문부 , 나 공 문가 Baum-Welch 련된다.
문 모델들 반복로 구된 결 모델 라 기 된다.
가 것 같 문 배 Viterbi beam-search 방법 된다.
기 , , HMMs 독 ESMERALDA 개발 경5 공되는 방법들과 구들 된다.
HMMs 반 구 리는 512개 Gaussian mixtures with diagonal covariance matrices를 담고 는 공 codebook과 반- 들 다.
기본 모델 52개 문, 10개 , 12개 문부 , 나 공 문가 Baum-Welch 련된다.
문 모델들 반복로 구된 결 모델 라 기 된다.
가 것 같 문 배 Viterbi beam-search 방법 된다.
리 동 보 던 다 기 방 를 고려 리는 13 기된 근방과 게 복 독립 문 allograph 모델 다.
Allograph는 문 다른 (realization)과 같 문 목 나낸다.
것 기 과 반대로 HMMs가 로 다른 문 목 모델링기 된다는 것 뜻다.
따라 문 당 목 allograph HMMs 는 발견로(heuristically) 결된다. 를 들 복 경 allograph 가 같 다.
기를 , 련 데는 무로 된 allograph HMMs로 류된다.
모든 문 련는 동, 병렬로 모든 당는 allograph 모델들게 매개변 된다.
률 모델 매개변가 나 는를 결다.
따라 allograph 류는 고게 결되는 것 라 단 과 soft vector 따라 률로 결된다.
Allograph는 문 다른 (realization)과 같 문 목 나낸다.
것 기 과 반대로 HMMs가 로 다른 문 목 모델링기 된다는 것 뜻다.
따라 문 당 목 allograph HMMs 는 발견로(heuristically) 결된다. 를 들 복 경 allograph 가 같 다.
기를 , 련 데는 무로 된 allograph HMMs로 류된다.
모든 문 련는 동, 병렬로 모든 당는 allograph 모델들게 매개변 된다.
률 모델 매개변가 나 는를 결다.
따라 allograph 류는 고게 결되는 것 라 단 과 soft vector 따라 률로 결된다.
가로, 문 배 대 공 것 같 과 모델 되다.
리 목는 ... 따르는 관된 데 x 대 결된 모델 률 극대 는 문 배 W^를 는 것다.
방 P(w)는 문 배 w 력 데 x가 문 모델 따를 때 문 배 관 률 P(x|w) 대 문 모델 률 나낸다.
리 경는 absolute discounting bi-gram 모델과 backing-off for smoothing of probability distributions가 되다.
리 목는 ... 따르는 관된 데 x 대 결된 모델 률 극대 는 문 배 W^를 는 것다.
방 P(w)는 문 배 w 력 데 x가 문 모델 따를 때 문 배 관 률 P(x|w) 대 문 모델 률 나낸다.
리 경는 absolute discounting bi-gram 모델과 backing-off for smoothing of probability distributions가 되다.
7. 결과
리는 리 기 가기 류 다. 단 , 복 , 독립 경.
들 문 류 table 1 나나다. 두 나 고, 모델 러 , bi-gram 모델 문 결과는 다.
모델 IAM 데베 a..d 고리 모든 를 되고, 나머 들 동다.
는(lexicon-free ....) 단 과 기반 단 결과는 table 2 나나 다.
단 경 노(Senior) 데베 282 를 고 를 141 를 다. 문 bi-gram perplexity는 15.3다.
bi-gram 모델 는 것로 13.3% 기 류 12.1%까 감는 결과를 루다.
LDA 변된 는 것로 류 게 가 게 된다. LDA 변된 공 12까 들 그렇다.
단 단 류(table 2) 가 는 28.5%, 1.5k 는 10.5%다.
결과들 리가 낸 같 데베를 는 결과(literature ......) 교 때 만다. 련과 기가 다르기 때문 교기는 렵만.
17 각 글 류 28.3%로 되다. 가 는 경 84.1%고, 1.3k 는 16.5%다.
15는 가 는 6.6% 단 류과 가 는 41.1% 단 류 보고다.
9 보고된 기반 단 류 고는 15.0%다.
리는 리 기 가기 류 다. 단 , 복 , 독립 경.
들 문 류 table 1 나나다. 두 나 고, 모델 러 , bi-gram 모델 문 결과는 다.
모델 IAM 데베 a..d 고리 모든 를 되고, 나머 들 동다.
는(lexicon-free ....) 단 과 기반 단 결과는 table 2 나나 다.
단 경 노(Senior) 데베 282 를 고 를 141 를 다. 문 bi-gram perplexity는 15.3다.
bi-gram 모델 는 것로 13.3% 기 류 12.1%까 감는 결과를 루다.
LDA 변된 는 것로 류 게 가 게 된다. LDA 변된 공 12까 들 그렇다.
단 단 류(table 2) 가 는 28.5%, 1.5k 는 10.5%다.
결과들 리가 낸 같 데베를 는 결과(literature ......) 교 때 만다. 련과 기가 다르기 때문 교기는 렵만.
17 각 글 류 28.3%로 되다. 가 는 경 84.1%고, 1.3k 는 16.5%다.
15는 가 는 6.6% 단 류과 가 는 41.1% 단 류 보고다.
9 보고된 기반 단 류 고는 15.0%다.
복 IAM 데베 c03 는 440 라들 되고, 109 를 되다.
라들 6명 다른 당 다른 기 로 되다.
LDA(된 12)를 14.2% 류 가 문들 다. 러 allograph 모델(각 문다 6개 allograph) 는 것로 13.3%까 감다.
bi-gram 모델 가로 류 11.1%( perplexity 12.0)까 더 낮다.
를 는 경 단 류 39.0%, 421개 단(문부 )를 는 를 는 것로 13.9%까 떨다. 것 11 된 단 류 20.5% 교된다.
라들 6명 다른 당 다른 기 로 되다.
LDA(된 12)를 14.2% 류 가 문들 다. 러 allograph 모델(각 문다 6개 allograph) 는 것로 13.3%까 감다.
bi-gram 모델 가로 류 11.1%( perplexity 12.0)까 더 낮다.
를 는 경 단 류 39.0%, 421개 단(문부 )를 는 를 는 것로 13.9%까 떨다. 것 11 된 단 류 20.5% 교된다.
러 결과들 리가 더 려 독립 는데 다.
IAM 데베 는 a-f( 250명 ) 력 데로 되는데, 4321라 (a-d 나)는 련로 되고, 1097라 (e-f 나)는 되다.
기 단 러 31.3%를 달다.
독립 경 allograph 모델 는 것 복 과 교 뚜렷 나내는 다.
문 나당 3개 allograph를 는 것 31.1% 류 달고, 리가 단당 10개 allograph 모델 때는 류(34.8%)과 가 둘 다 나빠다.
만 LDA변된 때는 류 29.1%로 미가 게 감다.
가로 모델 문 류 되 22.2%가 되다.( perplexity 12.0)
같 경 를 때 단 류 60.6%다.
IAM 데베 는 a-f( 250명 ) 력 데로 되는데, 4321라 (a-d 나)는 련로 되고, 1097라 (e-f 나)는 되다.
기 단 러 31.3%를 달다.
독립 경 allograph 모델 는 것 복 과 교 뚜렷 나내는 다.
문 나당 3개 allograph를 는 것 31.1% 류 달고, 리가 단당 10개 allograph 모델 때는 류(34.8%)과 가 둘 다 나빠다.
만 LDA변된 때는 류 29.1%로 미가 게 감다.
가로 모델 문 류 되 22.2%가 되다.( perplexity 12.0)
같 경 를 때 단 류 60.6%다.
8. 결론.
리는 는 off-line 개다. 그리고 단 , 복 , 독립 경 대 몇몇 다.
를 경 단 기반 때 뿐 라 문 망 결과가 다.
는 문 문 모델 기 당 되다. 그리고 공 는 것로 복 독립 경 대 가 되다.
allograph 문 모델 는 것로 면, 복 경 , 더 많 루 것다.
리는 는 off-line 개다. 그리고 단 , 복 , 독립 경 대 몇몇 다.
를 경 단 기반 때 뿐 라 문 망 결과가 다.
는 문 문 모델 기 당 되다. 그리고 공 는 것로 복 독립 경 대 가 되다.
allograph 문 모델 는 것로 면, 복 경 , 더 많 루 것다.
9. acknowledgement
German Research Foundation(DFG) 로 Fi799/1 를 다.
가로 DB를 공 대들게 감 를 드린다.
German Research Foundation(DFG) 로 Fi799/1 를 다.
가로 DB를 공 대들게 감 를 드린다.