논문 번역 ¶

Pattern ¶

앞부분이 전부 날아갔어...

3. Corpora
완전한 영어 문장들로 학습/인식을 위한 데이터를 제공했는데, 각각은 Lancaster-Oslo/Bergen corpus에 기초한다. 글쓴이에 상관없는 형태와 마찬가지로 다수의 저자에 의한 실험은 the Institute of Informatics and Applied Mathe- matics (IAM)에서 수집한 손글씨 형태를 사용했다. 전체 데이터는 다양한 텍스트 영역들을 가지고 있고,500명보다 많은 글쓴이들이 쓴 1200개보다 많은 글씨를 가지고 있다. 우리는 250명의 글쓴이가 쓴 글쓴이-독립적인 실험에서 만들어진 카테고리들의 형태를 사용하고, 6명의 글쓴이가 쓴 c03 형태로 여러 글쓴이 모드를 적용해본다.

개인 저자에서도 우리의 시스템을 평가해보기 위해서, 우리는 Senior15로 수직한 데이터로 만들어진 글씨들을 사용한 실험을 한다. 이 데이터는 한명의 글쓴이가 만든 25페이지에 달하는 손글씨를 사용하였고, 웹에서 공공연하게 이용가능하다.
이 두가지 데이터들 모두 300dpi using 256 grey-levels로 스캔해서 사용했고, Fig 에서 각각의 데이터를 예시로 제시한다.

4. 전처리
주어진 손글씨 문서에 대한 이미지에 대해 처음 전체 이미지를 삐뚤게 쓴 것은(?) 글쓰는 것에 대한 지속적인 "drift"(흐름) - 지속적으로 계속되는 것이거나 스캔하는 동안 부정확하게 놓여진 것(가지런하게 두지 않아서..)에 의한 오류들을 수정하기 위해 고쳤다. 그래서, 그 이미지는 2진화된 이미지를 수직 밀집 히스토그램에서 최소한의 엔트로피가 될때까지 반복한다. 이러한 전처리는 IAM 데이터베이스에 대한 공식을 사용하지 않았는데, 글쓴이들이 스캔하는 동한 정확하게 ??????because the writers were asked to use rulers on a second sheet put below the form and the formulars itself are aligned precisely during scanning.

더 많은 문서 작업을 위해, 개인의 손글씨 각 줄들을 추출했다. 이것은 글씨들을 핵심 위치들 사이로 이미지를 쪼개는 것으로 할 수 있었다. 핵심 위치란, 글씨의 아래위 선사이의 영역과 같은 것인데, 핵심 위치에 존재하는 줄에서 필요한 전체 픽셀들의 최소 갯수를 말하는 한계점을 응용하여(?)찾을 수 있다. 이러한 한계점은 2진화된 손글씨 영역에 대한 수직적인 밀집 히스토그램(the horizontal density histogram of the binarized handwriting-area)을 사용한 Otsu method를 사용하여 자동적으로 만들 수 있다. 검은색 픽셀들의 갯수는 수평적 투영 히스토그램에 각각의 줄을 합한 갯수이고, 그 이미지는 이 히스토그램의 최소화를 따라 핵심 위치들 사이로 조각 내었다.
다양한 글쓴이들의 글쓰는 스타일에 대한 분포때문에 손글씨는 인식을 간단히 하기위해 일반화 해야한다. 특히, 수직적인 위치, 기울어짐, slant에 대해서 고치는 것은 전처리 작업에서 중요한 것이다. 더 일반화 하는 방법은 gray-level의 집적과 손글씨의 크기를 고려하는 것이다.
글쓰는 스타일이 때로 한줄 내에서 중요하게(?) 바뀐다는 관측에 고무되어서, 우리는 각 손글씨 줄들을 각각 수직적인 위치, 기울어짐, slant에서 수정했다. 그래서 각각의 줄은 문서의 부분 사이에 공백으로 찾아 쪼개었다. 한계점은 일반화 요소들을 통했을때에 계산하기에 너무 짧은 부분들을 피하기 위해 사용했다. 반면에 수직적인 위치와 기울어진 것은 15에서 묘사된 방법과 비슷한 선형적 regresion?을 사용한 기준선 추정 방법으로 고쳤고, slant 각도에 대한 계산은 모서리의 방향에 기초하여 고쳤다. 그렇게 이미지를 이진화했고 수직적인 변화를 추출하여 consid- ering that only vertical strokes are decisive for slant estima- tion. Canny 모서리 감지는 각 히스토그램에서 계산된 모서리 방향 데이터를 얻기위해 사용했다. 그 히스토그램의 의미는 slant 각도를 사용하는 것이다.
손글씨 크기를 일반화하기 위해, 우리는 각 손글씨 줄들의 극단 값의 수를 세었고 그 줄의 넓이의 관계로 숫자를 넣었다.그 피례 축은 이 관계에서 선형적인데, 이 관계가 더 커질수록 글쓰는 스타일이 더 협소해진다.

Linear Algebra and its applications ¶

1.7 Linear Independence 선형 독립성 ¶

Section 1.5에서 동일한 등식은 등식을 벡터 방정식으로 쓰는 것으로 다른 관점으로 공부할 수 있었다. 이 방식으로, 초점을 Ax=0에 대한 알 수 없는 해답부터 벡터 방정식에서 나타나는 벡터들까지 바꿔보자.

예를들어, (1)의 등식이라고 하자.

이 방정식은 물론 x1=x2=x3=0이라는 자명한 해를 가지고 있다. Section 1.5에서와 같이, 주요 논점은 자명한 해가 오직 하나인지(아닌지)이다.

Definition
만약 벡터 방정식 ...가 오직 자명한 해를 가진다면 Rn에 있는 인덱싱된 벡터들의 집합을 선형적으로 독립적(linearly independent)이라고 말한다. 만약 (2)와 같은 0이 아닌 가중치가 존재한다면 그 집합은 선형 독립전이다고 한다.

등식 (2)는 가중치가 모두 0이 아닐 때 v1...vp사이에서 linear independence relation(선형 독립 관계)라고 한다. 그 인덱싱된 집합이 선형 독립 집합이면 그 집합은 선형독립임이 필요충분 조건이다. 간단히 말하기위해, 우리는 {v1,,,vp}가 선형독립 집합을 의미할때 v1...vp가 독립이라고 말할지도 모른다. 우리는 선형 독립 집합에게 유사한 용어들을 사용한다.

Linear Independence of Matrix Columns 행렬 행에 대한 선형 독립성
우리가 벡터들의 집합 대신에 A= 로 시작한다고 하자. 그 행렬 등식 Ax=0는 ...으로 쓰여질 수 있다. A의 행들 사이에 각각의 선형독립 관계는 Ax=0에서의 자명하지 않은 해와 일치한다. 그래서 우리는 그 중요한 사실을 따른다.
---
행렬 A의 행들이 선형적으로 독립이면 방정식 Ax=0는 오직 자명한 해만을 갖는 것이 필요충분조건이다. (3)
---

Set of One or Two Vectors
v라고 불리는 오직 한 벡터만을 가진 집합은 v가 0벡터가 아니면 선형 독립임이 필요충분조건이다. 이는 벡터방정식 x1v=0가 v=0이 아닐 때 오직 자명한 해만을 갖기 때문이다. 제로벡터는 x1*0=0는 수많은 자명하지 않은 해답들을 가지고 있기 때문에 선형 의존적이다.

다음 예시는 두 벡터들의 선형 의존적인 집합에서의 현상을 설명할 것이다. 예제 3에서의 주장들은 두 벡터의 집합이 선형 의존적일 때 우리가 항상 관찰로 결정함을 보여준다. Row operation은 불필요하다. 단순히 벡터들 중 하나에서 다른 scalar times(수치적인 횟수/곱셈?) 이다.

---
{v1, v2} 두 벡터들의 집합은 벡터들중 하나라도 다른 벡터의 곱이기만 하면 선형 의존적이다. 그 집합은 그 벡터들 중 어떤 것도 다른 것의 곱아닐때에만 선형 의존적이다.
---
기하학적인 용어로서, 두 벡터들은 그 두 벡터가 원점을 따라 같은 선상에 놓여있기만하면 선형 의존적이다. Figure 1은 예제 3번으로부터 벡터들을 보여준다.

Set of Two or More Vectors
두개거나 다중 벡터들의 집합
다음 이론의 증명은 예시 3번의 해답과 비슷하다. 상세한 것은 이 섹션의 마지막에 다룬다.

Theorem 7
Characterization of Linearly Dependent Sets
선형 의존적인 집합들의 특성
두개거나 다중 벡터들의 인덱싱 된 집합 S={v1...vp}은 S에 있는 벡터들 중 하나라도 다른 것의 선형결합이면 선형 의존적이다(필요충분). 사실, S가 선형 의존적이고 v1=0이 아니면 어떤 vj(j>1)는 앞서 나온 벡터들의 선형 결합이다.

주의: 이론 7은 선형 독립적인 집합에서 모든 벡터가 앞선 벡터들의 선형결합이라고 말하지 않았다. 선형 독립적인 집합에 있는 벡터는 다른 벡터들의 선형결합이 되는데 실패할지도 모른다. 연습문제 3번을 봐라. 예시4는 의 선형 의존적인 u와v를 R3(3차원)의 어떤 집합{u,v,w}로 일반화한다. 그 집합 {u,v,w}는 평면에서 w가 u와 v로 span(평면화)되면 선형 독립적이다(필요충분).

다음 두 이론들은 한 집합에 대한 선형 의존성이 자동적인 특별한 경우를 지칭한다. 더욱이, 이론8은 뒤 단원들에서의 동작을 초래하는 핵심일 것이다.

1.8 Linear Transformations ¶

행렬 방정식 Ax=b와 associated(?) 벡터 방정식 x1a1+...+xnan=b는 단지 표기의 문제이다. 그런데, 행렬 방정식 Ax=b는 벡터들의 선형 결합으로 직접 연결되지 않은 방법에서 선형 대수학으로 생길 수 있다. 이것은 우리가 행렬 A를 Ax라고 불리는 새로운 벡터를 만들기위해 곱셈한 벡터 x로 "동작하는" 것으로 생각할 때 일어난다.
예를들어, 방정식 ...은 b로 x를 변환하고 제로 벡터로 u를 변환한 A로 곱셈한 것이다. Fig1을 봐라.
이 새로운 관점으로부터, 방정식 Ax=b를 푸는 것은 A의 곱으로 "동작하는" under R2에 있는 벡터 b로 변환시킨 R4에 있는 모든 벡터들 x를 찾는 것에 해당한다.
x와 Ax간의 관련성은 한 벡터들의 집합에서 다른 집합으로 가는 기능이다. 이 개념은 함수에 대한 일반적인 개념을 한 실수에서 다른 실수로 변환하는 규칙으로 일반화할 수 있다.
Rn에서 Rm으로 가는 변환 T는 각 Rm에 있는 벡터 T(x)를 Rn에서 벡터로 바꾸는 규칙이다. 집합 Rn은 T의 정의역이라 불리고, Rm은 T의 공역이라 불린다. 표기법 T: Rn -> Rm은 T의 정의역이 Rn이고 공역이 Rm임을 말한다. Rn에 있는 각 x에 대해, Rm에 있는 벡터 T(x)는 x의 상이라고 불린다. T(x)에 있는 모든 이미지들의 집합은 T의 치역이라 불린다.
이 섹션에 있는 새로운 용어는 행렬-벡터간 곱의 역동적인 관점이 선형대수학에서 몇몇 개념들을 이해하고 시간이 흐르면서 발전하는(that evolve over time) 물리적인 시스템들에 대한 수학적인 모델을 만드는 것의 핵심이기 때문에 중요하다. 이런 역동적인 시스템들은 Chapter5와 1.10, 4.8, 4.9 섹션에서 논의할 것이다.

Matrix Transformations 행렬 변환
이 섹션의 나머지 부분은 행렬 곱으로 연관된 대응시키기(사상)에 초점을 둔다. Rn에서 각각의 x에 대해, T(x)는 A가 m*n행렬일 때 Ax로 게샨된다. 쉽게말해서 우리는 이러한 행렬 변환을 x->Ax로 나타내기도 한다. T의 정의역이 A가 n개의 열을 가지고 있는 Rn이고, T의 공역이 A의 각각의 열이 m개의 행을 가지고 있는 Rm일때 임을 관찰해라. T의 범위는 행렬 A에 열들에 대한 모든 선형 결합된 것들의 집합인데, 각 상 T(x)가 Ax를 형성하기 때문이다.

Linear Transformations 선형 변환
섹션 1.4에 있는 이론 5는 A가 m*n이면 x->Ax로의 변형은 모든 스칼라양 c와 Rn에 있는 모든 u,v에서 A(u+v) = Au + Av 와 A(cu)=cAu 임을 보여준다. 이러한 성질들은 선형대수학에 있는 변환에서 가장 중요한 성질임을 확인한다.
Definition
변환 (or 사상) T 는 1,2를 만족하면 선형적이다.
(i) T의 정의역에서 모든 u,v에 대하여 T(u+v) = T(u) + T(v)
(ii) T의 공역에서 모든 스칼라 c와 모든 u에 대하여 T(cu) = cT(u)

모든 행렬 변환은 선형 변환이다. 행렬 변환이 아닌 선형 변환에 대한 좋은 예제들은 4,5장에서 논의할 것이다.

논문번역/2012년스터디/김태진

논문 번역 ¶

Pattern ¶

Linear Algebra and its applications ¶

1.7 Linear Independence 선형 독립성 ¶

1.8 Linear Transformations ¶