본문 바로가기

분류 전체보기

(158)
텍스트 표준화, 토큰화, 어휘 사전(단어 집합) 인덱싱 ■ 말뭉치(corpuis)라고 부르는 텍스트 데이터는 원시 텍스트(ASCII, UTF-8 등)와 원시 텍스트와 연관된 메타데이터를 포함하고 있다. ■ 컴퓨터는 텍스트와 같은 비수치적 데이터를 직접 처리할 수 없다. 텍스드 데이터를 수치 데이터로 변환하는 과정이 필요하다. ■ 또한, 딥러닝 모델은 행렬 연산, 미분 등 수학적 계산을 통해 학습을 수행하기 때문에 입력 데이터로 원시 텍스트를 사용할 수 없다. 숫자 데이터(수치 텐서)로 처리해야 한다. ■ 텍스트를 숫자 데이터(수치 텐서)로 바꾸는 과정을 텍스트 벡터화(vectorization)이라고 한다.■ 텍스트 벡터화 과정은 다양하고, 그 결과도 다양(원-핫 인코딩, 워드 임베딩 등)하지만, 모두 다음 그림과 같은 동일한 양식을 따른다.- (1) 텍스트 ..
[개념] 행렬의 대각화(Diagonalization) 1. 행렬의 대각화1.1 닮은행렬■ 행렬 \( A \)와 \( B \)가 같은 크기의 \( n \times n \) 정사각행렬일 때, \( B = P^{-1}AP \)를 만족시키는 가역행렬 \( P \)가 존재하면, \( A \)와 \( B \)는 서로 닮은(similar)행렬이라고 한다. - \( P \)가 가역행렬이라면, \( P \)는 \( n \)개의 독립 벡터를 가진다.■ \( A \)와 \( B \)가 닮은행렬이라는 것은, 두 행렬이 같은 선형변환의 서로 다른 기저에 대한 행렬 표현임을 의미한다. 그러므로 다음과 같은 성질들을 공유한다.- (1) 행렬식이 같다. \( \det{(A)} = \det{(B)} \)- (2) 계수(rank)가 같다. \( \text{rank} (A) = \text{..
[개념] 고유치, 고윳값(eigenvalue), 고유벡터(eigenvector) 1. 고윳값과 고유벡터1.1 고윳값과 고유벡터란?■ \( A \)가 \( n \times n \)행렬이고, \( \mathbf{v} \)가 \( \mathbb{R}^n \)의 벡터일 때, \( \mathbf{v} \)와 \( A \mathbf{v} \)가 서로의 스칼라배로 관계되는 0이 아닌 어떤 벡터 \( v \)가 존재한다. 이와 같은 벡터 \( \mathbf{v} \)는 선형변환의 해석에서 중요한 역할을 한다.■ 예를 들어 \( T(x, y) = \dfrac{1}{2} (3x + y, x + 3y) \)로 정의된 선형변환 \( T: \mathbb{R}^2 \rightarrow \mathbb{R}^2 \)가 있다고 하자. 그리고 정의역에 \( \mathbb{R}^2 \)의 기저벡터 \( v_1 = (..
연속형 확률분포(3) - 정규분포와 관련분포(2) 1. 통계량과 추정량1.1 모집단과 표본■ 모집단은 관심 대상이 되는 전체 데이터의 집합이다. 연구대상이 되는 모든 가능한 관측치나 측정치의 집합을 모집단 또는 통계적 모집단이라고 한다. ■ 모집단이 유한개의 추출 다누이를 가질 때 유한 모집단(finite population), 무한개의 추출단위를 가질 때 무한 모집단(infinite population)이라 한다. ■ 이 모집단의 특성을 나타내는 수치가 바로 모수(parameter)이다.■ 모집단의 특성은 매우 다양하므로 모든 특성을 모두 표현하기는 어렵고, 툭별히 관심을 갖는 특성만을 선별하여 데이터 분석을 통해 추측하게 된다.■ 대표적인 모수로는 평균(mean), 표준편차(standard deviation), 분산(variance), 왜도(skew..
[개념] 선형 변환(사상)과 표준행렬 1. 선형 변환(선형 사상)■ 벡터공간 \( U, V \)가 있을 때, \( U \)로부터 \( V \)로의 변환 \( T \)를 \( T: U \rightarrow V \)로 나타낸다. ■ \( T: U \rightarrow V \)는 다음과 같이 벡터공간 \( U \)의 모든 벡터 \( \mathbf{u} \)에 대해 각각 유일한 벡터공간 \( V \)의 모든 벡터 \( \mathbf{v} \)를 대응하는 규칙을 의미한다.■ \( T: U \rightarrow V \)가 임의의 벡터 \( u_1, u_2 \in U \)와 임의의 상수 \( k \)에 대해 다음 조건을 만족하면, \( T \)를 \( U \)에서 \( V \)로 가는 선형사상 또는 선형변환이라고 한다.- ① \( T(u_1+u_2) =..
연속형 확률분포(3) - 정규분포와 관련분포(1) 1. 정규분포(Normal Distribution)■ 정규분포의 확률변수 \( X \)는 정규확률변수(normal random variable)이며, 정규확률변수는 확률변수이므로 어떤 실수를 출력할 것이다. 이때, 정규확률변수가 가질 수 있는 실수의 범위는 \( -\infty ■ 정규분포는 가우스(Gauss)분포라고도 부르며,■ 어떤 현상을 관측했을 때, 관측값이 여러 가지 불확실한 요소에 영향을 받는다면, 해당 값의 분포는 정규분포를 따른다.■ 즉, 정규분포는 관측 데이터에서 일반적으로 나타나는 형태이며, 그 형태는 2개의 모수인 기댓값 \( \mu \)와 표준편차 \( \sigma \)에 의헤 다음과 같이 어떤 종 모양 형태(Bell-shape)로 결정된다.- 그래프에 적혀 있는 %의 의미는- \( ..
연속형 확률분포 (2) 1. 균등(=균일)분포■ 균등분포(uniform distribution)는 확률변수 \( X \)가 일정하고 유한한 실수 구간 \( [a, b] \) 안에서 정의되며, 그 구간 안에서 확률 밀도가 같은(어떤 값을 가질 확률이 모두 동일할 때의) 확률분포이다.■ 이때, 확률변수 \( X \)는 균등분포를 따른다고 하며, \( X \sim U(a, b) \)로 표기한다.■ 그리고 \( X \)의 확률밀도함수는 유일한 실수 구간 \( [a, b] \)에서 \( f(x) = \begin{cases} \dfrac{1}{b-a}, & \text{if } a \leq x \leq b \\ 0, & \text{otherwise} \end{cases} \)이다.- \( a \leq x \leq b \)일 때, 다음과 같..
연속형 확률분포 (1) 1. 연속형 확률변수와 확률밀도함수■ 연속형 확률변수(continuous random variable)는 임의의 구간 내에서 연속적인 어떠한 값도 가질 수 있다.- 예를 들어 키, 몸무게, 강수량 등 ■ 이산형 확률변수의 경우 질량들의 총합이 1이 되도록 각각의 특정 값에 할당된 것으로, 확률 함수로써 확률질량함수를 사용했다. \( P = f(x) \)에서 확률 함수 \( f(x) \)의 입력인 \( x \)에 이산형을 넣으면, 나오는 결과 \( P \)는 0과 1사이의 확률이었다.■ 연속형 확률변수는, 질량들이 특정 값에 할당되는 것이 아니라 어떤 구간 사이에 퍼져있는 것이다.■ 질량이 어떤 구간에 퍼져있는 것을 나타내는 척도는 밀도(density)이며, 이를 나타내기 위해 확률밀도함수(probabil..