본문 바로가기

자연어 처리 과정

(62)
Logistic regression 개요 Logistic regression의 분류 가설과 parameter update rule에 대해 알아보자. Hypothesis of logistic regression training dataset이 아래와 같은 setting을 갖고 있다고 가정한다. 이때, logistic regression이 적용하는 가설은 아래와 같다. 위 g(z)에 해당하는 functiond은 sigmoid 혹은 logistic function이라고 불리며, 아래와 같은 그래프를 형성한다. 따라서, 아래와 같다. Perceptron algorithm의 soft한 버전이라고 생각해볼 수 있다. 어떻게 P(y | x, $\theta$)를 최대화 할 수 있을까? 다음과 같이, label이 1일 가능성과 label이 0일 가능성이 ..
Perceptron algorithm 개요 Perceptron algorithm에 대해 알아보면서 분류 algorithm이 어떻게 작동하는지 직관을 얻는다. Hypothesis of perceptron algorithm 아래와 같이 training dataset이 구성되어 있다고 가정한다. 즉, data x는 d dimension + 1(intercept term)차원에 살고, label y는 0과 1 둘 중 하나의 값을 가진다. 정리해보면, 이진 분류를 위한 training dataset이라고 할 수 있을 것이다. Perceptron algorithm에서는 아래와 같은 가설을 적용하여 이진 분류를 진행한다. z = $\theta^Tx$가 되고, z는 1 또는 0으로 mapping이 되는 식이다. 만약, $\theta^Tx$이 음수의 값을 ..
Eigenvector, eigenvalue 그리고 diagonal과 eigendecomposition https://kindly-moth-b78.notion.site/Eigenvector-eigenvalue-diagonal-eigendecomposition-38d75ba2f5f54e89931af3c567ac1d97?pvs=4 Eigenvector와 eigenvalue 그리고 diagonal, eigendecomposition Eigenvector와 eigenvalue의 이해 kindly-moth-b78.notion.site
Why rank(A^TA) = rank(A)? References https://math.stackexchange.com/a/349966 Prove $\operatorname{rank}A^TA=\operatorname{rank}A$ for any $A\in M_{m \times n}$ How can I prove $\operatorname{rank}A^TA=\operatorname{rank}A$ for any $A\in M_{m \times n}$? This is an exercise in my textbook associated with orthogonal projections and Gram-Schmidt process, bu... math.stackexchange.com
How does the solution always exists in normal equation? Question. 우리가 normal equation 이용해서 해를 구한다면, 우리는 언제나 Ax = b에서 b를 표현하는 x를 찾을 수 있게 된다. 도대체 어떻게 "해가 없는 상황"은 존재하지 않게 되는 것일까? Proposition. Normal equation을 사용하면, over-determined 상황에서 임의의 행렬 A가 가역행렬이든 아니든 해는 언제나 존재하게 된다. Proof. 가장 먼저, 위의 식 normal equation은 아래와 같은 의미임을 알 수 있다. 즉, 애초에 양쪽의 두 항은 A^T의 column들의 조합으로 이뤄진 공간이라는 것이다. 그러나, 그렇다고 해서 두 항이 언제나 같은 공간을 표현한다고 말할 수는 없다. 그러나, A^TA와 A^T는 아래의 조건을 만족하기에 항상 ..
Four fundamental subspaces of linear algebra Matrix A(m x n) Set builder notation Row space A A set of linear combination Ax, when every vector x is in m-dimension. Column space A A set of linear combination Ax, when every vector x is in n-dimension. Null space A A set of vector x, which makes linear combination Ax to zero vector. * Null space A is perpendicular to Row space A Left null space A A set of vector y, which makes linear combina..
Derivations of a system of orthogonal projection Assume that a formula for b hat(or y hat) using normal equation is already derivated. Method 1. Method 2. t = ||y|| * cos theta t / ||u|| = Indicating how many times the vector u must be multiplied to make the vector y hat. = scalar for making u to y hat
[Improved] Least square solution using orthogonal projection, QR decomposition https://kindly-moth-b78.notion.site/Least-square-solution-using-orthogonal-projection-QR-decomposition-f54ba4a28d2148269b0cb28a09051270?pvs=4 Least square solution using orthogonal projection, QR decomposition (Least square 문제 상황을 b - Ax hat = b - b hat이라는 error vector를 가장 짧게 만들어 주는 x를 찾자는 관점이 아닌, kindly-moth-b78.notion.site
Why are the vectors always linearly independent, when an arbitrary set of vectors is orthogonal? (if the vectors are not zero vector.) Reference https://www.youtube.com/watch?v=qji_d8_Us4k
Least square solution https://kindly-moth-b78.notion.site/Least-square-solution-3c30a709cc49480b95201d31981b3a78?pvs=4 Least square solution Over-determined(방정식의 개수가 미지수보다 많은 상황) linear systems에서 kindly-moth-b78.notion.site