시그모이드함수
시그모이드함수(Sigmoid function)
시그모이드함수는 S자형의 모양의 시그모이드곡선을 나타냅니다. 시그모이드함수는 실수 전체를 정의역으로 가집니다. 시그모이드함수의 함수값은 0에서 1까지의 범위를 가지거나 -1부터 1까지의 범위를 가집니다. 시그모이드함수는 역함수가 존재하는 가역함수입니다. 시그모이드함수의 역함수를 로짓함수(Logit function)라고 합니다. 통계학에서 정규분포, 스튜던트 t분포 등의 누적분포함수는 시그모이드함수라고 할 수 있습니다. 시그모이드함수는 인공뉴런의 활성화함수로 사용됩니다. 다음은 대표적인 시그모이드함수입니다.
로지스틱함수 (Logistic function)
$$f(x)=\dfrac{e^x}{e^x+1}=\dfrac{1}{1+e^{-x}}$$
쌍곡탄젠트
$$f(x)={\rm tanh} (x) = \dfrac{e^x – \, e^{-x}}{e^x + e^{-x}}$$
아크탄젠트
$$f(x)={\rm arctan}\,\, x$$
오차함수(error function)
$$f(x)={\rm erf}(x)=\dfrac{2}{\pi}\int_0^x e^{-t^2}dt$$
누적분포함수(cumulative distribution function)
$$F(x)$$
직선상에서 차가 정지상태에서 출발하여 정지할 때까지의 거리, 성장곡선 등등
$$\int_0^t v(t) dt$$
여기서, $v(t)$는 속도
$t$는 출발하여 정지할 때까지의 시간
로지스틱함수 (Logistic function)
로지스틱함수(Logistic function)는 시그모이드함수의 한 종류입니다. 로지스틱함수는 S자 형태의 곡선으로, 입력값에 대한 출력값이 0과 1 사이의 값으로 제한되는 함수입니다.
$$f(x)=\dfrac{e^x}{e^x+1}=\dfrac{1}{1+e^{-x}}$$
여기서, $-\infty \lt x \lt \infty$
$0 \lt f(x) \lt 1$
일반화한 로지스틱함수는 다음과 같습니다.
$$f(x)=\dfrac{c}{c+e^{-{\lambda x}}}$$
여기서, $-\infty \lt x \lt \infty$
$0 \lt f(x) \lt 1$
$c$는 실수
$\lambda$는 양의 실수
로지스틱함수의 도함수
로지스틱함수를 미분하여 도함수를 구하면 다음과 같습니다.
$$\dfrac{df(x)}{dx}=f(x)(1-f(x))=f(x)f(-x)$$
로지스틱함수의 도함수 유도
Chain rule을 사용하여 유도하면
$$\eqalign{\dfrac{d}{dx}\left( \dfrac{1}{1+e^{-x}}\right) &=\dfrac{d}{dx}\left((1+e^{−x})^{-1}\right) \cr
&=(−1)\dfrac{1}{(1+e^{−x})^2}\dfrac{d}{dx}(1+e^{−x}) \cr
&=(−1)\dfrac{1}{(1+e^{−x})^2}(0+e^{−x})\dfrac{d}{dx}(−x) \cr
&=(−1)\dfrac{1}{(1+e^{−x})^2}e^{−x}(−1) \cr
&=\dfrac{e^{−x}}{(1+e^{−x})^2}=\dfrac{1+e^{−x}−1}{(1+e^{−x})^2} \cr
&=\dfrac{(1+e^{−x})}{(1+e^{−x})^2}−\dfrac{1}{(1+e^{−x})^2} \cr
&=\dfrac{1}{1+e^{−x}}−\dfrac{1}{(1+e^{−x})^2} \cr
&=\dfrac{1}{1+e^{−x}}\left(1−\dfrac{1}{1+e^{−x}} \right) \cr
&=f(x)(1−f(x))}$$
로지스틱함수가 누적분포함수일 때의 성질
로지스틱함수가 연속형 독립변수값, $x$에서 어떤 사건이 일어날 확률값, $p(x)$를 나타낸다면 로지스틱함수를 다음과 같이 표현할 수 있습니다.
$$f(x)=p(x)=\dfrac{e^x}{e^x+1}$$
여기서, $-\infty \lt x \lt \infty$
$$0 \lt p(x) \lt 1$$
연속형 독립변수값, $x$에서 어떤 사건이 일어나지 않을 확률을 나타내는 확률함수, $q(x)$는 다음과 같습니다. $q(x)$는 $p(x)$의 여확률함수라고 합니다.
$$q(x)=1-p(x)=1-\dfrac{e^x}{e^x+1}=\dfrac{1}{e^x+1}$$
여기서, $-\infty \lt x \lt \infty$
$$0 \lt q(x) \lt 1$$
로지스틱함수와 여함수의 비는 지수함수를 나타냅니다.
$$\dfrac{f(x)}{1-f(x)}=\dfrac{p(x)}{q(x)}=\dfrac{e^x}{e^x+1}\dfrac{e^x+1}{1}=e^x$$
다른 부호의 독립변수의 확률의 합은 1입니다.
$$1-p(x)=p(-x)$$
$$p(x)+p(-x)=1$$
로짓함수 (Logit function)
로짓함수(Logit function)는 로지스틱함수(Logistic function)의 역함수입니다. 로짓함수의 정의역은 0과 1사이입니다. 치역은 실수 전체입니다. 즉, 로짓함수값은 $-\infty$와 $\infty$사이에 있습니다. 이때 로짓함수에서 독립변수값이 $\dfrac{1}{2}$인 중간값을 even point라고 합니다. 반대개념인 odds는 odd의 복수형으로서 even point가 아닌 다른 모든 사건이 일어나는 경우를 말합니다. even point인 경우에 로짓함수의 함수값은 0이고 이때 기울기의 절대값이 가장 작습니다. 로짓함수는 다음과 같이 수식으로 나타낼 수 있습니다.
$$g(x)=Logit(x)=\ln \dfrac{x}{1-x}$$
여기서, $x$는 0과 1사이
$(1-x)$는 0과 1사이
로짓함수는 로그오즈함수라고도 불립니다. 로짓함수는 로지스틱함수의 함수값인 0과 1사이의 값을 입력받아 로그오즈를 계산하여 실수값을 출력합니다. 로지스틱함수와 로짓함수는 주로 이항분류(이진분류)에서 사용되며, 로지스틱 회귀분석 등에 활용됩니다. 신경망이론에서는 입력값이 0과 1사이의 값으로 제한된 로짓함수를 사용하여 로짓함수값을 구합니다. 이 실수범위의 로짓함수값을 로지스틱함수의 입력값으로 사용하여 0과 1사이의 값을 구하고 임의의 임계값(threshold)으로 이항분류를 행합니다. 학습을 통해 임의의 임계값을 정합니다.
로짓함수의 함수값인 로짓($\text {logit})$을 $L$로 표기하고 다음과 같이 정의합니다.
$$L=\ln (p) – \ln(1-p) = \ln \left( \dfrac{p}{1-p} \right)$$
여기서, $p$는 어떤 사건이 일어날 확률 : $0 \lt p \lt 1$
$(1-p)$는 어떤 사건이 일어나지 않을 확률 : $0 \lt (1-p) \lt 1$
$\left( \dfrac{p}{1-p} \right)$는 “오즈$(\text{odds})$”
$\ln \left( \dfrac{p}{1-p} \right)$는 “로그오즈$(\text{log-odds})$”
로짓함수(logit function)의 역함수(inverse function)는 다음과 같은 시그모이드함수(sigmoid function)입니다.
$$p=\dfrac{e^L}{e^L + 1}=\dfrac{1}{1+e^{-L}}$$
여기서, $p$는 어떤 사건이 일어날 확률 : $0 \lt p \lt 1$
$L$은 로짓$(\text{logit})$ : $-\infty \lt L \lt \infty$
로짓함수의 도함수
로짓함수의 도함수는 다음과 같습니다.
$$g\prime(x)=\dfrac{1}{x(1-x)}$$
유도
Chain rule을 사용하여 도함수를 유도합니다.
$$\begin{align}
\dfrac{d}{dx}\left(g(x)\right) & = \dfrac{d}{dx}\left(\ln \dfrac{x}{1-x}\right) \\
& = \left( \dfrac{1-x}{x} \right) \left( \dfrac{x}{1-x}\right)^{\prime} \\
& = \left( \dfrac{1-x}{x} \right) \left( \dfrac{x^\prime(1-x)-x(1-x)^\prime}{(1-x)^2}\right) \\
& = \left( \dfrac{1-x}{x} \right) \left( \dfrac{1}{(1-x)^2}\right) \\
& = \dfrac{1}{x(1-x)} \\
\end{align}$$
로지스틱함수의 도함수와 로짓함수의 도함수의 관계
로지스틱함수의 도함수와 로짓함수의 도함수는 역수관계입니다.
$$f\prime(x)\cdot g\prime(f(x))=f(x)(1-f(x))\cdot \dfrac{1}{f(x)(1-f(x))}=1$$
따라서 역함수의 도함수의 성질을 표현하는 다음식이 성립합니다.
$$g\prime(x)=\dfrac{1}{f\prime (g(x))}$$
여기서, 함수 $f$의 역함수가 존재 : $f^{-1}=g$
함수 $f$가 $g(x)$에서 미분가능
$f\prime(g(x))$는 0이 아님
로그오즈함수 (Log-odds function)
로짓함수(Logit function)는 로그오즈함수(Log-odds function)라고도 합니다. 어떤 사건이 발생할 확률을 $p$라 하면 발생하지 않을 확률은 $(1-p)$라고 표현할 수 있습니다. $p$의 값은 확률이기 때문에 0과 1사이에 존재합니다. 따라서 $p$를 독립변수로 하는 로짓함수의 정의구역은 0과 1사이의 값으로 제한됩니다. 어떤 사건이 발생할 확률과 발생하지 않을 확률의 비를 “오즈(odds)”라고 합니다.
$$\text{odds}=\dfrac{p}{1-p}$$
여기서, $\text{odds}$는 서로 배타적인 두 사건의 발생확률비 : $0 \lt \text{odds} \lt \infty$
여기서, $p$는 어떤 사건이 일어날 확률 : $0 \lt p \lt 1$
$(1-p)$는 어떤 사건이 일어나지 않을 확률 : $0 \lt (1-p) \lt 1$
“오즈”에 자연로그를 취한 값을 “로그오즈(log-odds)”라고 합니다.
$$\text{log-odds}=\ln \left( \dfrac{p}{1-p} \right)$$
여기서, $p$는 어떤 사건이 일어날 확률 : $0 \lt p \lt 1$
$(1-p)$는 어떤 사건이 일어나지 않을 확률 : $0 \lt (1-p) \lt 1$
로짓함수는 입력값의 로그오즈를 계산하여 출력값을 반환하는 함수입니다.
$$L(p)=\ln \left( \dfrac{p}{1−p} \right)$$
여기서, $p$는 어떤 사건이 일어날 확률 : $0 \lt p \lt 1$
$(1-p)$는 어떤 사건이 일어나지 않을 확률 : $0 \lt (1-p) \lt 1$
Rashe모델에서 로지스틱함수와 로짓함수의 활용
로지스틱함수 → 응답자능력에 대한 정답확률 (문항특성곡선)
한 문항의 문항특성곡선을 로지스틱함수로 모델링합니다. 문항특선곡선은 응답자능력에 대한 문항의 정답확률을 나타냅니다.
$$f(x-b) = p(x-b)= \dfrac{1}{1+e^{-(x-b)}}= \dfrac{1}{1+e^{-L}}$$
여기서, $x$는 응답자능력 : $-\infty \lt x \lt \infty$
$b$는 문항난이도 : $-\infty \lt b \lt \infty$
$p(x-b)$는 정답확률 : $0 \lt p(x-b) \lt 1$
$L$은 로짓 : $L=x-b$
로짓함수 → 정답확률에 대한 응답자능력
로짓함수는 로지스틱함수의 역함수입니다. 로짓함수의 수식은 다음과 같습니다.
$$ L(p)= \ln \dfrac{p}{1-p} $$
여기서, $p$는 정답확률 : $0 \lt p \lt 1$
$-\infty \lt L(p) \lt \infty$
로지스틱함수와 로짓함수
구분 | 관계식 | 함수$f$ – 로지스틱함수 | 역함수$g$ – 로짓함수 |
함수식 |
$$f^{-1}=g$$ $$g^{-1}=f$$ $$(f \circ g)(x)=(g \circ f)(x)=x$$ $$f(g(x))=x$$ $$g(f(x))=x$$ |
$$f(x)=\dfrac{e^x}{e^x+1}=\dfrac{1}{1+e^{-x}}$$ | $$g(x)=\ln \dfrac{x}{1-x}$$ |
정의역 |
|
$$-\infty \lt x \lt \infty$$ | $$ 0 \lt x \lt 1$$ |
치역 |
|
$$ 0 \lt f(x) \lt 1$$ | $$-\infty \lt g(x) \lt \infty$$ |
도함수식 |
Chain rule로 유도 |
$$f\prime(x)=f(x)f(-x)=f(x)(1-f(x))$$ |
$$g\prime(x)=\dfrac{1-x}{x}\cdot \dfrac{1}{(1-x)^2}=\dfrac{1}{x(1-x)}$$ |
도함수의 곱 |
$$f\prime(x) \cdot g\prime(f(x))=1$$ |
$$f\prime(x)=f(x)(1-f(x))$$ | $$g\prime(f(x))=\dfrac{1}{f(x)(1-f(x))}$$ |
오즈 |
정답확률과 오답확률의 비 |
$f(x)=p$ = 정답확률 $1-fIx)=1-p$ = 오답확률 $x$ = 응답자능력 |
$$\dfrac{f(x)}{1-f(x)}=\dfrac{p}{1-p}=e^{x}$$ |
로그-오즈 | 정답확률과 오답확률의 비를 로그취함 | $x$=응답자능력 |
$$L=\ln \dfrac{f(x)}{1-f(x)}=\ln \dfrac{P}{1-P}=x$$ $L$은 로짓 |
문항별반응 |
응답자능력에 대한 정답확률 → 문항특성곡선 문항의 문항난이도 = $b$ |
$p(x-b)$는 $b$를 난이도로 가지는 문항에서의 정답확률 |
|
검사반응 |
응답자능력에 따른 검사점수분포 |
검사는 문항의 집단 |
함수의 도함수
함수의 도함수는 역함수의 도함수와 역수관계가 성립합니다. 따라서 함수의 도함수를 바로 구하기가 어려울 경우에는 역함수의 도함수를 구하고 역수를 취해 도함수를 구합니다. 수식으로 표현하면 다음과 같습니다.
$$g\prime(x)=\dfrac{1}{f\prime (g(x))}$$
여기서, 함수 $f$의 역함수가 존재 : $f^{-1}=g$
함수 $f$가 $g(x)$에서 미분가능
$f\prime(g(x))$는 0이 아님
도함수 유도
함수 $f$의 역함수가 $g$라면 다음 합성함수는 항등함수입니다.
$$(f \circ g)(x)=f(g(x))=x$$
여기서, $f^{-1}=g$
합성함수를 Chain rule을 적용하여 미분하면 다음과 같습니다.
$$f\prime (g(x)) \cdot g\prime (x) =1$$
여기서, $f^{-1}=g$
다음의 3가지 조건이 성립하면 윗식은 다음식으로 표현할 수 있습니다.
조건1) 함수 $f$의 역함수가 존재 : $f^{-1}=g$
조건2) 함수 $f$가 $g(x)$에서 미분가능
조건3) $f\prime(g(x))$는 0이 아님
$$g\prime(x)=\dfrac{1}{f\prime (g(x))}$$
두 극과 미분
교환
$$ X \times X \rightarrow X + X $$
$$ X ÷ X \rightarrow X – X $$
$$ X \log_a \rightarrow 1 ÷ a^X \rightarrow \ln X – \ln a $$
$$ a^X \rightarrow a \prod X \rightarrow X+X+, \cdots, +X$$
회전
$$X^2 + Y^2=C^2$$
$$X\cos \theta + Y\sin \theta=D$$
복소평면
회전과 위상