전체 글79 코호넨 군집(Kohonen network) 오늘은 인공신경망을 이용한 군집에 대해서 포스팅을 쓰려고 한다. 최근 군집분석에 대한 여러 기법들에 대해서 공부를 하고 있었는데 갑자기 인공신경망이라니(?!).... 라는 잠깐의 당혹스러움과 그 후에 밀려오는 대단함, 더 열심히 공부해서 나중에는 자연스럽게 머리에 그림을 그려나갈 수 있는 실력을 갖추어야겠다고 다짐한다 ! (모두들 화이팅...😂) 1. 자기조직화지도(Self-Organizing Map, SOM) 코호넨 군집은 SOM알고리즘으로도 불리며, 자기조직화지도를 이용하여 입력패턴을 유사한 패턴의 집단으로 군집화하는 방법이다. 자기조직화지도란, 다차원의 자료를 저차원(주로 일차원 또는 이차원)의 공간에 지도의 형태로 형상화한 것이다. SOM은 고차원의 데이터를 저차원의 맵(map) 상으로 축소시킨 .. 2021. 3. 12. 퍼지 군집(fuzzy clustering) 이전 포스팅에서 혼합 분포 군집(Mixture distribution clustering)과 밀도 기반의 군집(DBSCAN)을 다루었다. 이번 포스팅에서는 퍼지 군집(fuzzy clustering)에 대해서 다룰 것이다. fuzzy는 '모호함, 애매함' 의 뜻을 가지며 그 뜻과 상응하여 각 자료점이 한 개 이상의 군집에 속할 수 있도록 군집을 형성하는 것이다. 예를 들어, 1개의 자료를 A와 B로 분류해야 하는 상황(ex. 로지스틱 회귀)에서 A 군집의 특성과 100% 일치한다면 퍼지 군집을 수행하는 것은 의미가 없을 것이다. 하지만, A 군집과 B 군집에 속할 확률이 각 0.51 / 0.49 라고 했을 때 임계값이 보통 0.5 이므로 해당 자료를 A 군집으로 분류하는 것은 다소 찝찝함이 생긴다. 따라서.. 2021. 3. 10. 밀도기반군집(density-based clustering) 군집분석(clustering)은 대표적인 비지도학습(unsupervised learning)으로 크게 중심 기반(center-based) 알고리즘과 밀도 기반(density-based) 알고리즘으로 나눌 수 있다. 중심 기반 알고리즘은 "동일 군집에 속하는 데이터는 어떠한 중심을 기준으로 분포할 것"이라는 가정을 기반으로 한다. 밀도 기반 알고리즘은 "동일 군집에 속하는 데이터는 서로 근접하게 분포할 것"이라는 가정을 기반으로 한다. 중심 기반의 가장 대표적인 알고리즘으로 k-평균(k-means)이 있으며, 밀도 기반 알고리즘에는 이 포스팅에서 소개할 DBSCAN이 있다. 중심 기반 알고리즘과 밀도 기반 알고리즘의 특징에 대해 설명하면, 중심 기반 알고리즘의 경우 중심을 기준으로 군집을 형성하기 때문에 .. 2021. 3. 5. 혼합분포군집(mixture distribution clustering) 데이터들이 항상 정규분포와 같은 단일분포만 따른다고 하면 얼마나 편할까 ? 하지만, 세상은 그렇게 호락호락하지 않게도 실제 데이터들의 형태를 보면 봉우리가 2개인 분포, 도넛형태의 분포 등.. 다양한 분포를 가지는 데이터들이 존재한다. 매우 복잡한 형태를 가진 데이터들의 분포는 혼합분포로 설명될 수 있다. ○ 혼합분포 "혼합분포"란 여러 분포를 확률적으로 선형 결합한 분포이다. 이는 각 데이터가 하나의 분포만을 따르는 것이 아니라 또 다른 분포(또는 모수가 다른 같은 분포)를 따르는 것을 의미한다. 다음 그림을 통해 직관적으로 이해할 수 있다. 데이터의 분포가 다봉형의 형태(빨간 곡선)를 띠며, 이를 단일 분포로 적합하는 것은 바람직하지 않아 보인다. 이런 경우, 혼합 분포를 떠올릴 수 있으며 위의 그림.. 2021. 3. 3. 소프트맥스(Softmax) 함수 소프트맥스 함수는 출력층에서 사용되는 함수이다. 이 외에도 항등 함수, 시그모이드 함수가 존재한다. 항등 함수의 경우 입력값이 그대로 출력되는 함수로 회귀 모델을 만들 때 사용한다. 소프트맥스 함수는 다중 클래스 분류 모델을 만들 때 사용한다. 결과를 확률로 해석할 수 있게 변환해주는 함수로 높은 확률을 가지는 class로 분류한다. 이는 결과값을 정규화시키는 것으로도 생각할 수 있다. $p_j = \frac{e^{z_j}}{\sum_{k=1}^{K} e^{z_j}}$ $j = 1,2, \dots ,K$ K는 클래스 수를 나타내며, $z_j$는 소프트맥스 함수의 입력값이다. $p_j$를 직관적으로 해석하면 $\frac{j번째 입력값}{입력값의 합}$으로 볼 수 있으며 따라서 확률 관점으로 볼 수 있다. .. 2021. 2. 25. 활성화 함수(Activation Function) ○ 활성화 함수 활성화 함수는 이전 층(layer)의 결과값을 변환하여 다른 층의 뉴런으로 신호를 전달하는 역할을 한다. 활성화 함수가 필요한 이유는 모델의 복잡도를 올리기 위함인데 앞서 다루었던 비선형 문제를 해결하는데 중요한 역할을 한다. 비선형 문제를 해결하기 위해 단층 퍼셉트론을 쌓는 방법을 이용했는데 은닉층(hidden layer)를 무작정 쌓기만 한다고 해서 비선형 문제를 해결할 수 있는 것은 아니다. 활성 함수를 사용하면 입력값에 대한 출력값이 비선형(nonlinear)적으로 나오므로 선형분류기를 비선형분류기로 만들 수 있다. 신경망에서는 활성화 함수로 비선형 함수만을 사용하게 되는데 선형 함수를 사용하면 신경망의 층을 깊게 쌓는 것에 의미가 없어지기 때문이다. 즉, 은닉층(hidden la.. 2021. 2. 24. 이전 1 ··· 5 6 7 8 9 10 11 ··· 14 다음