본문 바로가기

Statistics/ISLR7

Group Lasso Lasso는 정규화/벌점 회귀 중 하나로 선형 회귀에 벌점을 추가하여 bias를 다소 포기하면서 더 많은 variance를 낮추는 방법이다. 즉, overfitting의 문제를 해결하기 위한 regularization 방법 중 하나이다. 벌점을 추가한다는 것은 회귀계수에 제약을 주는 것과 같은데 제약을 크게 줄수록 해당 회귀계수가 작아지게 된다. ridge는 회귀계수를 완전히 0으로 수축시키지 못하지만, 라쏘는 완전히 0으로 수축시켜 변수선택 효과를 가진다. 하지만, 변수 중 범주형 변수가 존재하는 경우, 더미변수가 생성되며 lasso는 더미변수 하나 하나를 1개의 변수로 인식하기 때문에 범주형이라는 구조적인 특성을 고려하지 못하게 된다. 이러한 문제를 해결하기 위해 Group lasso가 제안되었다. .. 2021. 5. 21.
Ridge / Lasso regression 6.2 Shrinkage Methods subset selection에서는 선형회귀를 적합하기 위해 Least Squares를 사용하였지만, 이제부터는 대안적인 방법으로 회귀계수 추정량에 제약(constraints)을 주거나 정규화(regularizes)시킬 것이다. 이는 회귀계수 추정량을 0으로 수축시키는 것과 동일한 의미를 가진다. 이러한 처리로 인해 추정량의 분산을 상당히 줄일 수 있다. 가장 널리 알려진 방법으로 Lasso와 Ridge가 있다. 6.2.1 Ridge Regression 3장에서 다루었던 선형회귀에 대한 LS적합은 RSS를 최소로하는 추정량을 선택하는 방법이었다. Ridge 회귀는 RSS에서 추가된 항이 존재하며 이를 최소로하는 추정량을 사용한다. $\sum_{i=1}^n (y_i .. 2021. 5. 21.
6. Linear Model Selection and Regularization 회귀문제에서, 기본적인 선형회귀모형의 형태는 다음과 같다. $Y = \beta_0 + \beta_1X_1+\dots + \beta_pX_p + \epsilon_t$ 이는 Y와 $X_1, X_2, \dots , X_p$의 관계를 추론(Inference)할 수 있다는 점에서 장점을 가지며, 종종 비선형적인 모형보다 좋은 결과를 도출할 수 있다. 이 장에서는 LS적합 대신 대안적인 적합방법을 사용하여 단순 선형 회귀를 개선하는 방법에 대해 논의할 것이다. 대안적인 적합은 LS적합 보다 개선된 예측정확성(Prediction Accuracy)과 모델해석력(Model Interpretability)을 도출할 수 있다. Prediction Accuracy Y와 X들의 실제로 선형의 관계를 가진다고 할 때, OLS 추.. 2020. 10. 25.
3. Linear regression(선형 회귀) 3. Linear regression 이번 포스팅은 지도학습에서 가장 기본적인 방법론인 선형회귀(linear regressgion)이다. 선형회귀는 질적변수(연속형) Y를 예측하는데 유용한 방법이다. 지금은 선형회귀보다 더 다양하고 예측력이 좋은 모형들이 많이 나왔으며 , 그 중 몇몇 방법론들은 선형회귀를 확장시킨 방법론들이기 때문에 기본적으로 선형회귀를 이해하고 넘어간다면 추후 새로운 접근법을 마주할 때 훨씬 수월할 것이다. (이는 마치 수학을 배울 때 기초가 가장 중요하다는 말과 같다.) 독립변수와 종속변수와의 관계, 예를 들어 TV, 라디오, 뉴스 광고의 지출(budgets)와 특정 상품의 판매량(sales)의 관계를 밝히고자 할 때 다음의 질문이 중요하다. 1. 광고 지출과 판매량간의 관계가 있는.. 2020. 10. 8.
Resampling Method(Hold-out, Cross-Validation, Bootstrap) 재표본 방법(Resampling)은 통계학에서 매우 중요하게 여겨지고 있다. 이는 훈련용 데이터셋에서 일부 표본 집합을 반복적으로 뽑아 각 집합에 관심 모델을 적합하여 모델에 대한 정보를 얻는 기술이다. 예를 들어, 선형 회귀를 적합하여 y를 예측하는것이 목적이라고 생각해보자. 우리는 적합값의 변동성을 추정하기 위해 훈련용 데이터 셋으로부터 각기 다른 표본 집합을 뽑아 각 집합에 선형 회귀를 적합한다. 그 후 적합 결과가 얼마나 다른지 정도를 검토한다. 이러한 접근 방식을 통해 훈련용 데이터 셋만 이용하여 적합했을 때 얻을 수 없는 정보를 얻도록 해준다. 재표본 방법의 과정을 살펴보면 표본을 재추출하여 모형을 여러번 적합해야 하기 때문에 계산 비용이 많이 들게 된다. 하지만, 현대 컴퓨팅 기술이 나날히 .. 2020. 10. 5.
Introduction to Statistical Learning with R 본 포스팅은 제목과 같이 ISLR(Introduction to Statistical Learning with R)이라는 책을 바탕으로 쓰여질 것이다. 이 책은 통계학 학부 수준에서 이해가 가능한 정도라고 생각하면 좋다. 최대한 간단하면서 뼈대를 세워가며 정보를 전달하기 위해 노력할 것이며, 포스팅의 끝에서는 전체적인 개요가 머릿속 안에 잡히는 것이 목표이다. Statistical learning은 f를 추정하는 접근법 set이다. 이 도구들은 크게 지도(supervised) or 비지도(unsupervised)로 나뉘며, supervised statistical learning은 한 개 이상의 X(독립변수)로 Y를 예측, 추정하기 위한 통계적 모형을 만드는 것이고 unsupervised statistic.. 2020. 8. 31.