본문 바로가기

Experiment design/실험설계6

실험 설계시, 가설과 지표 설정 방향 Idea 최근에 실험 설계를 진행해볼 기회가 생겨서, 가설 정의부터 지표 설정에 대한 공부를 하게 되었다. 몇날 며칠 머리를 싸매며 공부하고 나니 #필요한 지식에 대한 큰 맥락이 그려지면서 구체적인 디테일까지 생각해보게 되었다. 아직은 완벽하진 않지만, 큰 맥락을 알게된 이 시점에 기록을 남기고자 한다. 1. 실험 설계시, 필요한 지식 비즈니스 및 도메인 지식 A/B test 통계 지식 #필요한 지식에 대한 이해가 가설 정의를 할 때 매우 중요한 역할을 한다. 정확한 이해 없이 가설을 정의하는 것이 실험을 무의미하게 만들어버리는 지름길이라는 것을 인지하며, 실험 설계에 대한 책임감을 가져야 한다. 비즈니스 및 도메인 지식에 대한 이해가 있어야 우선 비즈니스 측면으로 어떤 목표를 달성하고자 하는지 알 수 있다. 그.. 2023. 2. 26.
분산 분석의 가정(Assumptions for ANOVA) 항상 어떤 검정을 수행하기 전에 가정을 따르는지 확인하고 모수적 방법 or 비모수적 방법을 사용해야 한다. 오늘은 분산분석을 수행하기 전 만족해야 하는 가정에 대해 정리해볼 것이다. (tmi : 학부 때 영어라면 질색팔색을 했는데, 정말 좋은 자료가 많은 것 같다 ㅎ 이미 유명한 자료이며, 너무나 보기 좋기 정리 되어있기 때문에 참고하면 좋을 것 같다.) 만일 가정을 만족한다면 모수적 방법인 ANOVA 를 수행하면 되고, 만족하지 못한다면 Kruskal-Wallis test를 수행하면 된다. 분산 분석에 대한 글은 이전에 포스팅 했으니 생략하도록 하겠습니다 ! 1. 분산분석을 수행하기 전 만족해야 하는 3가지 가정 각 군은 독립이어야 한다. 각 군은 정규분포를 따라야 한다. (군 별로 시행) - 귀무가설.. 2022. 8. 17.
지분설계(nested design) 관심 요인이 둘 이상인 경우의 모든 실험설계들은 이전에 다루었던 교차설계(or 요인설계) 와 지분설계, 혹은 이 두 가지가 혼합된 지분-요인 설계의 형식으로 주어진다. 교차설계에 대해 간단히 설명하자면, 요인들의 모든 가능한 처리 조합마다 실험을 하여 자료를 얻는 설계이다. 이에 지분설계는 요인마다 각 수준들에서 또 다른 수준들을 가지고 있는다. 상위 계층 요인 1 2 3 하위 계층 요인 11 12 13 21 22 23 31 32 33 수준 111, .., 11n 121, .., 12n 131, .., 13n 211, .., 21n 221, .., 22n 231, .., 23n 311, .., 31n 321, .., 32n 331, .., 33n 이와 같은 형태의 자료 구조를 갖는 실험설계를 지분 설계라.. 2020. 6. 16.
EMS(expected mean square) : 기대평균제곱 1. EMS 오차 분산 $\sigma^2$의 비편향 추정량은 $MS_E$이다. 그런데 만일 처리 평균들이 동일하다면 $MS_{trt}$도 역시 오차 분산 $\sigma^2$의 추정량이 된다. 결국 처리 평균들이 동일하다면 $MS_E$(처리내오차)와 $MS_{trt}$(처리간오차) 모두 오차 분산 $\sigma^2$의 추정량이며, 값에 별로 차이가 없을 것이라고 짐작할 수 있다. 하지만 만일 $MS_E$와 $MS_{trt}$간에 값 차이가 크다면 처리 평균들 간에도 차이가 있다고 판단할 수 있다. 이러한 짐작은$MS_E$와 $MS_{trt}$에 대한 기댓값을 산출해보면 확인할 수 있는데 이와 같은 평균제곱에 대한 기댓값은 기대평균제곱(EMS : expected mena square)이라 한다. 우선 $E(.. 2020. 6. 15.
요인 수준 선택 기준 (fixed , random, mixed) 요인 수준 또는 처리 수준의 선택에는 두 가지 방법이 있다. 하나는 실험자가 스스로 적당한 실험 수준을 선택하는 것으로 고정(fixed)되었다고 하며 이에 대응되는 모형을 고정효과 모형(fixed effects model)이라 부른다. 다른 하나는 가능한 모든 처리 수준 중 랜덤으로 몇 개를 고르는 것으로 랜덤(random)이라 하며 대응되는 모형을 랜덤효과 모형(random effects model)이라 부른다. 교정효과 모형과 랜덤효과 모형의 차이는 통계 추론의 범위에 있다. 고정효과 모형에서는 통계 추론이 오로지 실험이 실제 진행된 처리 수준들에 국한된다. 반면에 랜덤효과 모형에서는 통계 추론이 실제 실험을 하지 않은 처리 수준을 포함하는 가능한 모든 처리 수준들에까지 확대된다. 즉, 고정효과 모형.. 2020. 6. 15.
요인설계(factorial design) or 교차실험(crossed experiment) with fixed 요인이 fixed 인 경우에 대한 포스트로 random 인 경우 모델과 검정법이 달라진다. 1. 요인설계(factorial design) 둘 이상의 요인이 존재하는 경우 요인설계(factorial design)를 이용한다. 요인설계란, 요인들의 가능한 모든 수준 조합에서 실험을 하도록 설계하는 것이다. 예를 들어, 실험에서 고려하는 요인을 3개로서 각각 A, B, C로 표기한다고 하고 각 수준수가 a, b, c 라고 하자. 따라서 이 상황에서 가능한 처리의 총수는 a x b x c 가 되고 이를 a x b x c 요인 설계라 부른다. 특히 실험설계의 초기 단계에서는 2^k 설계를 주로 사용하는데 그 이유는 모든 요인을 고려하면서 최소의 실험을 할 수 있기 때문이다. 2^k 설계는 요인의 수가 k개이고 각.. 2020. 6. 14.