요인설계(factorial design) or 교차실험(crossed experiment) with fixed

뚜찌지롱 2020. 6. 14. 22:09

요인이 fixed 인 경우에 대한 포스트로 random 인 경우 모델과 검정법이 달라진다.

1. 요인설계(factorial design)

둘 이상의 요인이 존재하는 경우 요인설계(factorial design)를 이용한다. 요인설계란, 요인들의 가능한 모든 수준 조합에서 실험을 하도록 설계하는 것이다. 예를 들어, 실험에서 고려하는 요인을 3개로서 각각 A, B, C로 표기한다고 하고 각 수준수가 a, b, c 라고 하자. 따라서 이 상황에서 가능한 처리의 총수는 a x b x c 가 되고 이를 a x b x c 요인 설계라 부른다. 특히 실험설계의 초기 단계에서는 2^k 설계를 주로 사용하는데 그 이유는 모든 요인을 고려하면서 최소의 실험을 할 수 있기 때문이다. 2^k 설계는 요인의 수가 k개이고 각 요인마다 수준수가 2개인 요인실험을 의미한다. 수준의 수를 늘 리면 수준 간 반응 값들의 변화 패턴을 이차 반응 곡선으로 적합시킬 수 있는 이점이 있다. 하지만, 실험수가 기하급수적으로 늘어나기 때문에 시료의 준비와 실험 조건의 조절 등 관리가 어져워지는 문제가 유발된다. 따라서 둘 내지 세 수준만 잡아서 실험하고 바라는 최적 조건이 얼추 잡히면 그 근처에서 수준 폭을 좁혀 실험하는 형태가 바람직하다.

(1) 주효과(main effect)

요인 효과(factor effect)란 요인의 수준이 변할 때 나타나는 반응값의 변화를 뜻하며 흔히 주효과(main effect)라고 한다.

	B1	B2
A1	10	20
A2	15	24

위의 실험에서 요인 A의 주효과는 수준이 A1에서 A2로 변할 때 유발되는 반응값의 차이다. 근데 B1에서도 A의 수준이 변할 수 있고 B2에서도 A의 수준이 변한다. 즉, 요인 A의 효과는 B의 수준에 따라 따로따로 계산할 수 있다.

B1 수준에서 A의 주효과 = (A2 - A1)_B1 = 15-10 = 5

B2 수준에서 A의 주효과 = (A2 - A1)_B1 = 24-20 = 4

그런데 A의 주효과가 둘 이상의 값으로 나오면 안되기 때문에 요인 B의 수준에 따라 계산된 값들의 평균으로 정의함이 상례이다. 따라서 A의 주효과는 B1 수준과 B2 수준에서의 값을 평균낸 (5+4)/2 = 4.5 가 된다.

따라서, 주효과에 대해 다시 정의내리자면 수준이 변할 때 나타나는 평균 반응값의 차이다.

(2) 교호효과(interaction effect)

관심 요인이 두 개 이상이면 요인 간의 교호작용(interaction)에 대한 고려가 필수적이다. 교호작용이란 두 개체의 변화나 운동이 독립되지 않고 서로 영향을 미치는 작용을 의미한다. 따라서 두 요인 간에 교호작용 효과가 존재하면 두 요인이 독립적으로 존재할 때와 어울려서 존재할 때의 반응값의 양태가 서로 다르다. 교호작용은 양의 효과를 가져올 수도 있고 음의 효과를 가져올 수도 있다.

위의 가상데이터에서 요인 A와 요인 B가 교호작용이 존재하지 않는다면, B1수준에서 A의 주효과를 계산하든 B2수준에서 A의 주효과를 계산하든 그 값은 거의 같을 것이다. 반대로 교호작용이 크다면 B1과 B2에서 계산된 A의 주효과들 간에서는 값의 차이가 거의 없게 될 것이다.

가상데이터에서 A와 B의 교호작용 효과는 다음과 같이 B1수준에서 계산된 A의 주효과와 B2 수준에서 계산된 A의 주효과 간의 평균적 차이로 정의할 수 있다. 반대로 A1수준에서 계산된 B의 주효과와 A2수준에서 계산된 B의 주효과 같의 평균적 차이로 정의해도 무방하다.

A와 B의 교호작용 효과 = [ B2에 대한 (A2-A1) - B1에 대한 (A2-A1) ] / 2 = -0.5

= [ A2에 대한 (B2-B1) - A1에 대한 (B2-B1) ] / 2 = -0.5

A와 B의 교호작용 효과 값이 0에 가까움으로 교호작용이 별로 존재하지 않음을 알 수 있다.

만약 교호작용 효과가 크게 나오면 실제로 주효과의 유의성이 감추어질 수 있다. 이를 가면 효과(masking effect)라고 한다.

왼쪽 그림은 요인들의 주효과 또는 수준 간 효과 차이들이 거의 동일 했기 때문에 데이터들을 연결한 선이 평행선을 이루고 있다. 반면, 오른쪽 그림은 평행선이 아닌 'X'형태를 띠고 잇다. 그렇다면 요인들의 주효과가 없는것일까? 이는 요인의 주효과를 수준별 주효과들의 평균으로 정의했기 때문에, 양의 주효과와 음의 주효과가 평균적으로 상쇄되어 결과적으로 요인의 주효과가 0에 가까운 작은 값으로 나타났을 뿐이다.

교호작용이 통계적으로 유의하다면 그 교호작용을 잉태한 원래의 주효과들도 유의한 법이다. 따라서, 교호작용 효과가 존재할 경우 데이터 분석에는 세심한 주의가 필요하다. 자세히 말하면, 분산분석표에서 설사 주효과들은 전혀 유의하지 않고 상호작용 효과만 극히 유의하게 나오더라도 데이터 해석시 반드시 주효과에 대한 논의도 포함시켜야한다.

2. 2 factor 요인 설계

	요인B
요인A		1	...	b
	1	Y111 ... Y11n	-	Y1b1 ... Y1bn
	...	-	-	-
	a	Ya11 ... Y1an	-	Yab1 ... Yabn

먼저, 데이터를 얻는 실험을 할 때 한가지 주의해야 할 사실이 있다. 각 수준 조합 즉 처리마다 n번씩 한꺼번에 실험을 하는 것이 아니라는 점이다. 다시 말해서 abn 개의 실험을 완전 랜덤화하여 즉 CRD로서 실험 순서를 결정해야 한다. 이런 식으로 랜덤하게 결정된 실험 순서에 의거하여 실험을 진행한 후 얻어진 데이터를 정리하면 위의 평식으로 데이터를 표현할 수 있다. 또한, 여기서는 각 처리 조합에 n번의 실험을 반복했는데, n>2 인 경우에만 교호작용 효과를 파악할 수 있다. 좀 더 심화된 내용으로 n=1이라면 교호작용 효과 $(\alpha\beta)$와 오차 $\epsilon$에 붙은 첨자가 ij로 동일하기 때문에 데이터에서 이 두가지 항을 구분하여 추정하는 것은 불가능하다. 따라서 교호작용 효과항이 사라지며 실제로 교호작용 효과가 없어서 생략된 것이 아니고 오차와 교락되었기 때문에 어쩔 수 없이 빠진 것이다. 두 효과가 서로 혼재되어 따로 뗴어낼 수 없는 경우에 두 효과가 서로 교락되었다(confounded)고 표현한다.

2-factor factorial desing 모형 or 2-way ANOVA 모형은 다음과 같다.

(1) model

$Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \epsilon_{ijk} , \epsilon_{ijk} \sim N(0,\sigma^2)$
$(i=1,\cdots,a, j=1,\cdots,b , k=1,\cdots,n)$

(1)-2 model

교호작용 효과가 유의하지 않다면 위의 모델에서 교호작용항을 제거하여 모형을 다음과 같이 간략하게 쓸 수 있다.

$Y_{ijk} = \mu + \alpha_i + \beta_j + \epsilon_{ijk} , \epsilon_{ijk} \sim N(0,\sigma^2)$
$(i=1,\cdots,a, j=1,\cdots,b , k=1,\cdots,n)$

이 경우 대응되는 분산분석표는 $SS_{AB}$가 $SS_E$에 속하게 된다. 즉, 교호작용에 대한 자유도가 오차의 자유도로 더해지므로 임계값이 작아서 검정력이 증진된다.

(2) hypothesis

$H_0 : \alpha_1 = \alpha_2 = \cdots = \alpha_a$
$H_0 : \beta_1 = \beta_2 = \cdots = \beta_b$
$H_0 : (\alpha\beta)_{ij} = 0 \forall i,j $

(3) test

분산분석 시 가장 먼저 검증해야할 것은 교호작용 효과의 유무이며, 다행이 교호작용이 없다고 판정되면 통계 분석 및 자료 해석이 간단해진다.

model (1) 에 대한 총 제곱합의 분할 공식 : $SS_T = SS_A + SS_B + SS_{AB} + SS_E$

model (1)-2 에 대한 총 제곱합의 분할 공식 : $SS_T = SS_A + SS_B + SS_E$

3. 3 factor 요인 설계

요인이 셋 이상일 때도 지금까지 설명한 기본 원리가 그대로 적용된다. 세 요인을 A, B, C로 표기하고 각각의 수준을 a, b, c 라 하자. n>1이다.

(1) model

$Y_{ijkl} = \mu + \alpha_i + \beta_j + \gamma_k + (\alpha\beta)_{ij} + (\alpha\beta)_{ij} + (\alpha\gamma)_{ij} + (\beta\gamma)_{ij} + (\alpha\beta\gamma)_{ijk} + \epsilon_{ijk} , \epsilon_{ijk} \sim N(0,\sigma^2)$
$(i=1,\cdots,a ; j=1,\cdots,b ; k=1,\cdots,c ; l=1,\cdots,n)$

(2) test

분산분석을 할 때에는 언제나 고차 교호작용 효과부터 효과의 유의성 검증을 하여야 하며, 고차 교호작용 효과가 미미할 때는 이런 항을 오차에 편입시키는 편이 분석에 도움을 주는 경우가 왕왕 있다. 분산분석 시 가장 먼저 검증해야할 것은 교호작용 효과의 유무이며, 다행이 교호작용이 없다고 판정되면 통계 분석 및 자료 해석이 간단해진다.

총 제곱합의 분할 공식 : $SS_T = SS_A + SS_B + SS_C + SS_{AB} + SS_{AC} + SS_{BC} + SS_{ABC} + SS_E$