최근에 실험 설계를 진행해볼 기회가 생겨서, 가설 정의부터 지표 설정에 대한 공부를 하게 되었다. 몇날 며칠 머리를 싸매며 공부하고 나니 #필요한 지식에 대한 큰 맥락이 그려지면서 구체적인 디테일까지 생각해보게 되었다. 아직은 완벽하진 않지만, 큰 맥락을 알게된 이 시점에 기록을 남기고자 한다.
1. 실험 설계시, 필요한 지식
- 비즈니스 및 도메인 지식
- A/B test
- 통계 지식
#필요한 지식에 대한 이해가 가설 정의를 할 때 매우 중요한 역할을 한다. 정확한 이해 없이 가설을 정의하는 것이 실험을 무의미하게 만들어버리는 지름길이라는 것을 인지하며, 실험 설계에 대한 책임감을 가져야 한다.
비즈니스 및 도메인 지식에 대한 이해가 있어야 우선 비즈니스 측면으로 어떤 목표를 달성하고자 하는지 알 수 있다. 그 후, 도메인 지식을 활용하여 목표에 달성하기 위한 전략을 세울 수 있다. 예를 들면, 패션 회사에 입사하여 일을 하게 됐는데, 경영학 전공인 사람과 패션을 전공하고 부전공으로 경영을 한 사람 중 누가 더 전략을 잘 세울 수 있을까?
2. A/B test 가 불가능한 구조
A/B test는 실험하고자 하는 기능(변화된 부분)을 제외한 나머지 조건을 A군, B군에 동일하게 부여하여 기능의 효과만을 보기 위한 실험이다. 이게 개념이다. 간혹 UI변경에 대한 test 로써 설명한 글도 있는데, 오해하기 십상이다. 또한, 최근에 본 잘못된 가설 정의는 (기존의 기능 + 추가 기능) 효과를 보려고 한 사례이다. 이러한 경우, A군(기존)과 B군(기존 + 추가)이 중복되는 효과(=기존)를 가지고 있으며, B군에서 추적지표(ex. 재방문율)이 높아졌다고 했을 경우, 기존 기능에 대한 효과인지 추가한 기능에 대한 효과인지 알 수 없다. 또한, (기존 + 추가)에 대한 시너지 효과도 무시 못할 것이다. 해당 사례는 A/B test 말고 다른 방법을 통해서 효과를 검정할 수 있을 것이다. (그 부분은 아직..)
A/B test에 대한 개념이 잘 잡혀있지 않은 상태로 실험을 진행하게 된다면, 비용/시간 등 여러 의미에서 자원이 낭비되는 상황이 발생한다.
결론 : 잘 알고 잘 쓰자
3. 지표 설정이 헷갈린다면, Input -> Output 개념으로 접근하기
지표 설정을 할 때 input(선행), output(후행)의 개념으로 전체적인 지표 흐름과 연결을 설명할 수 있다. 이미 여러 글에서 해당 개념의 중요성과 실제 사례를 공유하고 있다. 처음에는 직관적인 느낌이 잘 안왔는데, 반복 학습 효과와 좋은 자료를 찾아 공유하고자 한다.
공부하면서 느낀 지표 설정의 전체적인 흐름은 지표들 사이에는 '선행-후행'의 관계를 가지고 있다는 것이다. 리텐션(output)을 높이기 위해 리텐션에 영향을 주는 선행지표(input)을 개선시키면 추후에 리텐션에 반응이(좋은 안좋든) 올 것이다. 그리고 해당 지표는 리텐션의 선행지표로 역할을 하면서 어떤 특정 지표의 후행지표로도 작용할 것이다. 그럼 그에 대한 선행지표를 또 찾으면 되는 거고.... 결국, 가설을 계속 구체화하는 과정을 반복하는 것이다.
이해한 내용을 바탕으로 그림을 그려보면, 아래와 같다. *지표는 서비스와 제품에 따라 다르니 참고'만' 부탁드립니다.
프로덕트 | |||
Output | 매출 | 활성사용자 | 리텐션 |
input (는 누군가의 output) | 거래 건수 | 체류시간 등 | 클릭률, 이탈률 등 |
input2 | ~ | ~ | ~ |
우선 이해한 바로 이렇게 설명할 수 있다 프로덕트를 한 번에 개선할 수 없듯이 여러 갈래를 찾아 하나씩 개선해나가면서 프로덕트를 발전시키는 것이다. Input -> Output 개념을 이해하고 나니깐 실험 설계에 있어서 지표를 설정할 때 수월하게 느껴졌다. 그리고 이 부분에서 다시 한번 도메인 지식의 필요성을 뼈저리게 느끼게 되었다.
오늘의 기록은 여기까지 ,, 계속 공부하고 있는 입장이기 때문에 틀린 부분이나 이해가 안가는 부분이 있다면 알려주세요 !
<참고 자료>
(진쫘,, 2번읽어 3번읽어 계속읽어 ,,,, 성윤님이 내가 급하게 공부하는거 어케 아시고 딱 강의를 내주셨다. 무적권 들을거에요!!!!!)
'Experiment design > 실험설계' 카테고리의 다른 글
분산 분석의 가정(Assumptions for ANOVA) (0) | 2022.08.17 |
---|---|
지분설계(nested design) (0) | 2020.06.16 |
EMS(expected mean square) : 기대평균제곱 (0) | 2020.06.15 |
요인 수준 선택 기준 (fixed , random, mixed) (0) | 2020.06.15 |
요인설계(factorial design) or 교차실험(crossed experiment) with fixed (0) | 2020.06.14 |
댓글