게시물-신뢰도 높은 온라인 통제 실험 A/B 테스트

하나의 정확한 측정이 수천 개의 전문가 의견보다 가치 있다.
– 그레이스 호퍼 제독(Admiral Grace Hopper)

이 글을 보는 당신, 인스타그램을 사용하고 계신가요?

그렇다면 인스타그램을 사용할 때 나에게는 뜨는 기능(예를 들면 화면 상단의 하트 버튼)이 친구에게는 뜨지 않는다거나, 새롭게 업데이트됐다는 기능이 나에게는 아직 뜨지 않는 경험을 해본 적이 있으신가요? 우리는 그것을 ‘인스타그램이 현재 A/B 테스트를 진행 중이다’라고 말할 수 있습니다.

또 다른 예시를 들어보겠습니다. 2012년 마이크로소프트의 검색 엔진인 빙(Bing)에서 일하는 한 직원이 광고 헤드라인 표시법을 바꾸자고 제안했습니다. 아이디어는 타이틀 라인을 타이틀 바로 밑의 첫째 줄 문장과 합쳐서 광고 타이틀 줄을 길게 만드는 것이었습니다. 그들은 이 간단한 아이디어의 우선순위를 낮게 측정했고, 따라서 6개월 이상 지난 뒤에야 이 아이디어는 A/B 테스트 형식으로 평가됐습니다.

그들은 사용자 일부에게는 아이디어가 적용된, 긴 광고 타이틀 줄을 배포했고, 다른 사용자 일부에게는 원래 형식의 타이틀을 무작위로 보여줬습니다. 새로운 방식과 이전 방식을 무작위로 제공하여 그 둘을 비교할 수 있도록 만든 것이죠.

어떤 결과가 나왔을까요?

그들은 아이디어를 적용한 실험군에서 막대한 광고 수입이 창출됐다는 것을 알 수 있었습니다. 그리고 이 간단한 아이디어는 빙의 매출을 12%나 올리는 것에 기여했죠.

이 모든 예시는 A/B 테스트에 관한 것입니다. 아마 서비스 런칭을 해본 분은 ‘A/B테스트’라는 단어가 친숙하실 겁니다. 그럼 A/B 테스트를 한 번 정의해 볼까요?

A/B 테스트란?

A/B 테스트란 A와 B, 즉 대조군(control)과 실험군(treatment) 2개의 종류를 비교하는 가장 간단한 형태의 종합 대조 실험(controlled experiment)입니다.

다시 말해, 실제 사용자 일부에게는 새로운 아이디어를 적용한 서비스를, 또 다른 일부에게는 이전의 것을 무작위 배포하여 해당 서비스에 대한 사용자 반응을 (클릭, 매출 등을 통해) 평가하는 것이죠.

가장 일반적인 온라인 A/B 테스트에서 사용자는 실험군과 대조군에 무작위로 분할되며, 한 번 지정된 분할은 바뀌지 않습니다. 그리고 이는 사용자가 여러 번 사이트에 방문해도 동일한 경험을 할 수 있도록 도와주죠.

A/B 테스트의 명확한 명칭은 ‘종합 대조 실험’입니다. 종합 대조 실험은 A/B 테스트를 제외하고도 A/B/n 테스트, 현장 실험, 무작위 종합 대조 실험, 분할 테스트, 버킷 테스트 및 플라이트라고도 불립니다. 그러나 이번 글에서 우리는 이를 모두 A/B 테스트로 통일해 부르도록 하겠습니다.

온라인 A/B 테스트는 에어비앤비, 아마존, 부킹닷컴, 이베이, 페이스북, 구글, 링크드인, 마이크로소프트, 넷플릭스, 트위터, 우버와 같은 기업에서 많이 사용됩니다. 이런 회사들은 매년 수천에서 수만 개의 실험을 실행하며, 때로는 수백만 명의 사용자와 연관하여 모든 것을 테스트합니다. 그들은 사용자 인터페이스(UI), 관련 알고리즘(검색, 광고, 개인 정보 확인, 추천 상품 등), 지연 시간 및 성능, 콘텐츠 관리 시스템, 고객 지원 시스템 등을 실험하며, 이는 웹사이트, 데스크톱 앱, 모바일 앱, 이메일 등의 여러 채널에서 실행됩니다. (어쩌면 여러분은 모두 자신도 모르는 사이 A/B 테스트에 참여하고 있는 것일 수도 있다는 사실!)

여기서 잠깐 퀴즈! 앞서 예시로 들었던 빙의 광고 타이틀 표시 방법에 대한 A/B 테스트에서 실험군과 대조군은 무엇일까요? 바로 새로운 타이틀 표시 방법인 더 긴 제목의 광고 표시가 실험군, 이전부터 제공되던 원래의 광고 표시가 대조군입니다.

가장 간단한 A/B 테스트는 대조군과 실험군의 두 가지 변형 군으로 두 그룹 사용자 간의 상호작용을 측정하고 분석하며 비교하는 것입니다. 그리고 실험의 마지막 분석을 통해 더 가치 있는 변수를 식별하여 가장 효과적인 시안을 선정하도록 도와주죠. 많은 사이트들은 A/B 테스트를 사용해 제품, 기업을 소비자 친화적으로 만들고 능률적인 서비스를 전략적으로 기획하는 데 사용합니다.

이처럼, A/B 테스트는 사용자의 실제 생각을 보여주기 때문에, 서비스를 현실적으로 파악하고 올바른 방향으로 개선할 수 있도록 돕는 중요한 도구입니다.

그럼, 지금부터 어떤 방식으로 A/B 테스트를 실행하는지 알아보도록 하겠습니다.

A/B 테스트 진행 프로세스

본격적인 A/B 테스트의 앞서 우리는 가설을 수립해야 합니다.

좋은 가설은 검증 과정에서 유의미한 레슨런(Lesson Learned)을 가져다주거나 비즈니스 임팩트를 줄 만한 인사이트를 제공하기에 A/B 테스트의 핵심이라 할 수 있습니다. 그렇다면 가설을 세울 때, 어떤 점을 고려해야 할까요?

1) 전체 평가 기준(OEC) 선정

A/B 테스트를 통해 달성하고자 하는 비즈니스의 최종 목표 즉, OEC(Overall Evaluation Criterion)를 고려해야 합니다. 통계에서는 이를 흔히 종속 변수라 부르며 KPI가 동의어로 사용됩니다.

OEC는 실험 기간 동안 단기적으로 측정 가능하며, 장기적으로는 전략적인 목표를 추진할 수 있어야 합니다. 또한, 시기적절하게 중요한 변화를 감지할 수 있을 정도의 민감도를 갖춰야 하는데요. 이는 기초가 되는 통계적 분산, 효과의 크기(실험군과 대조군의 차이) 그리고 샘플링 추출 단위에 따라 달라질 수 있습니다. 민감하지 않은 지표의 극단적 예로는 ‘주가’가 있습니다. 사실상 실험 기간 내에 일상적인 제품(Product) 변화로 주가의 변동을 일으키기는 매우 어렵죠.

더불어 비즈니스 특성과 상황의 충분한 이해를 바탕으로 OEC를 선정해야 합니다. 예를 들어, 1년 주기로 구독을 갱신하는 서비스는 1년간 실험을 진행하지 않는 한 갱신율에 미치는 영향을 측정하기 어렵습니다. 이런 경우에는 갱신율 자체보다 갱신에 영향을 미치는 고객 만족의 선행지표를 찾아 선정하는 것이 일반적입니다.

마지막으로 우리는 최적화하고자 하는 대상에 대해 깊이 생각하고 어떤 트레이드오프를 수용할지 결정해야 합니다. 만약 체류시간(Time-on-Site)을 늘리는 것을 OEC로 정했다면 단기적으로는 불필요한 페이지를 생성하고, 느린 사이트를 초래해 지표를 개선할 수 있지만, 장기적으로는 사용자가 이탈하는 원인이 됩니다. 또, 성장이 우선시 되는 조직의 경우 실험에 의해 매출이 증가하더라도 사용자의 감소를 받아들이기 어려울 수 있죠. 따라서, 측정 및 계산 가능성, 민감도와 적시성 등을 모두 고려해 비즈니스 목표 및 OEC를 선정하고 전사적으로 이해관계를 일치시키는 것이 중요합니다.

2) 파라미터값과 우선순위 정렬

파라미터란, OEC에 영향을 미치는 통제할 수 있는 실험 변수를 의미하며 요인(Factor)이라 부르기도 합니다. 실험에서 통제 가능한 실험 변수는 독립변수와 통제 변수 등이 있으며, 특히 A/B 테스트의 성패는 통제 변수를 얼마나 잘 관리하느냐에 달려 있습니다.

통제 변수는 실험군과 대조군에서 동등한 조건을 지녀야 하는 변수로, A/B 테스트 경험이 부족한 경우 종속 변수에 영향을 미치는 요소를 두루 살펴 샘플링 오류가 발생하지 않도록 해야 합니다. 이러한 파라미터를 나열한 후에는 가장 우선순위가 높은 방법부터 테스트를 실행하게 되는데요. 이때, 참고할 수 있는 프레임워크로는 ICE(Impact/Confidence/Ease), MosCow(Must have, Should have, Could have, Won’t have) 등이 있습니다.

3) 가설 서술

가설은 참/거짓의 판별이 가능한 수준의 문장으로 서술하고, 테스트하고자 하는 주체를 정확히 명시해야 합니다.

아래 예시를 바탕으로 주체에 대한 이야기를 좀 더 해보겠습니다.

체크아웃 페이지에 쿠폰 필드를 더하면 매출이 증가할 것이다. (X)

체크아웃 페이지에 쿠폰 코드 필드를 더하면 구매 프로세스를 시작하는 유저의 사용자 당 매출이 증가할 것이다. (O)

만약 OEC를 매출로 선정했다면 대게 전체 매출을 증가시키는 것이 목표겠지만, 변형 군마다 매출 발생의 주체가 다를 수 있습니다. 따라서, 총매출의 합보다는 사용자당 매출(매출/사용자)과 같은 표준화된 지표를 사용하는 것을 권장합니다.

또한, 사용자는 체크아웃 페이지에 진입해 결제 프로세스를 시작한 사람들로 한정 짓는 것이 바람직합니다. 전체 사용자를 대상으로 할 경우, 불필요한 노이즈가 추가돼 민감도가 떨어지는 결과를 초래할 수 있기 때문입니다.

이어 실험에서는 귀무가설과 대립가설이 필요합니다. 귀무가설이란 차이가 없거나 의미 없는 경우의 가설을 말하며, 대립가설은 귀무가설과 반대로 연구를 통해 입증이 필요한 주장하는 가설을 말합니다.

귀무가설(H0)
체크아웃 페이지에 쿠폰 코드 필드를 더해도 구매 프로세스를 시작하는 유저의 사용자당 매출은 저하하지 않을 것이다.

대립가설(H1)
체크아웃 페이지에 쿠폰 코드 필드를 더하면 구매 프로세스를 시작하는 유저의 사용자당 매출이 증가할 것이다. 우리는 이 2가지 가설을 바탕으로 표본 데이터를 수집해 유의성 검정을 수행하고 검증 결과, 귀무가설이 참으로 판단된다면 이를 채택(Accept), 그렇지 않다면 귀무가설을 기각(Reject)함으로써 대립가설을 채택하는 것이죠.

4) 대조군과 실험군 생성

다음은 표본 즉, 가설 검증에 필요한 실험 참가자의 숫자를 정해야 합니다. 너무 적은 수의 관측치를 표본으로 추출할 경우 편향(bias)이 발생할 수 있으므로 최소 표본 크기를 결정하는 것이 중요한데요. 일반적으로는 표본의 크기가 클수록 검정력이 높아지나, 기업의 상황에 따라 그 크기는 달라질 수 있습니다.

예를 들어 사용자가 어떤 반응을 보일지 모르는 대규모 실험의 경우, 더 적은 비율의 사용자로 시작하는 것이 좋습니다.

특히, 구글이나 빙과같이 수십억 달러를 창출하는 기업은 0.01%만으로도 실험적 효과가 나타날 수 있으므로 샘플 크기 설정에 주의해야 합니다. 만약 고객 수가 10만명인 기업은 전환율의 차이가 1%만 돼도 1,000명인데 반해 1,000명인 기업은 전환율의 차이가 5%에 달하더라도 50명에 그치겠죠? 이는 객단가 1만원 기준 각 10억과 50만 원으로 무시할 수 없는 크기이기도 합니다.

그렇다면 샘플은 어떻게 추출하는 것일까요?

무작위 추출은 가장 일반적인 샘플링 기법의 하나입니다. 이때, 모든 표본이 동일한 확률을 가진 상태에서 샘플을 추출하는 것이 중요한데요. 일부 표본이 실험에 사용되는 모든 지표에 영향을 미칠 수 있기 때문입니다. 즉, 단순히 회원 번호, 홀짝 등과 같은 방법으로 실험군과 대조군을 나누는 것은 진정한 의미의 무작위 추출이라 보기 어려운 것이죠.

사용자 수준에서의 샘플링 방식과 장단점을 살펴보겠습니다.

– 사용자 ID 또는 로그인을 기준으로 샘플링할 경우

일반적으로 서비스에 등록된 ID는 플랫폼 변화뿐 아니라 장기적인 시간 변화를 측정해야 하는 실험에서도 일관성을 유지합니다.

– 쿠키에서 생성한 식별자를 기준으로 샘플링할 경우

대부분의 웹사이트에서는 사용자 방문 시, 식별자를 포함한 쿠키를 생성합니다. 네이티브 앱에서는 애플은 idFA나 idFV, 안드로이드는 광고 ID와 같은 쿠키를 제공하는데요. 이러한 식별자는 여러 플랫폼에서 호환되지 않으므로 동일한 사용자가 방문하더라도 서로 다른 ID로 간주합니다. 이러한 쿠키는 브라우저 또는 특정 장치의 OS를 테스트하기 용이하며, 일반적인 사용자 ID에 비해 장기적인 테스트에서는 취약하다는 특징이 있습니다.

– 특정 장치에 주어진, 즉, 변하지 않는 ID를 기준으로 샘플링할 경우

이러한 ID는 장치 및 플랫폼 간 호환성은 떨어지지만, 변경할 수 없어 시간에 따라 변하지 않는 안정성을 갖습니다.

5) A/B 테스트 집행 기간 결정

모든 준비가 끝나면 가설 검증에 필요한 데이터 수집 기간을 정해야 합니다. 이때, 테스트 결과에 대한 유의성을 잃지 않기 위해 샘플 사이즈, 기존 전환율, 희망 전환율, 일평균 방문자 수를 포함한 아래 상황을 고려해야 하는데요.

– 과도한 테스트 기간 설정

온라인 테스트 기간이 길어질수록 표본 수는 증가하게 되고 이는 테스트의 검정력이 향상하게 돼 적은 차이로도 개선안이 유의미한 것으로 판단하게 됩니다. 다만 테스트를 오래 진행하게 될 경우 팀의 리소스와 트래픽 낭비와 같은 문제점이 발생할 수 있으니 유의해야 합니다.

– 초두 효과

서비스 상황에 따라 테스트 초기 효과가 크거나 작은 경향이 있습니다. 이 경우 테스트가 안정화되기 전 즉, 표본 수가 아직 일정 수준에 도달하기 전 테스트가 종료될 경우 결괏값에 대한 신뢰를 잃게 됩니다. 따라서 서비스 상황을 염두에 두며 일정 기간 테스트를 진행하여 유의성을 잃지 않도록 유의해야 합니다.

– 주간 또는 공휴일

주말 또는 공휴일(크리스마스, 명절) 등과 같이 시기상으로 사용자 행동에 영향을 끼치는 요인들이 있으니 기간 설정 시 고려돼야 합니다.

테스트 수행

테스트를 수행하고 데이터를 수집한 후, A/B Testing Tool을 이용해 대조군과 실험군의 결과 차이가 통계적으로 유의한 지 여부를 확인할 수 있습니다. 대표적인 트래킹 툴로 구글 애널리틱스(GA), 엠플리튜드, 믹스패널, 뷰저블, 옵티마이즐리가 있습니다.

Google Analytics

구글 애널리틱스는 가장 기본적인 트래킹 툴입니다. GA를 이용해 페이지에 추적 코드를 설치하게 되면 사용자가 어떤 경로를 통해 들어오며 어떤 액션을 수행했는지 관련된 데이터들을 수집하고 분석하며 보고서를 생성할 수 있습니다.

Mixpanel

믹스패널은 퍼널마다 사용자가 어떤 행동을 취했는지 퍼널 분석이 가능한 것이 가장 큰 특징입니다. 또한 특정 기간 사용자 행동을 기준으로 그룹을 나눠 확인하는 코호트 분석이 가능합니다. 분석, 보고, 마케팅 등 다방면의 세부 기능들이 제공되고 있습니다.

Amplitude

엠플리튜드 역시 믹스패널과 동일하게 퍼널 분석 및 코호트 분석이 가능합니다. 보고서 생성 및 시각화에 더욱 특화된 것이 믹스패널과 차이로 볼 수 있습니다.

데이터 수집이 완료됐다면 앞서 설정해 두었던 가드레일 지표의 변화 여부를 통해 A/B 테스트 결과의 적절성을 먼저 검사해야 합니다. 만약 가드레일 지표에 변화가 있으면 이외 다른 지표 결과의 신뢰성을 잃었다고 판단할 수 있습니다.

대표적으로는 SRM이 있습니다. SRM은 테스트 설계 시, 설정해 놓았던 실험군과 대조군의 비율이 테스트 종료 후, 실제 집단 간 비율과 차이가 발생한 경우를 의미합니다. SRM이 발생하게 되면 테스트 결과에서 지표에 대한 신뢰성을 잃게 되며 해당 결과는 비즈니스의 어떠한 결정을 내릴 때 사용돼선 안 됩니다.

마지막 단계로 ‘p 값’을 이용해 통계적 가설 검정을 진행합니다. P 값은 실험군과 대조군의 결괏값이 같다는 귀무가설 하에 표본을 추출할 경우 대조군의 결괏값 또는 그보다 더 극단적인 값이 관찰될 확률을 의미합니다. 일반적으로 p 값이 5% 미만일 경우 실험군과 대조군 차이가 유의미한 것으로 판단하며 귀무가설을 기각하고 대립가설을 채택합니다.

A/B 테스트의 목적은 프로젝트가 얼마나 효과가 있는지 살펴보기 위함이지 통계적 유의성만을 확보하기 위한 것은 아니므로 우리는 프로젝트가 비즈니스에 미치는 실질적 성과, 비용 등을 종합적으로 고려하며 p 값에 매몰되지 않도록 유의해야 합니다.