게시물-제로파티 데이터 정제 기준과 데이터 품질에 대한 오해 3가지

제로파티 데이터 정제 기준과 데이터 품질에 대한 오해 3가지

데이터를 분석하기 전에는 반드시 데이터 정제 단계를 거쳐야 합니다. 제로파티 데이터도 마찬가지입니다. 응답 시간이 지나치게 짧거나 불성실한 응답을 제외하는 등 수집한 데이터를 분석하기 알맞은 형태로 가공하는 과정이 필요합니다. 응답자의 단순 실수나 질문 의도를 오해해서 잘못 응답한 오응답이나 응답 경향성과 크게 다른 이상치를 제거하는 작업도 포함됩니다.
데이터 정제 기준은 명확하고 일관적이어야 합니다. 그렇지 않고 자의적인 기준으로 특정 데이터를 분석 대상에서 제외한다면, 정확하고 객관적인 데이터 분석은 불가능합니다. 이번 글에서는 데이터 수집 이후 데이터를 정제할 때 어떻게 기준을 잡아야 할지, 오응답·이상치를 줄이기 위해 어떤 노력을 해야 할지 알아봅니다.

오픈클래스 관련 정보 받아보기

🤔 설문조사 통해 수집한 제로파티 데이터 정제, 꼭 필요할까?
설문조사 경험이 많지 않거나 자주 진행했어도 주로 외부 리서치사 도움을 받아왔다면, 설문 응답 데이터의 정제 필요성에 대해 잘 모를 수 있습니다. 하지만 설문 응답 데이터 역시 분석 전 정제 과정을 반드시 거쳐야 합니다. 불성실 응답·오응답·경향과 크게 다른 이상치 등 데이터가 섞여 있다면 정밀하고 세세하게 데이터를 분석하기 어려울 수 있기 때문입니다.
예를 들어 2059 남녀 대상으로 진행한 설문에서 스마트폰을 이용하지 않는다는 응답이 20% 이상 나왔다고 해봅시다. 이는 국내 스마트폰 보유율이 93% 이상이라는 점을 고려하면 매우 의아한 결과입니다(한국갤럽, 2022년). 이에 스마트폰을 이용하지 않는다고 답한 응답자의 응답 소요 시간을 살펴보면 전체 평균 대비 지나치게 낮은 등 불성실 응답 여부를 파악하고 분석 대상에서 제외할 수 있습니다. 이렇듯 응답 결과를 그대로 받아들이고 분석하기보다, 데이터 정제 과정을 거쳐야만 더욱 정밀하고 세세한 분석을 할 수 있습니다.

데이터 수집 후 정제 전에 꼭 체크해야 할 것

설문을 통해 제로파티 데이터를 수집한 뒤에는 데이터 정제 과정을 거쳐야 합니다. 또한 데이터 정제를 위해서는 수집된 데이터 현황을 살펴봐야 합니다. 이는 데이터에 문제가 없는지, 혹 문제가 있다면 응답자의 불성실이나 실수가 원인인지, 아니면 설문 설계 과정에 문제 원인이 있는지를 파악하는 과정이기도 합니다.

이를 위해서는 데이터 수집 후 응답 메트릭, 응답자 특성, 문항별 응답 수, 응답 성실도, 응답 경향성 관련 지표를 꼭 체크해야 합니다.

응답 메트릭: 설문 진입률·완료율 등 응답자의 설문 참여도를 파악할 수 있는 지표를 말합니다. 진입률은 설문을 얼마나 많이 열어봤는지, 완료율은 설문에 진입한 뒤 얼마나 많이 응답을 마쳤는지를 말합니다. 만약 진입률이 낮다면 설문 발송 채널이 응답자에게 잘 노출되지 않는 것일 수 있으며, 완료율이 낮다면 설문지를 더욱 응답자 친화적으로 구성할 필요가 있습니다.
응답자 특성: 분석 목적에 알맞은 응답자가 참여했는지 알 수 있는 지표입니다. 예를 들어 우리는 신선식품을 온라인으로 주 1회 이상 구매하는 사람을 대상으로 조사하고 싶었는데 그와 다른 응답자가 들어왔다면, 의도한 대로 데이터를 분석할 수 없기 때문입니다. 이에 대상자 조건에 맞지 않는 사람이 응답하진 않았는지 응답자 특성을 꼭 살펴봐야 합니다.
문항별 응답 수: 설문조사는 모든 문항의 응답 수가 꼭 같지는 않습니다. 문항 로직을 활용해 일부 문항은 특정 응답자에게만 노출할 수 있기 때문입니다. 예를 들어 주 1회 이상 신선식품을 온라인으로 구매한다는 응답자에게만 어느 쇼핑몰을 이용하는지를 물어보는 문항을 노출하는 거죠. 만약 설계 과정에서 실수를 하거나 예외 케이스를 고려하지 못해 논리적 오류가 있는 채로 설문을 진행했다면 문항별 응답 수가 의도했던 수치와 다르게 나올 수 있습니다.
응답 성실도: 응답 성실도란 응답 소요 시간·불성실 주관식 응답 등 응답자가 충분히 집중력을 유지한 상태에서 응답했는지 여부를 파악할 수 있는 지표를 말합니다. 이에 만약 문항 수·질문 난이도 등을 기준으로 예상한 응답 소요 시간보다 훨씬 빨리 응답을 마쳤거나, ‘안녕하세요’ 등 질문과 무관한 주관식 응답이 있다면 성실도가 낮다고 보고 해당 데이터를 정제할 수 있습니다.
응답 경향성: 1~4번 항목에 대한 체크를 마쳤다면 마지막으로 응답 경향성을 반드시 살펴봐야 합니다. 수집된 데이터 중 왜 이렇게 응답했는지 설명하기 어려운 결과는 없는지를 살펴보는 과정입니다. 예를 들어 무선 이어폰을 구매하면 보통 얼마나 사용하는지를 ‘개월 수’ 기준으로 주관식으로 답해달라고 한 질문에 360이라고 응답한 사람이 있다면, 단위를 오해해서 이상치에 해당하는 응답을 했다고 생각할 수 있습니다.

🤔 진입률·완료율·소요 시간 등을 파악할 수 있는 설문조사 툴은?
가장 널리 사용되는 구글폼으로는 설문 진입률·완료율·응답 소요 시간 등 데이터 정제 시 활용되는 주요 지표를 파악할 수 없습니다. 간편한 무료 툴인 만큼 기능 제약이 크기 때문입니다. 만약 불성실·이상치 등 데이터를 정제해서 더욱 정밀하게 데이터 분석을 하고 싶다면, 위 지표를 모두 제공하는 오픈서베이를 활용해 보세요. 아래 링크를 통해 구체적인 사용 문의를 할 수 있습니다.
✔️ 오픈서베이 이용 문의하기

제로파티 데이터 품질에 대한 오해와 진실 3가지

위처럼 응답 메트릭·성실도·경향성 등을 파악하다 보면 수집된 응답 데이터의 품질에 대한 오해가 생길 수 있습니다. 이번 파트에서는 데이터 품질에 대한 오해와 진실에 대해 알아봅니다.

1) ‘어떻게 묻는지’에 따라 데이터 품질은 달라질 수 있다

흔히 설문 데이터의 품질은 응답자에 의해 100% 결정된다고 생각하곤 하지만, 이는 오해입니다. 설문 데이터의 품질은 최소 50% 이상 설문 설계 과정에서 결정되기 때문입니다. 어떻게 묻는지에 따라 데이터 품질이 달라진다는 거죠.

아래 이미지가 대표적인 예시입니다. 첫 번째 이미지는 구매 예정인 태블릿PC의 제조업체·운영체제·기술 사양 등을 한 문항에서 매우 구체적으로 묻고 있습니다. 그런데 사실 대다수의 소비자가 태블릿PC를 구매할 때 이렇게 세세한 단위로 의사결정을 하지는 않습니다. 혹 구체적인 답변을 할 수 있는 응답자라도 한 화면에서 한꺼번에 너무 많은 것을 물어본다면, 실수로 오응답을 하거나 불편함 탓에 불성실하게 응답할 수도 있죠. 그럼 데이터 품질은 떨어질 수밖에 없습니다.

다른 이미지도 같은 맥락입니다. 두 번째는 핸드백·스니커즈 등 명품에 대해 지난 12개월 동안 구매한 품목 수와 지출 금액을 모두 입력해달라는 문항입니다. 3~4번째는 수십 가지 형용사를 제시한 뒤 특정 영화에 잘 어울리는 보기를 선택하게 하는 문항입니다. 역시나 한 화면에서 한꺼번에 너무 많은 정보를 물어보고 있고, 참여 의지가 아무리 높더라도 기억에 의존해서 답해야 하는 설문조사 특성상 100% 정확한 응답을 하기 어렵습니다. 이에 데이터 품질을 높이려면 응답 경험을 고려한 설문 UX가 필수입니다.

2) 질문은 ‘응답자 관점’에서 논리적으로 설계해야 한다

논리적으로 설명되지 않는 응답을 모두 부정 응답이라고 오해하기도 합니다. 그런데 이런 응답도 사실 응답자 관점에서 생각하면 납득이 되는 경우가 많습니다. 같은 질문도 응답자가 잘 알고 있는 단어를 사용해서 물어봤는지, 문장이 질문 의도를 오해할 수 있게끔 작성되지는 않았는지에 따라 다르게 응답할 수 있기 때문입니다.

아래 예시를 살펴보겠습니다. 첫 번째 원형 차트는 ‘계좌번호를 보유하고 있는지’에 대한 응답률이며, 두 번째는 ‘입출금 통장을 가지고 있는지’에 대한 응답 결과입니다. 각각 99.6%와 76.7%로 응답률에 큰 차이가 있습니다. 그런데 둘은 사실 단어만 다를 뿐 같은 질문입니다. 번호가 있는 모든 은행 계좌는 입출금이 가능한 통장이기 때문입니다.

그런데도 이런 응답률 차이가 발생하는 이유는 무엇일까요? 사람들이 ‘계좌번호’와 ‘입출금 통장’에 대해 이해하는 바가 다르기 때문입니다. 이에 설문을 할 때는 더 많은 응답자가 쉽게 이해할 수 있는 단어나 문장 표현을 사용하는 것이 필요합니다. 오픈서베이는 중학생도 이해할 수 있는 단어와 문장 표현을 기준으로 삼고 있습니다.

3) 같은 사람의 응답도 응답 시점과 문항 흐름에 따라 다를 수 있다

마지막은 같은 사람의 응답이라면 응답 시점과 문항 흐름이 달라져도 늘 똑같이 나와야 한다는 오해입니다. 사실 같은 응답자의 응답도 응답 시점과 문항 흐름의 영향을 받아 달라질 수 있습니다.

아래 패스트푸드점 이용 관련 설문이 대표적인 예시입니다. 해당 설문은 패스트푸드점 평소 이용 빈도를 초반에 한 번 묻고, 이후 패스트푸드점 관련 다양한 속성에 대한 인식을 평가하도록 한 뒤 평소 이용 빈도를 또다시 물어봅니다. 중간에 패스트푸드점에 대한 태도 문항은 ‘빠르고 쉽지만 맛은 부차적이다’, ‘패스트푸드점 이용 횟수를 줄이고 싶다’, ‘좋아하는 패스트푸드점은 줄 서서 기다릴 수 있다’ 등 패스트푸드점에 대한 긍정적 인식과 부정적 인식을 상세히 파악할 수 있도록 구성됩니다.

흥미로운 점은 패스트푸드점 이용 빈도를 처음 물어볼 때와 다양한 인식 평가 이후 물어볼 때 응답이 달라진다는 겁니다. 앞서 주 2~3회 이용한다고 응답한 사람이 그보다 덜 이용한다고 응답을 바꾸거나, 반대로 처음에는 월 1회 이용한다고 응답한 사람이 월 2~3회 수준으로 더 이용한다고 하는 겁니다. 이는 직관적으로 인식하던 자신의 평소 패스트푸드점 이용 빈도와 패스트푸드점에 대한 다양한 태도 문항에 답하면서 다시 깨닫는 이용 빈도에 차이가 있기 때문에 발생합니다.

그럼 이런 응답은 사용할 수 없는 잘못된 데이터일까요? 그렇지 않습니다. 모든 설문 데이터는 응답자의 인식에 기반한 데이터입니다. 인식은 수학 공식처럼 불변하는 값은 아니지만, 그 자체로 의미가 있습니다. 실제로 해당 설문에서 응답자의 이용 빈도를 묻는 목적도 소비자의 패스트푸드점 이용률을 정확히 파악하는 것과는 거리가 있습니다. 오히려 이용 빈도 문항 결과를 기준으로 헤비·미디엄·라이트 유저 그룹을 나누고, 그룹 간 인식 및 이용 행태를 비교분석하는 목적으로 활용하는 거죠. 이에 응답 시점과 문항 흐름에 따라 응답 패턴이 다소 달라지더라도 부정 응답으로 처리해 분석 대상에서 제외해선 곤란합니다.

제로파티 데이터의 대표적인 정제 기준

앞서 설문 설계와 인식 데이터 특성에 따라 데이터 품질이 달라질 수 있다는 점을 알아봤습니다. 그럼 정제 대상이 되는 제로파티 데이터는 무엇일까요? 아래 이미지를 통해 알 수 있듯이 응답 성실도가 낮은 경우, 응답 경향에서 크게 벗어나는 이상치인 경우가 대표적입니다.

1) 응답자가 성실하게 응답하지 않은 경우

앞서 살펴봤듯 응답 성실도는 응답 소요 시간·불성실 주관식 응답 등 응답자가 충분히 집중력을 유지한 상태에서 응답했는지 여부를 파악할 수 있는 지표입니다. 아래와 같은 응답 메타 데이터를 활용해서 파악할 수 있습니다.

응답 시간이 너무 짧을 때: 설문조사 응답 소요 시간은 일반적으로 1분당 5~6문항 이내입니다. 그런데 응답한 문항 수 대비 소요 시간이 지나치게 짧다면 질문을 제대로 읽고 답한 게 아닐 가능성이 큽니다. 이에 응답 소요 시간이 지나치게 짧은 응답자의 응답은 정제하는 걸 고려할 수 있습니다.
주관식 응답이 무성의할 때: 주관식 문항에서 ‘네네’, ‘굿굿’ 등 무성의하게 답한 응답자의 응답도 정제할 수 있습니다. 이 역시 응답 성실도를 유추할 수 있는 주요 지표입니다.
평가형 문항에서 같은 응답이 반복될 때: 평가형 문항이 연속될 때 ‘3, 3, 3, 3’ 등 특정 점수만 일정하게 찍는 경우도 대표적인 불성실 응답 유형입니다. 반복된 평가형 문항에 집중도가 떨어지면 나타나는 현상입니다. 이런 경우도 성실도가 낮다고 판단해서 데이터를 정제할 수 있습니다.

2) 설계한 질문 범위와 다른 이상치 응답인 경우

이상치는 실수로 오응답을 하거나 질문 의도를 오해하고 답해 응답 경향과 크게 다른 값을 말합니다. 혹은 매우 독특한 인식과 행태를 가진 응답자라서 이상치로 간주해도 무방한 값도 포함됩니다. 이러한 이상치는 데이터 정제 과정에서 제외할 수 있습니다. 다만 이상치 중에서도 왜 이런 응답을 했는지 설명할 수 있는 경우에는 함께 분석하는 게 더욱 풍부하게 데이터를 분석할 기회가 되는 경우도 있습니다. 아래에서는 정제 대상이 되는 이상치에 대해 구체적으로 알아봅니다.

주관식 숫자형 응답이 지나치게 크거나 작은 경우: 숫자 주관식 응답 값이 지나치게 크거나 작은 경우는 이상치일 가능성이 높습니다. 예를 들어 한 달에 지출하는 식재료 구매 비용을 묻는 문항에 지나치게 큰 값이 있다면, 달을 년으로 착각하거나 설문에서 의도한 일반 소비자가 아닌 식당 점주의 응답일 수 있습니다. 이에 주관식 숫자형 응답 값이 지나치게 크거나 작은 경우는 반드시 데이터를 한 번 더 살펴보고 필요시 정제해야 합니다.
객관식 중복형 문항에서 모든 보기를 선택한 경우: 객관식 복수형 문항에서 모든 보기를 선택한 경우도 이상치일 확률이 큽니다. 아래처럼 무선 이어폰을 주로 어떤 상황에 사용하는지 객관식 중복형으로 물어볼 때가 대표적인 예시입니다. 대중교통을 이용할 때와 운전할 때 혹은 강의/수업을 들을 때와 직장에서 일할 때는 함께 선택하기 어려운 보기인데, 여기서 모든 보기를 다 선택한다면 이상치 응답으로 판단하고 정제할 수 있습니다.