인사이트

새로운 도구, 전문가의 견해, 활용 가능한 분석 정보를 통해 효과적인 마케팅 운영 및 관련 아이디어를 얻어보세요.

데이터 시각화란? 시각화 툴 추천 등 자주 하는 질문 총정리 [FAQ]


데이터 시각화란? 시각화 툴 추천 등 자주 하는 질문 총정리 [FAQ]

데이터 분석은 좋은 의사결정을 내리기 위해 진행합니다. 수많은 데이터를 정제하고 분석해서 의미 있는 결론을 도출한 뒤에 이를 기반으로 어려운 문제에 대한 의사결정을 더욱 효과적으로 내리는 겁니다. 이때 중요한 것은 복잡한 데이터에서 의미 있는 패턴이나 경향을 시각화하는 것입니다. 그래야 데이터 가독성을 높여서 메시지가 더욱 잘 드러나도록 할 수 있기 때문입니다.

그런데 데이터 작업을 처음 하는 실무자는 데이터 시각화 단계를 중요하게 여기지 않거나, 중요성을 잘 알더라도 데이터 시각화를 잘하는 데 어려움을 겪습니다. 이에 이번 글에서는 데이터 시각화란 무엇이며, 어떤 목적으로 진행하며, 대표적인 데이터 시각화 툴은 무엇인지, 차트 선택 기준은 어떻게 되는지 등 자주 하는 질문을 총정리합니다.

데이터 시각화는 차트·테이블·컬러 등 시각화 요소를 활용해서 데이터 가독성을 높이는 작업을 말합니다. 시각화를 거치지 않은 데이터는 무엇이 중요한지나 어떤 의미가 있는지를 쉽게 파악할 수 없기 때문입니다. 이에 데이터 시각화 작업은 복잡한 것을 단순화하고, 많은 숫자 중에서 중요한 것을 추리고, 의미 있는 방향성과 패턴을 발견하는 과정으로 진행됩니다.

예를 들어 아래와 같은 유통 브랜드별 결제 빈도 및 객단가 테이블이 있다고 해봅시다. 테이블 형태로 데이터가 잘 정리되어 있지만, 어떤 브랜드가 인당 결제 빈도나 객단가·결제자 수가 많은지 한눈에 파악하기는 어렵습니다. 이때 값이 큰 숫자에 컬러 코딩을 하면 좀 더 가독성을 높일 수 있습니다. 또한, 결제 빈도와 객단가를 xy 축으로 삼아서 차트를 그릴 수도 있습니다. 이렇게 같은 데이터라도 인사이트를 더욱 잘 발견할 수 있도록 가독성을 높이고 정리하는 과정을 데이터 시각화라고 말할 수 있습니다.

데이터 시각화의 목적은 크게 3가지입니다. 1) 데이터에 가독성을 더하기 위해서, 2) 데이터에서 의미 있는 패턴을 찾기 쉽게 하기 위해서, 3) 데이터가 전하는 메시지를 잘 부각하기 위해서입니다.

  • 데이터에 가독성을 더하기 위해(Readability): 데이터는 숫자가 많아서 읽기 어렵습니다. 이에 데이터 시각화를 통해 중요한 것들을 뽑거나 중요한 것을 강조하는 작업이 필요합니다.
  • 데이터에서 의미 있는 패턴을 찾기 쉽게 하기 위해(Pattern recognition): 데이터 시각화를 하는 두 번째 목적은 데이터에서 의미 있는 패턴을 더욱 찾기 쉽게 하기 위함입니다. 알맞은 차트를 사용하거나 테이블에 컬러 코딩을 하면 여러 데이터 간의 관계나 패턴을 손쉽게 찾을 수 있습니다.
  • 데이터가 전하는 메시지를 잘 부각하기 위해(Storytelling): 마지막 목적은 데이터가 전하는 메시지를 잘 부각하기 위해서입니다. 이에 데이터 시각화를 할 때는 의도한 메시지가 충분히 부각되거나 잘 드러나는지 반드시 최종 검토해야 합니다.

대표적인 데이터 시각화 툴은 엑셀, 구글 스프레드시트, 파이썬, 오픈애널리틱스, R스튜디오, 루커 스튜디오, 태블로, 파워포인트, 구글 슬라이드를 꼽을 수 있습니다. 다양한 시각화 툴은 얼마나 대중적인 툴인지와 얼마나 시각화 중심의 툴인지를 기준으로 고유의 특징을 살펴볼 수 있습니다. (아래 이미지 참고)

  • 엑셀·구글 스프레드시트: 매우 대중적인 툴로 기업 실무자는 물론 학생이나 일반인도 많이 사용하는 데이터 분석 및 시각화 툴입니다. 다만 시각화보다는 분석 중심의 툴이라고 볼 수 있습니다.
  • 파워포인트·구글 슬라이드: 파워포인트와 구글 슬라이드 역시 굉장히 대중적인 툴입니다. 도형·차트·테이블 등 다양한 도구를 자유롭게 사용해서 분석한 데이터를 시각화하는 데 주로 활용됩니다.
  • 파이썬·R스튜디오: 분석 중심의 시각화 툴 중에서도 상대적으로 높은 전문성이 요구되는 툴입니다. 파이썬의 경우 파이썬 코드 및 라이브러리 사용 방법을 충분히 숙지해야 잘 사용할 수 있으며, R스튜디오는 R 언어를 구사할 수 있어야 사용할 수 있습니다. 사용 난이도가 높은 대신 머신러닝 등 고급 분석 기능도 지원합니다.
  • 태블로: 태블로 역시 상대적으로 전문성이 크게 요구되며, 파이썬·R스튜디오와 비교할 때 좀 더 시각화에 중점을 둔 툴입니다. 이에 사용 방법을 충분히 익힌다면 다양한 종류의 차트나 대시보드를 만들 수 있습니다.
  • 루커 스튜디오: 구글에서 제공하는 루커 스튜디오는 태블로와 유사한 툴인데, 무료로 이용할 수 있는 기능이 많아서 상대적으로 좀 더 대중적인 툴이라고 볼 수 있습니다.
  • 오픈애널리틱스: 오픈서베이가 자체 제작한 데이터 분석 및 시각화 툴입니다. 파이썬이나 태블로와 비교할 때 요구되는 전문성이 상대적으로 낮은 편이며, 데이터 분석 및 시각화 관련 기능을 고르게 제공합니다.
오픈애널리틱스 데이터 분석 및 시각화 화면 예시

💡오픈애널리틱스는 어떤 툴일까?

오픈애널리틱스는 오픈서베이가 자체 개발한 웹 기반 데이터 분석 툴입니다. 객관식·주관식·평가형 등 다양한 유형의 설문 데이터 분석에 최적화된 인터페이스와 사용자 경험을 제공하며, 전문적인 데이터 분석 툴 관련 지식이 없더라도 문항 간 교차분석 및 결과 보고서 작성 등 작업을 손쉽게 수행할 수 있습니다.

✔️ 오픈애널리틱스 더 알아보기

데이터 시각화 툴을 선택할 때는 3가지 기준으로 고려를 해보는 것이 좋습니다. 1) 분석하려는 데이터 특성이 어떻게 되는지, 2) 얼마나 고도화된 분석 및 시각화 기능이 필요한지, 3) 분석한 데이터를 얼마나 자주 공유해야 하는지입니다.

  • 분석하려는 데이터 특성이 어떻게 되는지: 첫 번째 기준은 데이터 특성입니다. 예를 들어 데이터 사이즈가 얼마나 큰지, 매출 데이터처럼 합산이나 연산 작업이 반드시 필요한지, 사용자 데이터처럼 특정 조건에 해당하는 사람의 숫자를 세거나 교집합을 계산하는 등 집합 연산이 필요한 데이터인지, 동적인 업데이트가 많은 데이터인지입니다. 이러한 데이터 특성에 따라 적합한 툴은 달라질 수 있습니다.
  • 얼마나 고도화된 분석 및 시각화 기능이 필요한지: 두 번째 기준은 고도화된 분석 및 시각화 기능이 필요한지입니다. 분석과 시각화 기능이 고도화된 툴일수록 사용 방법을 학습하는 시간과 노력이 많이 들기 때문입니다. 이에 툴 사용을 위해 학습에 얼마나 많은 시간을 투자할 수 있는지를 기준으로 고민하는 과정도 필요합니다.
  • 분석한 데이터를 얼마나 자주 공유해야 하는지: 모든 데이터 관련 작업은 공유 및 협업 과정이 매우 중요합니다. 데이터를 분석하고 의미 있는 메시지를 중심으로 시각화하는 이유는 관련된 다른 사람이 함께 볼 수 있도록 공유하는 데 있기 때문입니다. 이에 분석한 데이터를 함께 봐야 하는 사람이나 협업 대상이 누구인지, 얼마나 자주 공유해야 하는지를 기준으로도 툴을 선택할 수 있습니다. 만약 공유를 자주 해야 하고 협업자가 함께 분석하거나 시각화할 수 있도록 하려면 관련 기능을 제공하는 데이터 시각화 툴을 선택해야 합니다.

파워포인트·구글 슬라이드와 루커스튜디오 및 태블로를 기준으로 살펴보겠습니다. 파워포인트와 구글 슬라이드는 보편적으로 많이 사용하는 시각화 툴이며, 태블로와 루커 스튜디오는 다양한 시각화 유형과 데이터 연결 등 고급 기능을 지원하는 툴의 대표적인 예시입니다.

먼저 파워포인트와 구글 슬라이드는 이미 분석한 정보를 시각화하는 데 최적화된 툴입니다. 엑셀 등 다른 툴을 활용해서 Raw Data를 분석한 결과를 다양한 차트와 도구를 활용해서 시각화하는 거죠. 이에 파워포인트로 시각화한 데이터는 만든 뒤에는 업데이트가 되지 않는 정적인 형태입니다. 그렇지만 사용자층이 매우 넓고 많은 이들에게 익숙한 툴이며, 최근에는 파워포인트와 연동해서 동적인 데이터를 다룰 수 있는 Power BI라는 툴이 나오면서 단점을 보완하고 있습니다.

한편, 루커 스튜디오와 태블로는 데이터 분석과 시각화를 모두 지원하는 툴입니다. 파워포인트로는 쉽게 할 수 없는 다양한 분석 기능을 제공하며, 클라우드에 저장된 데이터를 연결해서 중간 분석 과정 없이 바로 데이터를 시각화할 수도 있습니다. 새로운 데이터가 추가될 때마다 분석 결과에 반영되는 동적인 데이터 시각화 툴이기도 하고요. 또한, 관련 부서에 분석 결과를 원활하게 공유할 수 있는 협업 및 공유 기능을 갖추고 있으며, 사용자가 직접 설정할 수 있는 필터나 테이블 다운로드 등 기능을 제공합니다.

이에 데이터 시각화 툴을 선택할 때는 위처럼 각 툴의 특성을 살펴보고 우리는 어떤 데이터 시각화 작업이 필요한지에 대해 고민해 보는 것이 좋습니다. 전문적인 툴 사용이 익숙하지 않고 분석보다는 정적인 데이터 시각화 작업이 필요하다면 파워포인트나 구글 슬라이드를 선택할 수 있고, 좀 더 전문적인 분석 기능과 동적 업데이트가 필요한 데이터 시각화 작업이 필요하다면 루커 스튜디오나 태블로를 선택할 수 있습니다.

결론적으로는 아닙니다. 데이터 관련 작업을 처음 하는 경우에는 아래 이미지 속 1번처럼 데이터 > 분석 > 시각화 > 강조 > 메시지 과정으로 생각하기도 합니다. 하지만 데이터 시각화 작업은 분석 이후가 아니라 분석과 함께하는 작업입니다. 효과적인 데이터 작업을 하기 위해서는 가설을 세우고 검증하는 작업을 시각화 단계 전후로 반드시 가지는 것이 좋습니다.

즉, 가설 > 데이터 > 분석 및 시각화 > 가설 검증 > 시각화 보완 > 강조 > 메시지 순서로 데이터 시각화 작업을 해야 합니다. 데이터를 통해 어떤 인사이트를 발견하고 싶은지나 분석 결과는 어떤 식으로 나올지에 대한 가설을 미리 세워보고, 이를 기반으로 데이터를 분석 및 시각화한 뒤에 이를 검증하고 보완하는 작업을 거치는 겁니다. 이때 데이터의 패턴을 찾고 시각화해 보는 분석 및 시각화 단계와 가설 검증 이후 보완하는 단계에서 데이터 시각화 툴을 활용하게 됩니다.

데이터 시각화 시 자주 활용하는 방법이 차트를 만드는 겁니다. 그럼 어떤 상황에 어떤 차트를 선택해야 할까요? 차트는 분석 목적과 변수 유형을 고려해서 선택하는 것이 좋습니다. 분석 목적과 변수 유형에 대해서는 아래에서 좀 더 구체적으로 살펴보겠습니다. (이미지 참고)

1) 분석 목적

데이터를 분석하고 시각화하려는 목적이 무엇인지에 따라 선택할 수 있는 차트가 달라집니다. 일반적으로 분석 목적은 요약, 구성, 비교, 분포, 관계 변화까지 6가지로 나눠서 살펴봅니다. (이미지 참고)

  • 요약(Summary): 수많은 데이터포인트를 1~2개의 값으로 요약해 보고자 할 때
  • 구성(Composition): 전체를 구성하는 항목과 그 구성비를 확인하고자 할 때
  • 분포(Distribution): 수치형 변수에서 값이 어떻게 분포하는지 보고자 할 때
  • 비교(Comparison): 비교 대상 간 크기의 차이, 구성의 차이를 비교해 보고자 할 때
  • 관계(Relationship): 2개의 서로 다른 변수 간 관계를 확인하고자 할 때
  • 변화(Evolution): 하나 또는 여러 개 변수의 값이 시간에 따라 어떻게 변하는지 확인하고자 할 때

2) 변수 유형

변수는 데이터의 구성 요소 중 하나로 측정하거나 계산할 수 있는 항목을 뜻합니다. 설문 결과 데이터에서 예를 찾아보면 나이·성별·지역·응답 결과 등이 변수에 속한다고 할 수 있습니다. 이러한 변수는 항목형, 순서형, 수치형, 문자, 위치, 날짜까지 크게 6가지 기준으로 유형을 나눌 수 있으며, 이에 따라 알맞은 차트도 달라집니다. (이미지 참고)

  • 항목형(Nominal): 데이터 처리를 위해 숫자 값을 부여하지만, 그 값의 크기와 순서는 특별한 의미가 없는 변수 ex) 성별·지역 등
  • 순서형(Ordinal): 값의 크기에 순서의 의미가 있지만, 간격의 크기가 일정하다고 볼 수 없는 변수 ex) 학력·만족도 등
  • 수치형(Interval, Ratio): 값의 간격 차이가 일정하거나 비례관계가 성립해서 사칙연산이 가능한 변수 ex) 금액·무게(kg)·색온도(K) 등
  • 문자(String): 문자열로 구성된 변수 ex) 주관식 단답형·서술형 응답 등
  • 위치(Geolocation): 약속된 코드나 위경도 등으로 위치를 나타내는 변수 ex) 국가명·지역명 등
  • 날짜(Date): 연월일시나 분초 단위로 날짜와 시간을 표현한 변수