위어드섹터 공식 블로그

뇌가 사랑한 데이터, 데이터 시각화 본문

흥미로운 발견

뇌가 사랑한 데이터, 데이터 시각화

위어드섹터 2022. 9. 20. 16:48

안녕하세요. 래빗 그로스해킹팀입니다.

여러분은 데이터, 중요하다는 것은 알겠는데 어디서부터 무엇을 봐야 할지 막연하게 느껴지지 않으셨나요? 데이터를 조금 더 쉽게 보면 좋을텐데 말이죠.

 

데이터 시각화는 그런 여러분과 우리의 고민을 해결해 주는 열쇠가 될 것 같아요.

 

데이터 시각화란 무엇일까요?

데이터 시각화는 정보를 지도나 그래프와 같은 시각적 맥락이 있는 형태로 만들어 인간의 뇌가 데이터를 더 쉽게 이해하고 통찰력을 얻을 수 있도록 하는 방법입니다. 시각화를 하는 주요 목표는 대규모 데이터(빅데이터)에서 패턴, 추세, 이상값을 쉽게 식별하기 위함입니다. 

뇌는 글보다 그림을 좋아하니까요 :)

 

 

러시아 전역에서 프랑스군의 손실을 보여주었던 인포그래픽 : 시각적 맥락이 있는 형태로 만들어져 이미지 하나로 추이를 알 수 있다.

 

데이터 시각화라는 분야는 비즈니스에서 사용자들의 구매 패턴을 파악하거나, 주요 타겟을 확인하는 등에 사용되지만 사실 거의 모든 분야에서 중요합니다. 교사가 학생들의 시험 결과를 시각화해 이번 시험의 난이도를 확인하거나, 대선에서 후보들의 공략에서 추출한 키워드로 주로 전달하는 후보들의 메시지를 빠르게 파악하여 투표에 참고할 수 있겠죠.

 

단순히 현재의 데이터를 확인하는 것을 넘어서 향후 예측이나 액션 플랜을 세우는데 빠르게 적용할 수 있다는 것이죠.

 

 

데이터 시각화 왜 중요할까?

시각화 특유의 효과적이고 빠른 정보 전달 방식은 고객 행동에 영향을 미치는 요인을 보다 빠르게 식별할 수 있습니다. 개선이 필요하거나, 주의가 필요한 부분을 찾아내며, 데이터를 통해서 근거 있는 사용성 개선을 위한 체크리스트를 만들 수 있습니다. 

 

시각화의 이점을 정리하면

 

  1. 빠른 의사결정에 효과적입니다.
  2. 단계별 플랜을 만들기 용이하며 그 과정에 대한 이해도가 증가합니다.
  3. 쉽게 이해가 가능하므로 관계자 외에도 여러 사람에게 관심을 유발하고 아이디어를 받기에 용이합니다.
  4. 데이터를 이해하는데 시간을 들이지 않아도 됩니다.
  5. 액션플랜을 실행하고 결과에 따라 빠르게 의사결정을 할 수 있게 됩니다.

 

결국 쉽게 말해서 비즈니스 성장에 있어 필요한 일련의 활동에 효율성이 높아진다고 볼 수 있습니다. 

 

그러면 빅 데이터 시대에 존재감이 뚜렷해지는 시각화의 표현 방법들을 살펴보면서, 어떻게 활용할 수 있을지 알아보도록 하겠습니다.

 

 

빅 데이터 시각화의 예시

시각화가 좋은건 알겠는데, 어떤 데이터들은 시각화가 된 것을 보아도 어려운 것 같습니다.

시각화도 단순 이미지화가 아니라 데이터의 맥락에 맞게 적절한 차트를 사용해야 하는데요.

여러 예시를 보면서 우리 데이터를 어떻게 보여줘야 쉽게 보여줄 수 있을지 한번 고민해보도록 해요.

 

 

1. 파이차트

 

예시 이미지 : 도넛차트로 사이트 내 유입인구의 남녀 비율(중앙), 연령별 비율(우) 

 

 

하나의 원을 여러 조각으로 나눈 원 그래프입니다. 전체 1 대비 여러 구성 요소들의 비율을 알 수 있다는 특징이 있습니다. 예를 들면 사이트에 유입되는 방문자의 남녀 비율과 연령별 사용자 비율을 나타내는데 사용될 수 있겠죠.

 

예시 이미지의 왼쪽처럼 파이차트 기본 모양도 있지만 오른쪽 이미지들처럼 가운데 구멍이 뚫린 ‘도넛 차트'도 파이차트와 비슷한 맥락으로 사용되는 차트입니다. 특징은 가운데 도넛 부분에 타이틀을 넣어 이해를 도울 수 있다는 장점이 있죠. 

 

중앙 이미지 - 성별 혹은 남성(수치가 높은 것 표기)

우측 이미지 - 연령 혹은 25-34(수치가 높은 것 표기)

 

 

2. 히스토그램

 

 

x축에는 계급을 y축에는 도수를 표현하는 차트입니다. 예를 들면 어릴 때 수학책에서 봤음직한 학생들의 평균점수가 될 수 있죠. 0-10점, 10-20점, 20-30점 … 90-100점 이런 식으로 x축 구간을 만들고 학생들의 점수가 어떠한지 해당되는 구간에 학생수를 y축으로 찍어봅니다. 이를 간격이 없는 막대그래프로 표현하면 히스토그램이 되는 것입니다.

그러면 한 반의 혹은 한 학년의 시험 점수 결과에 대한 분포를 얻을 수 있겠죠?

 

 

-> 히스토그램과 막대그래프의 차이

 

특정 기간 동안 각 날짜의 매출 히스토그램과, 가장 높고 낮은 매출을 비교하는데 효과적인 막대그래프

 

 

가장 두드러지는 차이는 히스토그램은 막대 사이가 붙어있고, 막대그래프는 막대 사이가 떨어져 있다는 것입니다. 히스토그램은 주로 흐름을 갖은 것으로 24시간 동안 각 시간대별 유입한 500명에 대한 지출액의 분포를 확인한다면, 막대그래프는 어떤 시간에 가장 많은 지출이 발생하고 어떤 시간에 가장 적은 지출이 발생하는지 확인하는 것에 용이합니다.

 

 

3. 산점도

 

산점도는 두 개의 변수 사이의 관계를 나타내는 것인데요. 예를 들면 먹는 양과 체중은 상관이 있다는 가설을 세웠다고 했을 때, 먹는 양(x축) 체중(y축)으로 잡고 먹는 양이 많을수록 체중도 높은 증가하는 산점도가 만들어진다면, ‘두 항목 사이에 상관관계가 있다’라고 말할 수 있는 것입니다.

 

 

비즈니스에서 사용되는 그래프로 한번 더 살펴보겠습니다. 총 사용자(x축)와 총 수익(y축)의 상관관계를 만들었습니다. 사용자가 많아질수록 전반적으로 수익도 높아지는 차트가 만들어 지죠? 이미지의 차트처럼 ‘높아지는 산점도’가 나오기도 반대로 ‘낮아지는 산점도’가 나오기도 합니다.

혹은 ‘상관관계가 없음’의 형태를 띄기도 합니다.

 

 

4. 버블클라우드

 

bubble chart라고 불리는 이 표기방식은 3차원으로 데이터를 표현할 때 효과적이라고 알려져 있습니다. 1) x축 2) y축 3) 버블의 크기 이렇게 세 가지 차원에서 데이터를 보여줄 수 있어요.

산점도에서 발전된 형태로 만드는 과정을 살펴보시면 빠르게 이해가 될 것 같아요.

 

 

     - 버블클라우드 만들기

 

 

1)  각 A,B,C…라는 경쟁사의 a. 시장 점유율(market share), b. 판매량(sales), c. 전년 대비 매출 성장(sales growth), d. 지역(region)으로 구분된 표를 만듭니다.

 

 

2)  a. 시장 점유율(x축)과 b. 판매량(y축)의 차트를 만드는데요. 바로 산점도를 만드는 방법입니다.

 

 

3)  여기에 버블의 크기로 전년대비 매출 성장을 추가할 수 있습니다.

 

 

4)  마지막으로 색을 넣음 으로써 주요 지역을 표기할 수 있는 것이죠.

 

어떠신가요 시장점유율이 크지 않은 기업들이 전년 대비 성장이 높다는 것이 보이시나요? 지연은 NA에서는 시장점유율이 크고 판매량도 비슷한데, APAC에서는 아직 시장점유율이 크지 않은 기업들이 보입니다. 

 

버블클라우드 차트에서는 막대그래프처럼 수치가 차이가 덜 나는 것보다 크게 나는 것이 효과적인데요. 10이라는 크기의 버블과 9라는 크기의 버블은 시각적으로 크게 차이나 보이지 않기 때문이라는 것 이제 아시겠죠?

 

버블차트 내용 참고 https://www.storytellingwithdata.com/blog/2021/5/11/what-is-a-bubble-chart

 

 

5. 히트맵

 

 

루게릭 병을 앓던 스티븐 호킹 박사님의 시선의 움직임(eye-tracking)으로 마우스를 움직이며 연구를 하시던 모습을 뉴스로 접하고 상당히 인상적이었는데요. 웹 상에서 그와 비슷한 맥락으로 개발된 것이 바로 히트(heat) 맵(map)입니다.

 

사용자의 마우스의 움직임을 나타내며 클릭이 많이 발생하는 곳은 붉게, 많이 발생하지 않는 곳은 푸른색으로 표기되는 방식입니다. 

 

이미지 출처 : hotjar.com 사이트

 

 

사이트 내에서 사용자의 활동을 직관적으로 파악할 수 있고, 일반적으로 스크롤을 내릴수록 푸른색이 많이 보이는데 그런경우 페이지의 품질도 측정과 연관시킬 수 있습니다. 또한 클릭이벤트 예를 들어 무효클릭을 잡아 사용자들이 클릭하고 싶은 형태가 어떤 것인지도 확인할 수 있습니다. 

 

 

6. 시계열 차트

 

시계열 차트는 시간의 변화에 따라 데이터의 동작을 분석하는데 주로 사용됩니다. 시계열 차트라는 말 그대로 시간이 중요한 차트입니다.

 

이미지 출처 : https://www.opengirok.or.kr/888

 

위 이미지처럼 범죄 발생이 가장 많은 시간을 나타낼 때 시계열 차트로 표현하면 보다 효과적으로 정보를 전달할 수 있을 것입니다. 많은 분들이 예상하는 것처럼 밤에 범죄가 많이 발생하죠?

 

이미지 : ga4 그래프 일부

 

인스타그램처럼 자주 들어가는 브랜드는 시간 혹은 DAU가 중요하며, 여행 앱 같은 경우는 MAU가 중요하듯이, 시간의 범위를 맞추면서 우리 비즈니스에 필요한 홍보 전략, 마케팅 전략, 성장 전략 등을 만들어 내는 것의 초석이 될 수 있답니다.

 

소개해드린 6가지 시각화 방법 외에도 무수히 많은 시각화 방법이 있는 것 같아요. 늘 그렇듯 시각화를 하는 것 이전에 가장 중요한 것은 데이터를 정리하고 무엇을 볼 것인가, 어떤 식으로 볼 것인가를 생각하는 것이겠죠?

 

 

마치면서

 

로우 데이터를 처음 보았을 때, 로그 분석 툴을 처음 활용하게 되었을 때, 데이터라는 금광에서 어떻게 금을 채집할까 고민을 많이 했던 것 같아요. 좋아 보이긴 하는데 뭘 봐야 할지 모르겠다…

 

그럴 때 제일 처음 보면서 이해했던 것이 GA로 예를 들면, 인구통계 부분이었어요. 파이차트와 막대그래프로 확연하게 성별, 연령별 유입자 분석이 보였거든요. 우리 비즈니스에 남자가 많이 들어오는지, 여자가 많이 들어오는지만 알아도 광고 컨셉부터 바뀔 수 있죠. 1초 만에 분석하고 성장을 위한 플랜을 세우는 거예요.

 

그러면 지금 보지 못하는 한눈에 들어오지 않는 이 데이터들을 보고 또 어떤 성장 방법을 고민할 수 있을까요? 우선 데이터를 한눈에 들어오게 해주면 뭔가가 보이지 않을까요? 

 

모든 것이 빅 데이터화가 되고, 데이터에 의한 의사결정이 자연스러워지면서 데이터 시각화에 대한 필요성도 높아지고 있는 것 같습니다. 이 글이 여러분들의 시각화에 대한 관심에 도움이 되었으면 좋겠습니다.

 

감사합니다.

 

 

 

 

 

 

블로그 구독자 문의 주소 : info@weirdsector.co.kr

그로스 해킹 파트너, LABBIT 바로가기

LABBIT을 운영하는 Team 위어드섹터 만나러 가기