데이터 분석가의 고민노트 .01
1. 씨앗 통계 Seed Statistics
지난번 얘기했던 기본적인 인구통계 분석으로 아래 밑그림을 그렸다고 칩시다.
- 전체 구매자 10,000명 중에서 3,000명 가량이 모델 A(준중형 SUV)를 골랐음
- 모델 A의 평균 구매 연령은 30대 후반임
- 남녀 성비는 1:1 정도임
이정도로 기초적인 분석이 되었다면 그 다음으로 필요한 작업은
"대상의 특징을 잘게 쪼개어보기"
입니다.
해당 차량의 특징과 함께 주요 고객 특성을 세세하게 살펴볼수록 좋습니다.
2_1. 판매상품 특성 쪼개어보기 Dissect Product
"모델 A"라는 제품이 있다고 칩시다.
그러면 먼저 "모델 A"는 어떤 특징을 갖는지 먼저 쪼개어 볼까요?
1) 크기는 성인 두, 세명이 타기에 편안한 정도
2) 사이즈가 작고 하이브리드기 때문에 연비가 좋음
3) 대형 차량에 비해 가격이 저렴함
4) 편의 사양은 많지 않지만 잔고장이 적고 안전하다고 알려져있음
라는 분석이 가능할 것 같습니다.
이처럼 상품에 대한 정보는 대부분 그대로 나와있는 정보이기 때문에, 딱히 검증이 필요하진 않겠네요.
물론, "실제로 성인 남성 3명이 여유롭게 탈 수 있다" 같은 평가는 직접적인 실험을 통해 검증해볼 수 있고
이같은 특징들을 종합하는 "차량에 대한 전반적인 평"의 경우 SNS, 커뮤니티 크롤링 등을 통해 확인해보면 좋겠습니다.
2_2. 구매자 특성 쪼개어보기 Dissect Buyers
고객에 대해서는 "30대 후반", "남녀 성비가 5:5"라는 정보가 있었죠?
그 외에 궁금한 내용에 대해서 분석 계획을 짜기 위해 리스트화가 필요합니다.
알아보고 싶은 내용들을 예를 들자면,
1) 결혼 여부
2) 자녀의 수
3) 경제력
4) 거주 지역
5) 차량을 선택할 때 고려하는 다른 요소들
등이 되겠네요.
상세히 나누자면 얼마든지 잘게 나눌 수 있는 부분이지만,
분석에 들일 시간과 자원이 한정되어 있기 때문에
"고객이 자동차를 구입할 때 영향을 미칠 요소" 에 집중하여 특성을 추출하는게 좋습니다.
그 중에서는 가격 지불 여력이 가장 중요한 요소일 것이고,
어떤 상황에 차량을 주로 사용하는지 등이 고객을 분류하는 지표가 될 수 있습니다.
단순히 출퇴근용으로만 차를 사용하겠다는 분과, 주말 캠핑까지 생각하시는 분들이 중요하게 보는 차량 특성이 다르니까요.
(여유가 있다면 MBTI 성격검사와 차량 구입의 상관관계처럼 흥미로운 주제로 분석해보는 것도 재밌겠네요.)
다만, 직접적으로 받을 수 있는 데이터로는 앞서 분석한 나이와 성별 이상을 알기 힘듭니다.
특히 개인정보에 민감한 요즘에는 고객이 자기 자신에 대해 극히 일부만 얘기해주기 때문이죠.
설문조사를 사용하더라도 지문을 잘 설계해야 편향이나 함정에 빠지는 것을 피할 수 있습니다.
그렇기 때문에 고객 다수에 대해 시시콜콜한 것까지 알아내고, 그것에 대한 확신까지 가지기 위해서는
가정과 간접 검증 과정이 필요합니다.
3_1. 가정 Set Theories
그렇다면 고객 분석의 첫 단계로 가정을 세워 봅시다.
앞서 쪼개어본 구매자 특성을 이용하면 한결 편하게 가정을 세울 수 있습니다.
일반적인 30대 후반의 사람들은 (1)적당히 업무 경력을 쌓았을 것 같고 (자영업자든 회사원이든),
(2)경제적 여유도 어느정도 생겼을 겁니다.
또, 요즘엔 이야기가 달라지고 있지만 (3)결혼을 했을 가능성도 높아보이고 (4)아이도 하나 이상은 있을 것 같네요.
경력, 경제적 여유, 결혼여부, 자녀여부 등 알아보고 싶은 요소에 기반하여 가정을 세워보았습니다.
3_2. 간접 검증 Indirect Proof
이제 앞서 세운 가정을 검증해봐야 합니다.
만약, 위 요소들 중에서 결혼 여부를 알고 싶다면, 직접 묻지 않고 어떻게 알 수 있을까요?
직접적으로 질문을 할 수는 없다고 치죠.
이럴때 저같으면,
한 차량을 두 사람이 함께 이용하고 있는지 여부를 확인할 것 같습니다.
만약, 두 사람이 한 차를 이용하는 것으로 등록이 되어 있다면
"기혼자가 이 차량을 사용하고 있다"
라고 얘기할 가능성이 높아집니다.
물론, 사람이 기록하는 것이라 누락이 있을 가능성이 높겠죠?
그러므로 최대한 기록 누락이 없는 데이터를 활용하는 것이 중요합니다.
다음 예시처럼 말이죠.
어떤 차량에 대해 구매 기록 1건과 서비스센터 입고 기록 5건을 사용할 수 있다고 가정해 봅시다.
여기서는 고객 명의와 주민번호 7자리를 받아뒀다고 해보죠.
주민번호는 미리 가공해서 나이와 성별을 추출했습니다.
기록을 보시면,
1) 차량을 출고한 고객은 김희원 씨(34세 여성)입니다.
2) 4건의 서비스 기록 중 3건은 김희원 씨, 2건은 장기철 씨(38세 남성)로 되어 있습니다.
(예시입니다)
촉이 오시나요?
남자가 4살 연상이고 두 사람의 성이 다르다는 점에서 미루어보아 두 사람은 부부로 볼 수 있을 것 같습니다.
이처럼 탐정이 진범을 가려내는 것처럼 데이터 분석을 해야 할 때도 있습니다.
4. 분석 결과 Analysis Result
이처럼 가정과 간접 증명의 순환고리를 통해 파악한 고객 특성은 다음과 같았습니다.
(1) 평균 연령 : 30대 후반
(2) 일을 시작한지 8년 이상일 확률 : 93%
(3) 경제적 여유 : 카드 사용액 기준 상위 30%
(4) 기혼일 확률 : 76%
(5) 기혼자 중 아이가 하나 이상 있을 확률 : 82%.
(가정입니다)
+ 보통 이렇게 깔끔하고 명확하게 고객 특성이 파악되는 일은 잘 없겠지만, 스토리 진행을 위해 넘어갑시다^^
이러한 고객 특성을 앞서 파악했던 차량 특성과도 연결지어 볼 수 있습니다.
1) 크기는 성인 두, 세명이 타기에 편안한 정도 >> 어린 자녀가 한둘 정도 있는 가족이 타고 다니기 적합
2) 사이즈가 작고 하이브리드기 때문에 연비가 좋음 >> 유지비를 절약을 중시하는 사람, 차를 탈 일이 많은 사람에게 적합
3) 대형 차량에 비해 가격이 저렴함 >> 차량 이외에 다른 일에 돈이 많이 들어갈 사람에게 적합
4) 편의 사양은 많지 않지만 잔고장이 적고 안전하다고 알려져있음 >> 차량 정비에 대해 관심 없거나 잘 모르는 사람에게 적합
이렇게 놓고 보니 차량의 어떤 특성이 고객에게 어필했는지 구체적인 연관성을 파악할 수 있습니다.
"모델 A"는
"30대 후반이면서 적절히 여유가 있고, 기혼에 자녀가 한둘 있으며, 차가 필요하지만 크게 자동차 자체에 신경쓰고 싶지는 않은"
고객들이 좋아할 만한 차로 보입니다.
만약 제조사에서 차량을 설계할 때 실제로 위와 같은 "30대 후반에 있는 고객의 특징들"을 염두에 두고 차량의 주요 특징들을 기획했다면
예상 고객과 실제 고객이 딱 맞아떨어지는 것을 보며 쾌재를 불렀겠네요.
5. 다음 단계 Next Steps
이 분석의 끝이
"이렇게 우리의 고객을 한발짝 더 깊게 알게 되어 참으로 유익하고 보람차며 기뻣읍니다. 끝"
...
은 아니겠죠?
우리는 알아낸 고객특성을 비즈니스에 활용하는 단계까지 만들어야 데이터 분석 일을 계속 할 수 있습니다.
명확한 성과로 고용인들을 만족시켜주지 못한다면
그분들은 "차라리 화장실 청소라도 하는게 쓸데없는 데이터 분석보다 회사에 도움되는 일"이라고 생각하실 수도 있으니까요..
그러므로, 사업 계획이든 마케팅이든
위 분석결과를 십분 활용하여 "사업 기획"을 해내야 합니다.
이 내용은 다음 글에서 잇도록 하겠습니다.