지수

[ 유데미 스타터스 ] 33일차 TIL 프로젝트 기반 Tableau 실전 트레이닝 - SuperStore 대시보드, LOD(INCLUDE, EXCLUDE, FIXED) 예제 본문

카테고리 없음

[ 유데미 스타터스 ] 33일차 TIL 프로젝트 기반 Tableau 실전 트레이닝 - SuperStore 대시보드, LOD(INCLUDE, EXCLUDE, FIXED) 예제

하지수지수 2023. 3. 24. 10:00

1. 태블로 실습

- LOD는 RAW 데이터를 꼭 확인해야 함

  ➡ 값이 나외기만 하면 됐다고 생각하지만 필터의 영향을 받음

  ➡ 3~4개 데이터 랜덤으로 뽑아서 확인해 보기, 카운트해보기, 인덱스 삽입해서 필터링 되는 게 있는지 확인해 보기

1.1 INCLUDE 간단 예제

1) 데이터의 깊이가 상대적으로 깊어야 함

2) 집계를 2번 해야할 때 (평균의 최대값, 최소값)

3) 설정한 차원의 영향을 INCLUDE한 차원을 기준으로 결과 출력

 

▶ 예시 1

- 왼쪽은 시/도의 평균 매출, 오른쪽은 시/도안에 있는 도시의 평균 매출 MIN MAX

- INCLUDE에 고정시키고 싶은 차원은 도시(CITY)

- Bay of Plenty는 평균적으로 잘 하고 있는 것 같지만 빈부격차가 많은 시/도라고 이해할 수 있음

 

▶ 예시 2

- 왼쪽은 시/도 평균 매출의 MIN MAX, 오른쪽은 시/도안에 있는 도시의 평균 매출 MIN MAX

- 왼쪽은 개인으로 보는 것 (백만장자와 노숙자를 비교하는 것) -> 인사이트를 하나도 얻을 수 없는 그래프

- 오른쪽은 하나의 카테고리의 평균을 보는 것 (EX. 상위 25% 수익을 가진 사람)

💡 평균이나 MIN MAX가 의미 있는 값으로 전달될 수 있도록 도와주기 위해 INCLUDE를 사용 (둘 다 무조건 정답이 아니라 말이되는 것인지 고려해야 함)

💡 FIXED는 시/도 무슨 상관이야. 나는 도시로 고정을 했는데. (서울 A도시 광주 A도시 -> A의 평균을 보여줌) 그러나 INCLUDE는 INCLUDE한 차원이 있어도 VLOD에 다른 차원을 넣으면 고려함

[TIP] 구구절절 LOD를 설명해야 하면 안쓰는게 맞음

 

1.2 EXCLUDE 간단 예제

1) 특성으로 설정됨

2) EXCLUDE LOD에 명시된 차원을 제외한 후 집계가 이루어지고 VLOD에 맞추어 표현하기 위해 첫번째 단계 결과를 복제함

3) 효과적으로 EXCLUDE를 쓰기 위해서는 EXCLUDE LOD안에서 선언된 차원이 반드시 VLOD에 들어가 있어야 함

4) LOD 식은 항상 RAW LEVEL 값으로 집계를 꼭 씌어주어야 함. ATTR, AVG, SUM상관 없음

   EX) ATTR{EXCLUDE : } 셋 다 결과 똑같은데 ATTR 권장

 

▶ 예시 1

# EXCLUDE_PROFIT_%
SUM([Profit]) / ATTR({EXCLUDE [City] : SUM([Profit])})

- CITY의 PROFIT 합계 / CITY를 포함하고 있는 전체 STATE/PROVINCE의 PROFIT 합계

- ATTR 지우면 오류남. 하지만 집계는 의미가 없음

 

- 끌어오는 100%(STATE/PROVINCE)가 이미 VLOD에 있기 때문에 COUNTRY/REGION을 제거해도 결과가 똑같음

 

 

▶ 예시 2

- SALES-봉투를 기준(차원이 달리지면 안됨. 현재 차원은 하위 범주)으로 SALES-봉투보다 매출이 잘 나왔는지 아닌지

 

 

① SALES-봉투만 표시

IF [하위 범주] = '봉투' THEN [매출]
ELSE NULL 
END

 

② EXCLUDE

{EXCLUDE [하위 범주]: SUM([SALES-봉투])}

** EXCLUDE가 제외한 차원이 VLOD에 있어야 효율적으로 사용할 수 있음

** 하위 범주를 없애기 때문에 앞에 있는 범주의 값을 복사

 

③ 차이

- SALES-봉투를 기준으로 매출이 적게 나왔는지 아닌지 확인

- 집계값으로 틀만 변형시켜 주기 위해 ATTR 사용

SUM(매출)-ATTR([Exclude-봉투])

 

💡 INCLUDE, EXCLUDE는 자유도가 너무 떨어져서 FIXED를 씀. 그러나 FIXED가 VLOD에 있는 차원을 고려하지 않기 때문에 발생하는 문제 때문에 INCLUDE, EXCLUDE를 사용함

💡 LOD는 유연해서 많이 응용할 수 있음. 그러나 RAW 데이터를 꼭 확인하고, 정제되고 깨끗한 테이블에서만 사용 권장

 

1.3 FIXED 이론 & 간단 예제

: 내가 원하는 특정 차원으로 화면을 고정시키는 것

 

1) 화면 VLOD를 고려하지 않고 내가 선언한 그 차원으로 집계하는 것

2) 유연함

3) 결과의 종류는 INCLUDE, EXCLUDE는 측정값만 결과로 나오는데 DIMENSION 필터의 영향을 받음. 필터가 들어가면 계산 결과가 바뀌게 됨

4) FIXED는 차원도 나옴. 특히 날짜, 최근 한 달 등

5) 작동 순서에서 FIXED는 상위에 위치하고 제어하는 개념으로는 CONTEXT FILTERS가 있음

 

 

▶ FIXED에 고정시킨 차원이 VLOD에 있는 경우, 없는 경우

# sales avg by sub - fixed 
{FIXED [하위 범주] : AVG([매출])}

 

▶▶ 예시 1 (FIXED에 고정시킨 차원이 VLOD에 있는 경우)

- 기능적으로 어떻게 작동 되는가. INCLUDE, EXCLUDE와 똑같음

- 하위 범주를 기준으로 범주는 INCLUDE, 제조업체는 EXCLUDE 결과를 보여줌

 

INCLUDE
EXCLUDE

▶▶ 예시 2 (FIXED에 고정시킨 차원이 VLOD에 없는 경우)

- 하위 범주를 고정시키지만 VLOD에 설정할 차원은 시/도와 도시

- EX) 경기도 광주의 매출 평균, 하위 범주가 고정된 매출 평균 (광주 - 백단에서 보관함, 사무용품, 악세서리의 평균을 구함)

 

 

1.4 집합 (FIXED + 필터) 예제

▶ 예시 (FIXED에 고정시킨 차원이 VLOD에 없는 경우)

- 주문 ID가 기준. 시/도에서 0이 넘는(T/F) 주문 ID의 매출 합계 %

# profitable 
{FIXED [주문 Id]: SUM([수익])>0}

- 합계(매출) -> 테이블 계산 -> 구성 비율 -> 옆으로

 

 

1.5  차이점

✔ FIXED

1) 결과가 측정값 또는 차원으로 나옴

2) 뷰에 있는 차원과 상관 없음

 

✔ INCLUDE / EXCLUDE

1) 항상 측정값으로 나옴

2) 뷰에 있는 차원에 영향을 받음

3) INCLUDE : VLOD에서 포함하지 않고 있을 때 어떤 특정 차원을 끌어들여서 함께 고려하고 싶을 떄

4) EXCLUDE : VLOD에 특정 차원이 들어가 있는데 그 차원을 제외하고 계산하고 싶을 때

 

▶ FIXED가 있는데 INCLUDE를 왜 쓸까?

- 결과가 다를 수 있음

 

- 데이터 원본을 확인해야 함

- 데이터 원본 필터 편집 -> 추가 -> 도시/Kota or SQL

 

- Chhattisgarh의 Kota라는 도시가 2개의 시/도에 존재

- FIXED는 도시로 고정하여 시/도 상관 없이 하나의 도시로 판단하였고, INCLUDE는 시/도에 따라 도시를 다르게 판단함

- INCLUDE가 말이 되기 때문에 INCLUDE를 사용함

 


2. 팀 별 과제

💁 나는 회사의 상품 세일즈 트래킹 팀에서 일하고 있습니다. LOD와 그동안 배운 방법을 사용하여 다양한 뷰 포인트로 어느 sub-category or category or product가 잘 하고 있는지, 어디서 어떻게 집중해야 하는지 알고 싶습니다.

 

📢 오늘의 과제

- 대시보드 2개 만들고 대시보드 1개에 대해서만 파워포인트 슬라이드 한 장으로 대시보드가 무엇을 나타내려 했는지 목표 및 설명

- 대시보드 2개를 만들고 1개에 대해서만 PPT 슬라이드 한 장으로 대시보드가 무엇을 나타내려 했는지 설명

- 대시보드 1 : Include or Exclude + 매개변수 넣어서 조정이 가능한 형태로 만들기

- 대시보드 2 : Fixed를 이용해서 자유롭게 구성

- 예시

1) 우리가 판매에 집중해야 하는 주 및 도시는?

2) 카테고리 중 매출은 가장 좋지만 주/도시에 따라 하위 범주의 판매 차이가 많이 나는 곳은? 그렇다면 해당 카테고리는 어느 주에서 판매해야 할까?

3) 판매 주력 상품은 x인데 지금 어떤 카테고리의 상품이 잘 나가고 있을까? 아니면 발 빼야 하는 상품은?

4) 어떤 경우 전체의 평균으로 보는 것이 데이터의 분별력을 떨어뜨립니다. 하나의 필드를 고정시키고 VLOD에서 비포함되어 있는 그래프를 만들었을 때 내가 왜 그 필드를 고정시켜서 분별력을 높이려 했나요?

5) 세그먼트별로 서브 카테고리가 다른 퍼포먼스를 보이나요?

 

2.1 브레인스토밍

1) 데이터 세분화하여 살펴보기

 

2) 주제 아이디어

- 목표 :  매출과 비용을 고려하면서 수익성을 높이는 방법 (효율성을 높이는 방법)

 

▶ 이익이 음수(-)인 프로덕트가 있고, 이들은 대체로 할인율이 높은 것을 발견

▷ 적정 할인율(이익이 음수X)을 지정해주면 어떨까?

 

▶ 선택과 집중

▷ 수익이 높은 지역에 집중하는건 어떨까?

▷ 수익이 높은 상품에 집중하는건 어떨까?

▷ 날짜(계절, 공휴일, 블랙프라이데이)에 집중하는건 어떨까?

 

▶ 어느 상품이 중요하고 이익이 되는가

▷ 가격이 높은 상품을 많이 파는 것 VS 재구매율이 높은 상품을 많이 파는 것 

 

▶ 현황 파악

▷ 지역 별 세부 카테고리의 매출/수익 현황을 파악하는건 어떨까?

▷ 환불한 고객, 물건의 현황을 파악하는건 어떨까?

 

 


회고

오늘부터 시작되는 팀 과제는 자유롭게 주제를 정해야 하다보니 정말 많은 의견이 나왔다. 지역/제조업체/날짜 등 무엇을 기준으로 성과를 보여줄지, 잘 하고 있는 상품 혹은 뺄 상품 중 무엇을 선정할 것인지, 데이터셋에서 사용할 세부 기간과 카테고리는 무엇으로 할 것인지 등등 결정해야 하는 부분이 많아서 혼란스러웠다. 또 이렇게 다양하게 나온 아이디어를 모두 사용하고 싶다는 의욕이 더해져 아직 정확한 주제를 정하지는 못했다. 그래서 일단은 할인율/지역/환불/시계열 이렇게 파트를 줄이고 나눠서 내일 분석 결과를 확인해보기로 했다!! 내일도 화이팅 😜