본문 바로가기
AI 및 데이터 분석

Dataiku - 레시피 활용 (2) (+ Statistics Worksheet)

by riML 2023. 6. 3.
아래의 튜토리얼 내용은 dataiku academy 자료를 참고하여 제작되었습니다.

안녕하세요.

데이터를 집계하기 위해 시각적 레시피 중 Group 레시피를 활용 해보도록 하겠습니다 : )


Group 레시피
Group 레시피는 데이터셋에서 특정 열(또는 열들)을 기준으로 그룹화하여 데이터를 집계하는 작업을 수행하는 도구입니다. 예를 들어, 고객, 제품 , 시간 단위 등의 그룹화된 데이터를 집계하여 각 그룹의 통계적 정보를 얻을 수 있습니다. 

 

위의 예시는 고객을 그룹키로 설정하고, AMT 열의 MAX, SUM 을 집계함수로 선택했다. 즉 고객 별 가장 높은 구매양과 총 구매 합계를 확인할 수 있다.


Group 레시피를 사용하는 방법

1. 그룹 키 선택
그룹 키 열(또는 열들)을 선택합니다. 이는 그룹화의 기준이 될 열입니다. 예를 들어, 주문 데이터를 고객별로 그룹화하려면 고객 열을 선택합니다.


2. 집계 함수 선택

각 그룹에 대해 어떤 계산을 수행할지 집계 함수를 선택합니다.
Dataiku는 다양한 종류의 집계 함수를 제공합니다. 예를 들어, 최대값, 최소값, 평균, 합계 등을 계산할 수 있습니다.


지난 글에서 사용한 Basic 101 프로젝트를 이어서 진행합니다!

orders_prepared 데이터셋을 선택하고,  Visual 레시피 목록에서 Group을 선택하세요.

Group Recipe를 사용하면 하나 이상의 키 값에 따라 일부 열의 값을 집계할 수 있습니다.

레시피 대화 상자에서 customer_id를 기준으로 그룹화하도록 선택하고, 출력 데이터셋의 이름을 orders_by_customer로 변경하세요. CREATE RECIPE 눌러주세요!

그룹 레시피의 핵심 단계는 Group 단계로, 어떤 열을 키로 사용할지와 어떤 집계를 수행할지 선택합니다.

- order_date의 최솟값(Min)

- pages_visited의 평균(Avg)
- total의 합계(Sum)

 

세 가지를 선택하면, 고객 ID별로 출력에는 첫 번째 주문 날짜, 방문당 평균 페이지 수, 모든 주문의 합계가 포함됩니다. 

 

Output 단계로 이동하고,  order_date_min을 first_order_date로 이름을 변경합니다.
Run 버튼을 눌러서 실행해주세요! (왼쪽 아래 녹색버튼)

결과를 확인하기 위해 orders_by_customer 데이터셋을 엽니다.
customer_id 열을 클릭하고 Analyze를 선택합니다.
모든 값이 고유한 것을 확인하세요!

customer_ID로 그룹화한 후 각 고객에 대해 정확히 하나의 레코드가 있습니다.


Statistics Worksheet (통계 워크시트)

통계 워크시트는 탐색적 데이터 분석(EDA) 작업에 대한 시각적 요약 정보를 제공합니다. 워크시트를 생성하거나 액세스하려면 데이터셋의 통계 탭으로 이동하면 됩니다.


- 데이터 요약: 데이터셋의 기본 통계량(평균, 중앙값, 표준편차 등)
- 분포 시각화: 히스토그램, 박스 플롯, 분위수 그래프 등을 사용하여 데이터의 분포를 시각화
- 상관 관계 분석: 변수 간의 상관 관계를 분석하고 상관 행렬, 산점도 행렬 등을 통해 시각화
- 이상치 탐지: 이상치를 식별하고 제거 또는 처리하는 방법을 확인
- 그룹 분석: 변수를 기준으로 데이터를 그룹화하고 그룹 간의 차이를 비교
- 가설 검정: 데이터를 기반으로 가설을 설정하고 검정을 수행

 

통계 워크시트는 데이터셋을 탐색하고 이해하는 데 유용한 도구입니다. 데이터의 특성을 시각화하고 통계적 분석을 수행하여 데이터의 품질과 패턴을 파악할 수 있습니다.


orders_prepared 데이터셋의 요약 정보를 한눈에 볼 수 있는 워크시트를 생성해 보겠습니다!

 

orders_prepared 데이터셋을 열고 통계 탭으로 이동한 후, +Create Your First Worksheet를 클릭합니다.
Univariate analysis(단변량 분석)를 선택합니다.

 


왼쪽 변수 목록에서 pages_visited, tshirt_category, total을 선택하고, "Variables to describe" 패널에서 플러스 버튼을 클릭합니다. (그냥 드래그앤드롭도 가능) Create Card를 클릭합니다.

 

 

각 통계 차트 유형과 기술 통계량은 변수가 범주형인지 수치형인지에 따라 다릅니다.

예를 들어, 범주형 변수인 tshirt_category는 막대 차트를 가지고 있습니다. 반면에 pages_visited와 total은 각각 수치형 히스토그램과 상자 그림이 삽입되어 있습니다. 또한, 사분위수 테이블은 수치형 변수에 적용되고, 빈도 테이블은 범주형 변수에 적용됩니다. 기본적으로 통계는 데이터셋의 처음 레코드 샘플에 대해 계산합니다. 

 

추가로 하나 더 만들어보기 위해, 오른쪽 상단의  +New Card 버튼을 클릭합니다.
Fit curves & distributions 옵션과 Fit Distribution card를 선택합니다.
Variable로 total을 선택하고, Distribution으로 Exponential을 선택합니다.
Create Card를 클릭합니다.

 

Dataiku는 데이터에 맞게 지수분포를 적합한 카드를 생성하고, Q-Q plot도 제공합니다.


Group 레시피를 활용과 통계 워크시트를 활용해보았습니다!

궁금한 내용 있으시면, 댓글로 질문 남겨주세요 : )