아래의 튜토리얼 내용은 dataiku academy 자료를 참고하여 제작되었습니다.
안녕하세요.
SQL chart , notebook 활용편 입니다 : )
데이터베이스 차트
기본적으로 Dataiku는 차트 생성에 사용되는 데이터를 처리하기 위해 DSS 엔진을 사용합니다. 차트는 데이터셋의 Explore 탭에서 선택한 데이터 샘플을 기반으로 렌더링됩니다.
데이터베이스 엔진을 선택하여 데이터를 처리하면 전체 데이터셋을 사용하여 차트를 생성하고, 연산 속도를 높일 수 있어 차트가 더 빠르게 렌더링됩니다. 일반적으로 전체 데이터셋에서 차트를 렌더링하려는 경우 전용 엔진을 선택하는 것을 권장합니다.

customers_enriched 데이터셋에서 Chart 탭을 클릭합니다.
막대 차트에서 X 축으로 pages_visited_avg를, Y 축으로 Record 수를 드래그합니다.
현재 차트는 데이터 샘플을 기반으로 합니다.

왼쪽 패널의 Sampling & Engine 탭으로 이동합니다.
실행 엔진으로 "In-database"를 선택하고 저장을 클릭합니다.
이 경우 막대 차트의 모양은 거의 변경되지 않았지만, 전체 데이터셋을 사용한 결과 입니다. 데이터베이스 내 엔진을 사용하면 더 빠르게 결과를 확인 할 수 있습니다!
SQL 노트북
SQL 노트북은 SQL 쿼리를 통해 Dataiku SQL 데이터셋과 상호 작용할 수 있도록 해줍니다.
SQL 노트북을 사용하면 다음과 같은 작업을 수행할 수 있습니다.
- 빠른 프로토타이핑 및 데이터 분석을 위해 SQL 데이터셋에서 쿼리 실행하기
- indatabase 계산을 위해 SQL 엔진 활용하기
- SQL 데이터베이스에 새로운 데이터셋으로 작성하지 않고도 쿼리 결과 반환하기

customers_enriched 데이터셋을 선택하고 Lab을 선택합니다.

Code Notebooks 섹션에서 New를 클릭합니다.
SQL을 선택하고 Create를 클릭합니다!

+Query를 클릭하여 노트북의 첫 번째 쿼리를 시작합니다.

왼쪽 패널의 Tables 탭에서 테이블 이름 오른쪽의 플러스 아이콘을 클릭하여 이 테이블에 대한 기본 쿼리를 붙여넣을 수 있습니다. ( SELECT * FROM "dku_tshirt"."DKU_TUTORIAL_SQL_customers_enriched" -> 자동으로 생성됨!)

실행을 클릭하면 쿼리가 실행되고 샘플 쿼리 결과가 표시됩니다.
우리는 고객들이 캠페인에 어떻게 반응하는지, 특히 다른 연령대별로 분석해보고 싶습니다. 이를 위해 몇 가지 SQL 쿼리를 실행해보겠습니다.
+Query를 클릭하여 새로운 쿼리를 시작합니다.
다음 코드를 새로운 쿼리 셀에 복사하고 실행을 클릭합니다.
SELECT campaign, AVG(total), SUM(total), COUNT(campaign)
FROM "DKU_TUTORIAL_SQL_customers_enriched"
WHERE birthdate >= '1980-01-01' AND birthdate < '1990-01-01'
GROUP BY campaign
먼저, 1980년대에 태어난 고객들을 가져와서 캠페인에 참여하는지 여부에 따라 그룹화하는 쿼리입니다. 캠페인에 참여한 경우와 참여하지 않은 경우의 두 가지 값을 나타내는 두 행이 결과로 나타납니다. 또한, 평균 주문 가격을 나타내는 'avg', 해당 그룹의 주문 총 가치를 나타내는 'sum', 그리고 고객 수를 나타내는 'count' 열이 포함됩니다.

다른 예제를 시도해보겠습니다!
+Query를 클릭합니다.
다음 코드를 새로운 쿼리 셀에 복사하고 실행을 클릭합니다.
SELECT campaign, AVG(total), SUM(total), COUNT(campaign)
FROM "DKU_TUTORIAL_SQL_customers_enriched"
WHERE birthdate >= '1990-01-01' AND birthdate < '2000-01-01'
GROUP BY campaign
이번에는 1990년대에 태어난 고객들을 대상으로 캠페인에 대한 요약 정보를 확인합니다. 특히, 이 그룹에서 캠페인에 참여하는 고객과 참여하지 않는 고객 사이의 차이가 1980년대에 태어난 고객들과 비교할 때 훨씬 작다는 사실에 주목해야 합니다. 이는 연령과 캠페인의 효과 사이에 상호작용이 존재할 수 있음을 시사합니다.

데이터베이스로 차트를 실행해보고, SQL 노트북을 활용한 작업을 수행해보았습니다!
궁금한 내용 있으시면, 댓글로 질문 남겨주세요 : )
'AI 및 데이터 분석' 카테고리의 다른 글
머신 러닝의 역사 (1) - 확률적 모델링부터 SVM 까지 (1) | 2023.11.24 |
---|---|
추천시스템 소개 - 개요와 목표, 예시 시스템 (0) | 2023.11.24 |
Dataiku - SQL 레시피 (0) | 2023.06.20 |
Dataiku - 데이터베이스 연결 (PostgreSQL) + Sync 레시피 (0) | 2023.06.15 |
보고서 시스템 데이터 파이프라인 구축 - (2) (0) | 2023.06.13 |