본문 바로가기
AI 및 데이터 분석

Dataiku - 레시피 활용 (7)

by riML 2023. 6. 10.
아래의 튜토리얼 내용은 dataiku academy 자료를 참고하여 제작되었습니다.

 

안녕하세요.

Stack , TopN 레시피 활용편 입니다 : )


Stack 레시피

두 개 이상의 데이터셋을 결합하여 하나의 데이터셋으로 만드는 기능입니다. 데이터 결합은 행 기반으로 이루어지며, 각 데이터셋의 행을 순차적으로 추가하여 최종적으로 하나의 큰 데이터셋을 생성합니다.


Stack 레시피의 기능


입력 스키마의 합집합 사용: 입력 데이터셋의 모든 열을 출력 데이터셋에 포함시킵니다. 빈 값이 있는 경우 채워집니다.

입력 스키마의 교집합 사용: 입력 데이터셋의 공통된 열만을 출력 데이터셋에 포함시킵니다.

입력 데이터셋 중 하나의 스키마 사용: 하나의 입력 데이터셋의 스키마를 출력 데이터셋에 그대로 사용합니다.

입력 데이터셋의 열 순서에 기반한 매핑: 열의 순서를 기준으로 입력 데이터셋의 열을 출력 데이터셋의 열과 매핑합니다.

수동으로 열 선택 및 재매핑: 사용자가 직접 열을 선택하고 출력 데이터셋의 열과 매핑합니다.

사용자 정의 스키마 사용: 사용자가 직접 출력 데이터셋의 스키마를 정의하여 열을 선택하고 매핑합니다.

스택 레시피는 데이터 결합 작업을 유연하게 수행하고, 다양한 데이터 구조를 생성할 수 있습니다!


 

위의 데이터셋은 각각 2021, 2022, 2023년에 해당하는 아보카도 판매 데이터를 나타냅니다. 각 데이터셋에는 날짜(Date), 지역(Region), 평균 가격(AveragePrice), 총 판매량(TotalVolume) 등의 열이 포함되어 있습니다. 이러한 데이터셋을 활용하여 Stack Recipe를 적용하면 년도별로 구분된 하나의 데이터셋을 얻을 수 있습니다.

 

stack 레시피 적용을 원하는 데이터셋을 모두 선택한 후 Stack 레시피 버튼을 클릭합니다.

세 데이터셋의 컬럼입니다. 2022년의 평균가격 컬럼의 이름이 상이합니다. 하지만, 열의 순서는 동일합니다!

따라서 Using column order 기능을 사용해봅시다. 해당 기능은 열 이름이 다르더라도 열의 순서가 일치하는 경우에 유용합니다.

Run 버튼을 누르고, 생성된 데이터셋을 오픈합니다. Date 에 2021, 2022, 2023 데이터가 전부 들어있음을 확인 할 수 있습니다 : ) 

 

Stack 레시피는 다양한 스키마 결합 방법을 제공하여 데이터셋 간의 관계를 유연하게 조정할 수 있습니다. 또한, 필요에 따라 새로운 데이터셋을 추가하거나 기존 데이터셋을 업데이트하여 분석 작업을 확장할 수 있습니다.


Top N 레시피

데이터셋의 상위 또는 하위 값을 기준으로 데이터를 필터링하는 기능을 제공합니다. 이 레시피를 사용하여 특정 기준에 따라 데이터의 상위 또는 하위 일부를 선택할 수 있습니다.


Top N 레시피의 기능


상위 및 하위 값 추출: 데이터셋에서 상위 N개 또는 하위 N개의 행을 추출할 수 있습니다.

그룹별 상위 및 하위 값 추출: 데이터셋을 그룹화하고 각 그룹 내에서 상위 N개 또는 하위 N개의 행을 추출할 수 있습니다. 이를 통해 그룹 간의 비교 및 분석을 수행할 수 있습니다.

정렬 기준 설정: 데이터를 정렬하여 상위 또는 하위 값을 결정하는 기준을 설정할 수 있습니다. 예를 들어, 숫자형 열의 값 또는 날짜 열의 순서에 따라 데이터를 정렬할 수 있습니다.

결과 계산: 추출한 상위 또는 하위 값에 대해 추가적인 계산을 수행할 수 있습니다. 예를 들어, 합계, 평균, 개수 등을 계산하여 결과에 포함시킬 수 있습니다.


데이터셋을 선택하고, Top N 레시피를 선택하여 CREATE RECIPES 를 클릭합니다.

해당 데이터에서 Product 별로 가장 높은 Revenue TOP 3 를 추출해보도록 하겠습니다.

Top3 를 보기 위해, 3 top rows로 설정하고, 정렬은 Revenue 컬럼을 사용합니다. 내림차순 정렬 선택해주세요!

그리고 각 Product 별로 TOP3 를 알아보기 위해, each group of rows identified by... 를 클릭하고 Product 로 설정합니다.

 

compute for each row 의 네가지 체크박스는 전부 선택해줍니다!

행의 수 , 행의 순위 등 Top N 레시피를 구성하여 계산을 수행하고 출력에 포함시킬 수 있습니다.

레시피 수행 후 결과 입니다. Product 별로 Revenue가 높은 순으로 Top3 가 선정되었습니다 : )

 

_duplicate_count : Product 별 행의 개수 ( product1 의 경우 모두 4 -> product1의 총 row 갯수가 4개이고, top3 이기 때문에 3개의 row만 표시됨 )

_row_number : 각 행의 순서

_rank : 각 행의 순위, 만약 동일한 값이 있는 경우, 동일한 순위를 가지게 됨

_dense_rank  : 각 행의 순위, 동일한 값이 있는 경우에도 다음 순위는 중복값을 고려하지 않고 1씩 증가함

 

Top N 레시피는 데이터셋에서 상위 또는 하위 값에 기반하여 필터링을 수행합니다. 이를 통해 가장 중요한 데이터나 성과를 식별하고 분석할 수 있습니다. 예를 들어, 최고 매출을 기록한 고객이나 가장 부족한 성과를 보이는 제품 등을 신속하게 확인할 수 있습니다.

 


Stack, TopN 레시피 활용을 확인해보았습니다.

궁금한 내용 있으시면, 댓글로 질문 남겨주세요 : )