본문 바로가기
AI 및 데이터 분석

Dataiku - 레시피 활용 (5)

by riML 2023. 6. 8.
아래의 튜토리얼 내용은 dataiku academy 자료를 참고하여 제작되었습니다.

안녕하세요.

Filter, Sort 레시피 활용편 입니다 : )


Filter 레시피

데이터셋에서 필요한 행을 추출하여 데이터를 필터링하는 역할을 합니다. 이를 통해 데이터 분석 작업에서 필요한 데이터를 정확하게 선택하고, 불필요한 데이터를 제외할 수 있습니다.

데이터셋 분석을 위한 데이터 추출: 데이터 분석 작업에서는 종종 특정 기간, 특정 조건 또는 특정 값을 가진 데이터를 필요로 합니다. Filter 레시피는 이러한 요구사항에 맞춰 데이터셋을 필터링하여 필요한 데이터를 추출합니다.

데이터셋 정제: 데이터셋은 종종 불필요한 데이터나 오류가 포함될 수 있습니다. Filter 레시피를 사용하여 이러한 불필요한 데이터를 제거하거나 오류를 정정할 수 있습니다. 이는 정확한 분석 결과를 얻기 위해 필수적인 작업입니다.


Filter 레시피의 기능
조건 기반 필터링: Filter 레시피는 사용자가 설정한 조건에 따라 데이터를 필터링합니다. 예를 들어, 날짜 범위, 값, 특정 열의 조건 등을 기준으로 데이터를 추출할 수 있습니다.

다중 조건 필터링: Filter 레시피는 여러 개의 조건을 조합하여 데이터를 필터링할 수 있습니다. 논리 연산자인 "and"나 "or"를 사용하여 다중 조건을 설정할 수 있습니다.

샘플링 옵션 제공: 필터링된 결과 데이터셋이 매우 큰 경우, Filter 레시피는 샘플링 옵션을 제공하여 샘플 데이터를 추출할 수 있습니다. 이를 통해 대규모 데이터셋에서도 빠르게 필터링 결과를 확인할 수 있습니다.

Filter 레시피는 데이터 분석 작업에서 필요한 데이터를 정확하게 추출하고, 데이터셋을 정제하며, 데이터를 세분화하는 데 큰 도움을 줍니다. 이를 통해 데이터 분석의 효율성을 극대화할 수 있습니다.


예제를 통해 살펴보겠습니다.

데이터셋을 선택 후, Sample/Filter 레시피를 선택하고, CREATE RECIPES 를 클릭합니다.

 

filter 를 ON 으로 켜고, where 에 원하는 조건을 입력합니다.

Quantity (수량)이 3보다 큰 행만 가져와보겠습니다.

 

아래의 Sampling 은 전체 데이터에 대하여 filter 를 할 수도 있고, 샘플에 대해서만 실행하도록 설정할 수 있습니다.

원하는 옵션을 선택 후 Run 버튼을 클릭합니다.

 

결과를 보면 Qunatity 의 값이 3보다 큰 행만 남아 있음을 확인 할 수 있습니다.

 

다중 조건 필터링 예제도 하나 실행해봅시다 : )

수량이 3보다 크고, Category 가 Vegetable인 행을 추출해봅시다.

And로 연결했기 때문에 두 조건이 모두 참인 경우의 행만 남게 됩니다.

 

이전의 결과와 비교해보면, 수량이 3보다 큰 행 중에서 Category 가 Vegetable인 행만 남았음을 확인 할 수 있습니다!


Sort 레시피

데이터셋의 행을 지정한 열의 값에 따라 정렬하는 기능을 제공합니다. 이 레시피를 사용하여 데이터셋을 정렬함으로써 데이터의 순서를 변경하고 필요한 분석이나 작업을 수행할 수 있습니다. 예를 들어, 고객 주문 데이터셋을 주문일자 열을 기준으로 정렬하면 최신 주문부터 오래된 주문 순으로 데이터를 확인할 수 있습니다.

 


Sort 레시피의 기능
열 기준 정렬: 사용자는 하나 이상의 열을 선택하여 데이터셋을 정렬할 수 있습니다. 정렬 방식은 기본적으로 오름차순입니다. 그러나 오름차순 또는 내림차순으로 정렬 옵션을 선택할 수 있습니다.

다중 열 정렬: 여러 열을 선택하여 데이터셋을 정렬할 수 있습니다. 예를 들어, 우선적으로 고객 ID를 기준으로 정렬하고, 동일한 고객 ID를 가진 행들 중에서는 주문일자를 기준으로 정렬할 수 있습니다.

계산 옵션: Sort 레시피는 각 행에 대한 계산 옵션을 제공합니다. 이 옵션에는 행 번호, 행의 순위 등을 계산할 수 있습니다. 이를 통해 정렬된 데이터셋에 각 행의 순서나 순위 정보를 추가로 확인할 수 있습니다.

Sort 레시피는 데이터의 순서를 변경하고 분석이나 작업에 필요한 데이터 정렬을 수행하는 강력한 도구입니다. 데이터의 순서를 변경함으로써 필요한 정보를 쉽게 찾고, 분석 결과를 시각화하는 등 다양한 데이터 처리 작업에 유용하게 활용할 수 있습니다.

 

데이터셋을 클릭하고, Sort 레시피를 선택한 후 CREATE RECIPES 를 눌러 레시피를 생성합니다.

Select column for sorting 에서 orderDate와 Revenue를 선택합니다.

기본적으로 Sort 레시피는 열을 오름차순으로 정렬합니다. orderDate는 버튼을 클릭하여 내림차순으로 변경해봅시다. 주문내역을 최신날짜부터 보기 위함입니다!

Sort 레시피는 각 행에 대한 계산 옵션을 제공합니다. 이러한 옵션 중 하나를 선택하면 출력 데이터셋에 추가 열이 생성됩니다. 

orderDate를 내림차순으로 정렬했기 때문에 최신 주문건 부터 나타남을 확인 할 수 있습니다. 두번째 선택열은 Revenue이고, 오름차순 정렬이라 5월 10일의 주문건 들은 Revenue 가 낮은 순서대로 정렬이 됩니다 : )

 

세 가지 옵션을 모두 선택했기 때문에 세 가지 추가 열이 생성됩니다.

첫 번째 열은 해당 행의 행 번호를 포함합니다.
두 번째 열은 정렬 열의 값에 따라 행의 순위를 포함합니다. 순위에 동점이 있는 경우, 이후 순위는 동점의 수에 따라 건너뛰게 됩니다. (예를 들면, 1 2 2 4 5)
세 번째 열은 각 행의 밀집 순위를 포함합니다. 이는 행의 순위와 동일하지만, 순위가 연속적으로 매겨지며 순위를 건너뛰지 않습니다. (예를 들면, 1 2 2 3 4)

위의 결과에서는 동점이 없기 때문에 3가지 열이 전부 동일한 순위로 나타납니다.


Filter, Sort 레시피 활용을 확인해보았습니다.

궁금한 내용 있으시면, 댓글로 질문 남겨주세요 : )

'AI 및 데이터 분석' 카테고리의 다른 글

Dataiku - 레시피 활용 (7)  (1) 2023.06.10
Dataiku - 레시피 활용 (6)  (0) 2023.06.09
Dataiku - 레시피 활용 (4)  (0) 2023.06.07
Dataiku - Lab 기능  (0) 2023.06.05
Dataiku - 레시피 활용 (3)  (1) 2023.06.04