아래의 튜토리얼 내용은 dataiku academy 자료를 참고하여 제작되었습니다.
안녕하세요!
Dataiku 튜토리얼을 시작해보도록 하겠습니다 : )
튜토리얼을 시작하기위해 Dataiku (9.0 버전 이상) 설치가 필요합니다.
Dataiku 웹 사이트에서 다음 두 가지 방법으로 시작할 수 있습니다:
- Dataiku Cloud의 14일 무료 평가판 시작하기
- 무료 버전 설치하기
https://www.dataiku.com/product/get-started/
Get Started With Dataiku - Start an Online Trial or Download for Free
With Dataiku, you have everything you need to build and deploy AI projects in one place, including easy-to-use data preparation and pipelines, AutoML, and advanced automation.
www.dataiku.com
그리고 아래의 csv 파일을 다운로드 해주세요!
첫 번째 단계는 새로운 Dataiku 프로젝트를 생성하는 것입니다.
+ NEW PROJECT를 클릭하고, 목록에서 DSS Tutorials를 선택한 다음, Core Designer / Basics 섹션에서 Basics 101을 선택하세요.
위에서 다운받은 csv 파일을 Dataiku에 업로드하고 데이터를 가져오겠습니다.
Flow(G+F)에서 파란색 버튼인 "+Import Your First Dataset"을 클릭하세요.
"Upload your files"를 클릭하세요.
"Select Files"를 클릭하고, "orders.csv" 파일을 선택하세요.
Dataiku가 CSV 형식을 올바르게 감지했는지 데이터셋 미리보기를 확인하세요.
미리보기에서 데이터가 열과 행으로 표시되는 것을 확인할 수 있습니다.
"Create" 버튼을 클릭하여 데이터셋을 가져오세요. 이렇게 하면 새로운 데이터셋이 생성되고, "orders" 데이터셋의 "Explore" 탭으로 이동합니다.
Dataiku는 작업을 수행할 때 데이터셋의 일부분만 표시합니다.
기본적으로 샘플은 데이터셋의 처음 10,000개 레코드를 포함합니다.
데이터셋의 샘플 설정을 변경하려면 Configure sample 을 누르세요. 왼쪽 패널이 열립니다. : )
각 열 이름 아래에는 저장 타입(string) 과 의미(Intenger) 가 표시됩니다.
Dataiku는 customer_id 열의 의미를 정수로 감지했습니다. 고객 ID는 숫자일수도 있지만, 문자가 섞인 경우도 존재 합니다. Integer를 클릭하고 "Text"로 바꿔주세요. 이제 customer_id의 데이터 품질 막대가 완전히 녹색으로 표시됩니다. : )
마지막으로, 간단한 차트를 그려서 데이터를 탐색해봅시다.
예를 들어, 각 종류의 티셔츠가 얼마나 자주 주문되는지 알아보겠습니다.
Chart 탭을 클릭하세요.
왼쪽 패널에서 Count of records를 Y 변수로, tshirt_category를 X 변수로 끌어다 놓으세요. (드래그 앤 드랍)
Dataiku는 현재 샘플에 대한 tshirt_category별 Count of records의 막대 차트를 보여줍니다.
[참고] Datasets
Dataiku에서 데이터셋은 타블로 형식의 모든 데이터를 나타냅니다. Excel 스프레드시트, SQL 테이블, Hadoop 클러스터의 데이터 파일 폴더, 클라우드의 CSV 파일 등 다양한 유형의 데이터 원본이 가능합니다. Dataiku는 데이터셋을 프로젝트의 Flow에서 파란색 사각형으로 표시하며, 소스 데이터셋의 유형에 해당하는 아이콘을 함께 표시합니다.
Dataiku에서 데이터셋을 생성하는 것은 사용자가 데이터에 액세스할 수 있는 방법을 Dataiku에 알리는 것입니다. 데이터는 원본 시스템에 유지되며, Dataiku의 데이터셋은 해당 데이터의 뷰로서 동작합니다. 브라우저를 통해 설정된 샘플 데이터만 전송되며, 실제 데이터는 Dataiku로 복사되지 않습니다. (다운받은 파일을 직접 Dataiku에 업로드하는 경우는 제외)
궁금한 내용 있으시면, 댓글로 질문 남겨주세요 : )
'AI 및 데이터 분석' 카테고리의 다른 글
Dataiku - Lab 기능 (0) | 2023.06.05 |
---|---|
Dataiku - 레시피 활용 (3) (1) | 2023.06.04 |
Dataiku - 레시피 활용 (2) (+ Statistics Worksheet) (0) | 2023.06.03 |
Dataiku - 레시피 활용 (1) (0) | 2023.06.02 |
Dataiku - 소개 (0) | 2023.05.31 |