Data Flow 로 데이터 머지(data merge) 하기

NAVER Cloud 2024. 4. 15. 17:49

네이버클라우드에는 22년 Data Catalog 를 시작으로 Data Flow, Data Query 등 데이터 분석 환경 구성 시 기본적으로 필요한 상품들이 추가되고 있다. 데이터 분석 파이프 라인 구성 시 데이터 변환, 정제를 위한 ETL 도구인 Data Flow 를 활용하여 오브젝트 스토리지에 추가된 CSV 파일을 data catalog DB 에 추가하는 테스트를 진행해 보았다.

1. Data Catalog 에 데이터베이스 생성

데이터베이스를 생성하면 오브젝트스토리지 버킷 df-source 에 데이터베이스 이름과 동일한 버킷 생성됨 (datacatalog-customer/customerdb)

2. 생성한 데이터베이스에 source file customers-100.csv 에 대한 테이블 생성

1)테이블 생성 시 스캐너를 이용하여 customer-100.csv 스키마 추출

2)스캐너가 사용할 커넥션 생성

소스데이터가 있는 df-source 버킷에 접근할 수 있는 커넥션 생성

3)분류자 생성

csv 파일이 어떤 기준으로 분류되어 있는지 classifier 를 생성한다.

4)스캐너 생성

수동으로 스캔할 예정이므로 실행 주기느 온디멘드 선택

5)스캐너 실행

스캐너를 실행하면 df-source/comma/org/customer-100.csv 에 대한 테이블이 생성되고 스키마 정보가 업데이트 됨

2. Data Query를 통해서 customerdb.org 테이블에서 조회되는 데이터가 customers-100.csv 내용과 동일한지 확인

1)Query Editor 에서 데이터소스에 customerdb.org 가 추가 되었는지 확인 후 데이터 조회

3. Data Flow 를 통해 df-source/comma/new 버킷에 customer-1000.csv 를 추가하여 data_catalog.customerdb.org 에 추가하도록 설정

1)subaccount 에서 dataflow 서비스에 대한 role 추가

2)Data Flow에서 작업 생성

소스 object storage 선택 후 속성 정보 입력 / 소스의 의미는 target 에 추가할 데이터 , 고로 df-source/comma/new 버킷 하위에 새로 추가할 customers-1000.csv 파일을 업로드 해둬야 함
object storage 에 업로드 한 파일의 스키마 정보를 수동으로 입력해줘야 함

타깃 Data Catalog 선택 후 속성 정보 입력

3)작업 실행

job 상태가 RUNNABLE 이라면 실행
subaccount 에서 생성한 역할 선택

4)작업 실행 내역 확인

Data Query 를 통해서 customerdb.org 테이블에 customers-1000.csv 데이터가 추가되었는지 확인

기존에 100 개 였는데 1101 로 변경된 것을 확인 (1100 이 아니고 1101 인 이유는 customers-1000.cvs 의 필드 데이터도 추가되었기 때문임

저작자표시 비영리 변경금지

'NAVER Cloud' 카테고리의 다른 글

[네이버클라우드] Ncloud Single Sign-On(SSO) / keycloak 연동 - 1. keycloak 설치 (1)	2024.06.12
[네이버클라우드] CDN - ALB 연동 Path pattern 분리 구성 (1)	2024.05.17
CloudDB for MySQL 백업 파일 오브젝트 스토리지로 내보내기 자동 설정 (1)	2024.03.21
네이버클라우드 CloudDB for MySQL Slave LB 별 설정 차이 (1)	2024.02.02
네이버클라우드 ALB 에 Path Pattern 분리 (1)	2023.12.11

ABOUT ME

clean up the desk clean up the desk

1. Data Catalog 에 데이터베이스 생성

2. 생성한 데이터베이스에 source file customers-100.csv 에 대한 테이블 생성

2. Data Query를 통해서 customerdb.org 테이블에서 조회되는 데이터가 customers-100.csv 내용과 동일한지 확인

3. Data Flow 를 통해 df-source/comma/new 버킷에 customer-1000.csv 를 추가하여 data_catalog.customerdb.org 에 추가하도록 설정

'NAVER Cloud' 카테고리의 다른 글

티스토리툴바

ABOUT ME

1. Data Catalog 에 데이터베이스 생성

2. 생성한 데이터베이스에 source file customers-100.csv 에 대한 테이블 생성

2. Data Query를 통해서 customerdb.org 테이블에서 조회되는 데이터가 customers-100.csv 내용과 동일한지 확인

3. Data Flow 를 통해 df-source/comma/new 버킷에 customer-1000.csv 를 추가하여 data_catalog.customerdb.org 에 추가하도록 설정

'NAVER Cloud' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바