Data Flow 로 데이터 머지(data merge) 하기
네이버클라우드에는 22년 Data Catalog 를 시작으로 Data Flow, Data Query 등 데이터 분석 환경 구성 시 기본적으로 필요한 상품들이 추가되고 있다. 데이터 분석 파이프 라인 구성 시 데이터 변환, 정제를 위한 ETL 도구인 Data Flow 를 활용하여 오브젝트 스토리지에 추가된 CSV 파일을 data catalog DB 에 추가하는 테스트를 진행해 보았다.
1. Data Catalog 에 데이터베이스 생성
데이터베이스를 생성하면 오브젝트스토리지 버킷 df-source 에 데이터베이스 이름과 동일한 버킷 생성됨 (datacatalog-customer/customerdb)
2. 생성한 데이터베이스에 source file customers-100.csv 에 대한 테이블 생성
1)테이블 생성 시 스캐너를 이용하여 customer-100.csv 스키마 추출
2)스캐너가 사용할 커넥션 생성
소스데이터가 있는 df-source 버킷에 접근할 수 있는 커넥션 생성
3)분류자 생성
csv 파일이 어떤 기준으로 분류되어 있는지 classifier 를 생성한다.
4)스캐너 생성
수동으로 스캔할 예정이므로 실행 주기느 온디멘드 선택
5)스캐너 실행
스캐너를 실행하면 df-source/comma/org/customer-100.csv 에 대한 테이블이 생성되고 스키마 정보가 업데이트 됨
2. Data Query를 통해서 customerdb.org 테이블에서 조회되는 데이터가 customers-100.csv 내용과 동일한지 확인
1)Query Editor 에서 데이터소스에 customerdb.org 가 추가 되었는지 확인 후 데이터 조회
3. Data Flow 를 통해 df-source/comma/new 버킷에 customer-1000.csv 를 추가하여 data_catalog.customerdb.org 에 추가하도록 설정
1)subaccount 에서 dataflow 서비스에 대한 role 추가
2)Data Flow에서 작업 생성
- 소스 object storage 선택 후 속성 정보 입력 / 소스의 의미는 target 에 추가할 데이터 , 고로 df-source/comma/new 버킷 하위에 새로 추가할 customers-1000.csv 파일을 업로드 해둬야 함
- object storage 에 업로드 한 파일의 스키마 정보를 수동으로 입력해줘야 함
타깃 Data Catalog 선택 후 속성 정보 입력
3)작업 실행
- job 상태가 RUNNABLE 이라면 실행
- subaccount 에서 생성한 역할 선택
4)작업 실행 내역 확인
- Data Query 를 통해서 customerdb.org 테이블에 customers-1000.csv 데이터가 추가되었는지 확인
- 기존에 100 개 였는데 1101 로 변경된 것을 확인 (1100 이 아니고 1101 인 이유는 customers-1000.cvs 의 필드 데이터도 추가되었기 때문임