ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Data Flow 로 데이터 머지(data merge) 하기
    NAVER Cloud 2024. 4. 15. 17:49

    네이버클라우드에는 22년 Data Catalog 를 시작으로 Data Flow, Data Query 등 데이터 분석 환경 구성 시 기본적으로 필요한 상품들이 추가되고 있다. 데이터 분석 파이프 라인 구성 시 데이터 변환, 정제를 위한 ETL 도구인 Data Flow 를 활용하여 오브젝트 스토리지에 추가된 CSV 파일을 data catalog DB 에 추가하는 테스트를 진행해 보았다. 

    d테스트 환경 구성

    1. Data Catalog 에 데이터베이스 생성

    데이터베이스를 생성하면 오브젝트스토리지 버킷 df-source 에 데이터베이스 이름과 동일한 버킷 생성됨 (datacatalog-customer/customerdb)

     

    2. 생성한 데이터베이스에 source file customers-100.csv 에 대한 테이블 생성

    1)테이블 생성 시 스캐너를 이용하여 customer-100.csv 스키마 추출

    2)스캐너가 사용할 커넥션 생성

    소스데이터가 있는 df-source 버킷에 접근할 수 있는 커넥션 생성

    3)분류자 생성

    csv 파일이 어떤 기준으로 분류되어 있는지 classifier 를 생성한다.

    4)스캐너 생성

    수동으로 스캔할 예정이므로 실행 주기느 온디멘드 선택

    5)스캐너 실행

    스캐너를 실행하면 df-source/comma/org/customer-100.csv 에 대한 테이블이 생성되고 스키마 정보가 업데이트 됨

     

    2. Data Query를 통해서 customerdb.org 테이블에서 조회되는 데이터가 customers-100.csv 내용과 동일한지 확인

    1)Query Editor 에서 데이터소스에 customerdb.org 가 추가 되었는지 확인 후 데이터 조회

    3. Data Flow 를 통해 df-source/comma/new 버킷에 customer-1000.csv 를 추가하여 data_catalog.customerdb.org 에 추가하도록 설정

    1)subaccount 에서 dataflow 서비스에 대한 role 추가

    2)Data Flow에서 작업 생성

    • 소스 object storage 선택 후 속성 정보 입력 / 소스의 의미는 target 에 추가할 데이터 , 고로 df-source/comma/new 버킷 하위에 새로 추가할 customers-1000.csv 파일을 업로드 해둬야 함 
    • object storage 에 업로드 한 파일의 스키마 정보를 수동으로 입력해줘야 함 

    타깃 Data Catalog 선택 후 속성 정보 입력

    3)작업 실행

    • job 상태가 RUNNABLE 이라면 실행 
    • subaccount 에서 생성한 역할 선택

    4)작업 실행 내역 확인

    • Data Query 를 통해서 customerdb.org 테이블에 customers-1000.csv 데이터가 추가되었는지 확인

    • 기존에 100 개 였는데 1101 로 변경된 것을 확인 (1100 이 아니고 1101 인 이유는 customers-1000.cvs 의 필드 데이터도 추가되었기 때문임

     

    반응형

    댓글

Designed by Tistory.