ETL
-
Data Flow 로 데이터 머지(data merge) 하기NAVER Cloud 2024. 4. 15. 17:49
네이버클라우드에는 22년 Data Catalog 를 시작으로 Data Flow, Data Query 등 데이터 분석 환경 구성 시 기본적으로 필요한 상품들이 추가되고 있다. 데이터 분석 파이프 라인 구성 시 데이터 변환, 정제를 위한 ETL 도구인 Data Flow 를 활용하여 오브젝트 스토리지에 추가된 CSV 파일을 data catalog DB 에 추가하는 테스트를 진행해 보았다. 1. Data Catalog 에 데이터베이스 생성 데이터베이스를 생성하면 오브젝트스토리지 버킷 df-source 에 데이터베이스 이름과 동일한 버킷 생성됨 (datacatalog-customer/customerdb) 2. 생성한 데이터베이스에 source file customers-100.csv 에 대한 테이블 생성 1)테이..
-
CentOS 7 Apache Nifi 설치HOWTO 2020. 6. 22. 11:16
"아파치 나이파이(Apache NiFi, 나이아가라파일즈/NiagaraFiles의 준말)는 소프트웨어 시스템 간 데이터 흐름을 자동화하도록 설계된 아파치 소프트웨어 재단의 소프트웨어 프로젝트이다. 과거에 NSA에 의해 개발되었고 2014년 기술 전송 프로그램의 일부로서 오픈 소스화된 나이아가라파일즈(NiagaraFiles) 소프트웨어에 기반을 둔다" 라고 Wiki 에 나와있는데 Opensource ETL 도구를 찾다가 Nifi 를 알게됐다. ETL 말만 듣고 실제로 해 본적은 없지만 Nifi 를 통해서 경험해 보려면 일단 설치부터.. 1. CentOS 7 VM 생성 네이버 클라우드 플랫폼에서 2core 4GB CentOS 7 VM 을 생성 후 설치를 진행했다. 2. JAVA 설치 및 JAVA HOME 설..