nifi
-
nifi 로 여러개 파일 내용 병합하기 (merge record)HOWTO 2020. 9. 22. 19:36
오브젝트 스토리지에 매일 데이터를 쌓긴 하는데 같은 구조를 가진 컨텐츠라면 하나의 파일로 관리하는 것이 용이할 때가 있다. nifi의 MergeRecord 프로세서를 이용해서 api 를 통해 매일 csv 형태로 떨궈둔 파일의 내용을 새로운 csv 파일에 기록하고 생성할 수 있다. 1. ListS3 앞에서 네이버클라우드플랫폼의 오브젝트스토리지에 파일을 올렸기때문에 파일의 리스트로 네이버클라우드플랫폼의 오브젝트스토리지에서 가져온다. Endpoint URL 을 한국 리전의 오브젝트스토리지 endpoint 로 입력해 주고, (네이버클라우드플랫폼은 리전별로 엔드포인트 URL 이 다르다 ㅠㅠ) 파일을 가져올 버킷명을 적어준다. Region 항목은 AWS S3 에서 파일을 가져올 때 선택하면 되고, 네이버클라우드플랫..
-
nifi 로 API 수집 및 오브젝트 스토리지에 저장하기HOWTO 2020. 9. 19. 17:41
api 를 호출하여 데이터를 매일 수집하고 저장하는 파이썬 소스들을 인터넷에서 쉽게 찾을 수 있지만 nifi 의 invokehtttp processor 를 사용하면 flowfile 을 통해 어떻게 작업이 진행되고 있는지, 어디서 에러가 발생했는지 확인하기 쉽다. (python 을 아주 잘 다루는 사람이라면 python 이 훨씬 쉬울 것이다.) nifi 로 api 를 호출하고, xml 로 받은 결과값을 csv 로 변환하여 네이버 클라우드 플랫폼의 오브젝트 스토리지에 업로드하는 flowfile 을 만들어봤다. 각각의 processor 설정은 아래와 같이 설정했다. 1. Invokehttp 나는 오피넷에 api 사용 권한을 신청하여 매일 유종 별 평균 가격을 수집하도록 설정했다. api 로 데이터를 조회하는 ..
-
CentOS 7 Apache Nifi 설치HOWTO 2020. 6. 22. 11:16
"아파치 나이파이(Apache NiFi, 나이아가라파일즈/NiagaraFiles의 준말)는 소프트웨어 시스템 간 데이터 흐름을 자동화하도록 설계된 아파치 소프트웨어 재단의 소프트웨어 프로젝트이다. 과거에 NSA에 의해 개발되었고 2014년 기술 전송 프로그램의 일부로서 오픈 소스화된 나이아가라파일즈(NiagaraFiles) 소프트웨어에 기반을 둔다" 라고 Wiki 에 나와있는데 Opensource ETL 도구를 찾다가 Nifi 를 알게됐다. ETL 말만 듣고 실제로 해 본적은 없지만 Nifi 를 통해서 경험해 보려면 일단 설치부터.. 1. CentOS 7 VM 생성 네이버 클라우드 플랫폼에서 2core 4GB CentOS 7 VM 을 생성 후 설치를 진행했다. 2. JAVA 설치 및 JAVA HOME 설..