AWS VPC에 Cloudera Data Platform, CDSW 설치 후기
Cloudera 분석 플랫폼 CDSW(Cloudera Data Science Workbench)를 AWS에 구축하는 작업을 수행하며 느낀 점들을 끄적여 본다.
Cloudera Data Science Workbench는 Docker, K8s 환경의 컨테이너 기반으로 운영되는 빅데이터 분석 플랫폼이다. 국내에서는 CDSW를 온프레미스 환경에서 구축을 하여 활용을 해왔는데, 비교적 해외에서는 AWS, Azure, GCP를 활용한 CDSW 구축 사례가 있는 것으로 알고 있다(Cloudera의 사업 목표도 Hybrid Cloud이지 않나...?).
구축 시나리오
---
Route 53
AWS EC2 instance
AWS VPC
AWS s3 client
AWS S3
AWS EBS