마사회 공공데이터, 기상데이터를 활용해 머신러닝 모델을 생성하고, 생성한 모델을 바탕으로 당일 경마 순위를 예측하는 기능 구현을 목표로 하는 토이프로젝트의 초안입니다.

또한, 필자는 Cloudera Data Platform을 구축하는 업무를 수행하고 있는 Junior Enigineer 이기 때문에, 해당 서비스의 기능 학습이 주된 목적으로 본 토이프로젝트를 시작하게 되었음을 미리 알립니다.

상기 이유로, 다소 비효과적이고 불합리한 구조로 기능이 프로젝트가 진행 될 수 있으며, Open-Source를 활용한(목적에 맞게 구조가 설계 된) 프로젝트를 향후 다시 제작하려 합니다.

활용 DataSet

  1. 기상dataset
  2. 마사회 공공데이터
  3. etc (조사중)

모델 학습을 위한 FS, DB 선택

Apache Kudu Apache HBase Apache Hive