[SK플래닛] ASAC 빅데이터전문가 11기 | 28일차
28일차는 머신러닝 모델을 “어떻게 더 빠르게 돌릴 것인가”에서 시작해서, GPU 기반 머신러닝과 클라우드 환경 세팅까지 이어진 날이었다. 전날에는 Optuna로 Random Forest의 하이퍼파라미터를 탐색했다면, 이번에는 그 실험이 실제로 오래 걸릴 때 어떤 대안이 있는지 봤다. 대표적인 선택지는 GPU를 활용하는 방식, 더 좋은 머신을 빌리는 방식, 그리고 Spark 같은 분산 처리 환경을 쓰는 방식이었다. 특히 기억에 남은 건 GPU를 쓰면 무조건 빠르다가 아니라는 점이었다. 작은 데이터에서는 CPU 기반 scikit-learn이 더 빠를 수도 있고, GPU로 보내는 과정에서 오히려 병목이 생길 수 있다. 반대로 데이터가 충분히 크고 연산량이 많아지면 cudf, cuml, cupy 같은 GPU..