2.5 요약 및 정리

본 문서는 [파이썬 라이브러리를 활용한 머신러닝] 책을 기반으로 하고 있으며, subinium(본인)이 정리하고 추가한 내용입니다. 생략된 부분과 추가된 부분이 있으니 추가/수정하면 좋을 것 같은 부분은 댓글로 이야기해주시면 감사하겠습니다.

모델 복잡도에 대해 이야기하는 것으로 이 장을 시작해서 일반화 또는 이전에 본 적 없는 새로운 데이터에 잘 맞는 모델을 학습시키는 것에 대해 설명하였습니다. 지금까지 다음과 같은 주제에 대해서 살펴보았습니다.

  • 분류와 회귀
  • 머신러닝 알고리즘
  • 장단점과 매개변수

다음은 각 모델에 대한 간단한 요약입니다.

  • 최근접 이웃 : 작은 데이터셋일 경우, 기본 모델로서 좋고 설명하기 쉬움
  • 선형 모델 : 대용량 데이터셋 가능, 고차원 데이터에 가능
  • 나이브 베이즈 : 분류만 가능. 선형 모델보다 훨씬 빠름, 대용량 데이터셋과 고차원 데이터에 가능. 선형 모델보다 덜 정확함
  • 결정 트리 : 매우 빠름. 데이터 스케일 조정이 필요 없음. 시각화하기 좋고 설명하기 쉬움
  • 랜덤 포레스트 : 결정 트리 하나보다 거의 항상 훨씬 좋은 성능을 냄. 매우 안정적이고 강력함. 데이터 스케일 조정 필요 없음. 고차원 희소 데이터에는 잘 안맞음
  • 그래디언트 부스팅 결정 트리 : 랜덤 포레스트보다 성능이 조금 더 좋음. 랜덤 포레스트보다 학습은 느리나 예측은 빠르고 메모리를 조금 사용. 랜덤 포레스트보다 매개변수 튜닝이 많이 필요함
  • 서포트 벡터 머신 : 비슷한 의미의 특성으로 이뤄진 중간 규모 데이터셋에 잘 맞음. 데이터 스케일 조정 필요. 매개변수에 민감
  • 신경망 : 대용량 데이터셋에서 매우 복잡한 모델을 만들 수 있음. 매개변수 선택과 데이터 스케일에 민감. 큰 모델은 학습이 오래걸림

6장에서 본격적으로 일반화된 모델에 필요한 매개변수 설정, 매개변수 찾는 방법 등을 진행하겠습니다. 다음 장에서 비지도 학습과 데이터 전처리에 대해서 알아보겠습니다.

Leave a Comment