[ML with Python] 4장 데이터 표현과 특성 공학 - 일변량 비선형 변환

4.4 일변량 비선형 변환

본 문서는 [파이썬 라이브러리를 활용한 머신러닝] 책을 기반으로 하고 있으며, subinium(본인)이 정리하고 추가한 내용입니다. 생략된 부분과 추가된 부분이 있으니 추가/수정하면 좋을 것 같은 부분은 댓글로 이야기해주시면 감사하겠습니다.

책에서는 랜덤 데이터로 현실과 비슷한 분포를 나타내는 그래프를 만드는 예시를 진행합니다. 하지만 큰 의미는 없으니 생략합니다.

단순하게 다항식 특성을 추가하는 것도 도움이 됩니다. 또한 sin, exp, log 등의 함수를 사용하는 것도 하나의 방법입니다.

트리 기반 모델을 제외하고 선형 모델과 신경망은 각 특성의 스케일과 분포에 밀접하게 연관되어 있습니다.

NOTE 트리 기반 모델은 매개변수에 따라 특성의 순서가 유의미한 변화를 줍니다.

또한 특성과 타깃값 사이에 비선형성이 있다면 선형 회귀에서는 모델을 만들기 어렵습니다.

그런 격차를 log와 exp를 통해 데이터의 스케일을 변경해 선형 모델과 신경망의 성능을 높일 수 있습니다. sin과 cos는 패턴이 들어 있는 데이터를 다룰 때 편리합니다.

대부분의 모델은 각 특성이 정규분포와 비슷할 때 최고의 성능을 냅니다. log나 exp를 이용하면 이런 모양을 쉽고 효과적으로 만들 수 있습니다. 전형적인 경우로 정수 카운트 데이터를 다룰 때입니다. 카운트에는 음수가 없고, 특별한 통계 패턴을 따르는 경우가 많기 때문입니다.

데이터셋과 모델의 조합에 최적인 변환 방법을 찾기란 예술에 가까운 일입니다. 이 부분은 통계를 공부하는 것이 더 좋을 것 같습니다.

Share on

Twitter Facebook Google+ LinkedIn

[ML with Python] 4장 데이터 표현과 특성 공학 - 일변량 비선형 변환

Share on

Leave a Comment