섹션 설정
01. 앙상블 (Ensemble)
02. Data
결측값은 데이터에 값이 없는 경우를 말하며,
가장 간단하게는 평균(Mean), 중앙값(Median), 최빈값(Mode)으로 채울 수 있으며
결측값이 너무 많은 경우
해당 피처를 삭제(Drop)할 수 있음
- 초기값(Default)이나 빈번하게 나타나는 값 또는 랜덤 값으로 채울 수 있음
값이 존재할 수 있는 범위를 벗어나는 경우,
표준편차에서 예외적으로 나타내는 값들을 삭제하거나,
특정 Percentage외에 있는 값들을 삭제(상위 5% 또는 하위 5% 등)하여
처리
- Binding은 근처의 값들을 하나의 범주로 묶게 되면
- 좀더 견고한 모델을 얻게 되는데
- 예를 들어 40에서 50, 50에서 60, 60 이상 등
- 구간을 정해 그룹으로 처리
텍스트로 된 범주형 데이터를 학습에 이용하기 위해서는 숫자 타입으로 변형이 필요한데,
서울(1), 부산(2), 대전(3)으로 범주화하면
대전이 서울보다는 2보다 큰 무엇인가로 오해할 가능성이 생기기 때문에
데이터를 하나의 컬럼으로 만들고
해당 값이 있는지를 0과 1로 표현하는 방법
서로 다른 범위의 데이터들을 같은 범위로 묶어 학습하기 위해
데이터 범위를 0과 1 사이로 변환(정규화)
나이와 재산의 관계를 볼 때,
나이는 1~100까지의 범주를 갖지만, 재산은 0원에서 수 조원까지 아주 넓게 분포할 수 있어
이런 데이터를 정규분포에 맞게 변형 시켜주는 것