인공지능 모델 성능 테스트

01. 앙상블 (Ensemble)

Voting

서로 다른 알고리즘의 모델들의 결과 중

다수의 결과를 최종 판단의 근거로 활용

Bagging

각 샘플을 여러번 뽑아 각 모델을 학습시켜

결과를 집계하는 방법

Boosting

여러개의 약한 학습기를 순차적으로 학습,

예측하면서 잘못예측 데이터에 가중치 부여

Stacking

여러 모델을 활용해서 예측결과를 도출 후

예측결과를 결합하여 최종 예측결과 도출

02. Data

Feature Engineering

결측치, 이상치 등 데이터 품질문제 해결과 서로 다른 분포를 가지는 데이터 보정작업

결측값은 데이터에 값이 없는 경우를 말하며,

가장 간단하게는 평균(Mean), 중앙값(Median), 최빈값(Mode)으로 채울 수 있으며

결측값이 너무 많은 경우

해당 피처를 삭제(Drop)할 수 있음

초기값(Default)이나 빈번하게 나타나는 값 또는 랜덤 값으로 채울 수 있음

값이 존재할 수 있는 범위를 벗어나는 경우,

표준편차에서 예외적으로 나타내는 값들을 삭제하거나,

특정 Percentage외에 있는 값들을 삭제(상위 5% 또는 하위 5% 등)하여

처리

Binding은 근처의 값들을 하나의 범주로 묶게 되면
좀더 견고한 모델을 얻게 되는데
예를 들어 40에서 50, 50에서 60, 60 이상 등
구간을 정해 그룹으로 처리

텍스트로 된 범주형 데이터를 학습에 이용하기 위해서는 숫자 타입으로 변형이 필요한데,

서울(1), 부산(2), 대전(3)으로 범주화하면

대전이 서울보다는 2보다 큰 무엇인가로 오해할 가능성이 생기기 때문에

데이터를 하나의 컬럼으로 만들고

해당 값이 있는지를 0과 1로 표현하는 방법

서로 다른 범위의 데이터들을 같은 범위로 묶어 학습하기 위해

데이터 범위를 0과 1 사이로 변환(정규화)

나이와 재산의 관계를 볼 때,

나이는 1~100까지의 범주를 갖지만, 재산은 0원에서 수 조원까지 아주 넓게 분포할 수 있어

이런 데이터를 정규분포에 맞게 변형 시켜주는 것

Cross Validation

훈련(Train)과 시험(Test) 외에 훈련데이터 중 일부를 검증목적으로 활용하는 방법

ㅇ 훈련(Train)과 시험(Test) 데이터로만 학습을 한 모델은 시험 데이터에 과대 적합할 수 있어 훈련 데이터 중 일부 데이터를 검증목적으로 활용하는 기법

* 다양한 상황이 있기 때문에 훈련 데이터 중 검증(Validation) 데이터 비중에 대한 정답은 없으나 훈련 대 검증 데이터 비중을 8:2 내외로 하는 경우가 다수

ㅇ 그림은 데이터를 5개의 부분집합으로 분할(K=5라 표현)한 후 각 분할마다 하나의 폴드를 시험용으로 사용하고 나머지 4개는 훈련용으로 사용

* 이러한 학습과정을 반복하여 각 분할마다 정확도를 높이게 됨

{"google":["Poppins","Raleway"],"custom":["SCDream","Noto Sans KR"]}{"google":["Poppins","Questrial"],"custom":["SCDream","Nanum Barun Gothic","Noto Sans KR"]}

AI검증원소개 ｜ 이용약관 ｜ 개인정보취급방침

㈜탈피오트컨설팅 | 한국인공지능검증원 | 대표이사 강문정 |

본사) 서울시 성동구 왕십리로 58. 서울숲포휴 416호

사업자등록번호 : 880-81-02140

KAIC ｜ Terms of service ｜ Privacy Policy

KAIC corp. | CEO. Doctor Kang | 416. FORHU B/D. 58, Wangsimni-ro, Seongdong-gu, Seoul, Republic of Korea
Company Registration Number : 880-81-02140 TEL : +82-2-2135-4264 FAX : +82-2-6280-3134 MAIL : ai@aicerti.com

{"google":[],"custom":["Noto Sans KR"]}