본문 바로가기

카테고리 없음

혼공머신 2주차

# 학습정리

 - 회귀는 임의의 수치를 예측하는 문제. 타깃값도 임의의 수치가 된다.

 - k-최근접 이웃 회귀는 k-최근접 이웃 알고리즘을 사용해 회귀 문제를 푼다. 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값을 평균하여 예측으로 사용한다.

 - 결정계수 :  대표적인 회귀 문제의 성능 측정 도구. 1에 가까울수록 좋고 0에 가까우면 성능이 나쁨

 - 과대적합 : 모델의 훈련 세트 성능이 테스트 세트 성능보다 훨씬 높을때. 모델이 훈련에 너무 집착하려 거시적인 패턴을 지하지 못한.

 - 과소적합 : 과대적합의 반대. 훈련,테스트 세트 모두 성능이 낮거나 테스트가 높아진 경우을 나타냄.

 - 선형 회귀 : 특성과 타깃 사이의 관계를 나타내는 선형 방정식을 찾음. 특성이 하나면 직선방정식이 됨.

 - 계수, 가중치 : 선형 회귀가 찾은 특성과 타깃 사이의 관계를 저장하는 선형 방정식의 값. 각각은 기울기와 절편을 의미함.

 - 모델 파라미터 : 선형 회귀가 찾은 가중치처럼 머신러닝 모델이 특성에서 학습한 파라미터를 말함.

 - 다항 회귀 : 다항식을 사용하여 특성과 타깃 사이의 관계를 나타냅. 비선형일수도 있지만 선형으로도 표현 가능.

 - 특성 공학 : 주어진 특성을 조합하여 새로운 특성을 만드는 작업 과정

 - 릿지 : 규제가 있는 선형 회귀 모델 중 하나. 선형 모델의 계수를 작게 만들어 과대적합을 완화함. 효과가 비교적 좋아서 널리 사용하는 규제방법

 - 라쏘 : 선형 회귀 모델. 릿지와 달리 계수를 아예 0으로 만들수도 있음.

 - 하이퍼파라미터 : 머신러닝 알고리즘이 학습하지 않는 파라미터. 사람이 사전에 지정해야함. 대표적으로 릿지와 라쏘의 규제 강도 alpha 파라미터.


# 기본미션 - Ch.03(03-1) 2번 문제 출력 그래프 인증하기

- 과대적합과 과소적합에 대한 이해를 돕기 위해 복잡한 모델과 단순한 모델을 만들겠습니다. 앞서 만든 k-최근접 이웃 회귀 모델의 k 값을 1, 5, 10으로 바꿔가며 훈련해 보세요. 그다음 농어의 길이를 5에서 45까지 바꿔가며 예측을 만들어 그래프로 나타내 보세요. n이 커짐에 따라 모델이 단순해지는 것을 볼 수 있나요?


# 선택미션 - 모델 파라미터에 대해 설명하기

  - 모델 파라미터는 선형 회귀가 찾은 가중치처럼 머신러닝 모델이 특성에서 학습한 파라미터를 말합니다.

  - 선형회귀 알고리즘에서는 coef_, intercept_ 를 알고리즘이 찾은 값으로 확인하였으며, 각각 계수(기울기), 절편을 의미한다.