구글에서 제공하는 머신러닝 단기집중과정
한글로 제공되어 쉽게 접근할 수 있다.
1. ML 문제로 표현하기
머신러닝이란 입력을 결합하여 이전에 본 적이 없는 데이터를 적절히 예측하는 방법을 학습(러닝)
기본 용어
라벨 - 예측하는 항목
밀의 향후 가격, 사진에 표시되는 동물의 종류, 오디오 클립의 의미 등
특성 - 입력 변수
스팸 감지의 경우 입력 변수로는 다음과 같은 것들이 포함
이메일 텍스트의 단어
보내는 사람의 주소
이메일이 전송된 시간
예 - 데이터의 특정 인스턴스
라벨이 있는 예
labeled examples: {features, label}: (x, y)
라벨이 없는 예
unlabeled examples: {features, ?}: (x, ?)
모델 - 특성과 라벨의 관계를 정의
학습 - 모델을 만들거나 배우는 것
라벨이 있는 예를 모델에 보여 주고, 모델이 특성과 라벨의 관계를 점차적 학습
추론 - 학습된 모델을 라벨이 없는 예에 적용
학습된 모델을 사용하여 예측하는 것
회귀 - 연속적인 값을 예측
주택 가격 예측, 광고를 클릭할 확률 예측
분류 - 불연속적인 값을 예측
이미지 분류, 스팸이냐아니냐
2. ML로 전환하기
선형 회귀
2차원 좌표평면에 여러 데이터들이 뿌려져있을 때 하나의 선으로 데이터를 표현할 수 있다.
위의 그림은 귀뚜라미가 1분당 우는 횟수와 섭씨온도의 값을 표현한 것이다.
우는 횟수와 섭씨온도는 위와 같이 하나의 선으로 선형관계를 표시할 수 있다.
하나의 선에 완벽하게 일치하지 않지만 대략적인 표현이 가능하다.
수학적으로는 로 표현 가능하다.
는 섭씨 온도, 예측하려는 값
는 선의 기울기
는 1분당 우는 횟수, 입력 특성 값
는 y절편
머신러닝의 관습에 따라 로 표현 가능하다.
는 예측된 라벨, 얻고자 하는 출력
특성 1의 가중치, 기울기와 같음
특성, 알려진 입력
학습 및 손실
모델을 학습시킨다
라벨이 있는 데이터로부터 올바른 가중치와 편향 값을 결정
경험적 위험 최소화 - 다양한 예를 검토하고 손실을 최소화 하는 모델을 찾는 것
손실 - 잘못된 예측에 대한 벌점
빨간색 화살표 - 손실
파란색 직선 - 예측
손실 함수
제곱 손실
데이터 하나의 제곱 손실은 다음 식으로 나타낼 수 있다.
평균 제곱 오차(MSE, Mean Square Error)는 개별 예의 모든 제곱 손실을 합하고 수로 나누어 나타낸다.
는 예
는 모델이 예측하는데 사용하는 특성 집합 (온도, 나이 등)
는 예의 라벨 (분당 우는 소리)
는 특성 집합와 결합된 가중치 및 편향의 함수
는 쌍과 같이 여러 라벨이 있는 예가 포함된 데이터 세트
은 에 포함된 예의 수
MSE는 흔히 사용되지만, 최선의 손실 함수는 아니다.
출처
머신러닝 단기집중과정 https://developers.google.com/machine-learning/crash-course/
'Dev > 머신러닝(ML)' 카테고리의 다른 글
[ML] 머신러닝 단기집중과정(2) (0) | 2018.04.23 |
---|