본문 바로가기

Dev/머신러닝(ML)

[ML] 머신러닝 단기집중과정(1)

구글에서 제공하는 머신러닝 단기집중과정

한글로 제공되어 쉽게 접근할 수 있다.


1. ML 문제로 표현하기

머신러닝이란 입력을 결합하여 이전에 본 적이 없는 데이터를 적절히 예측하는 방법을 학습(러닝)


기본 용어

라벨 - 예측하는 항목

밀의 향후 가격, 사진에 표시되는 동물의 종류, 오디오 클립의 의미 등


특성 - 입력 변수

스팸 감지의 경우 입력 변수로는 다음과 같은 것들이 포함

이메일 텍스트의 단어

보내는 사람의 주소

이메일이 전송된 시간


예 - 데이터의 특정 인스턴스

라벨이 있는 예

labeled examples: {features, label}: (x, y)

라벨이 없는 예

unlabeled examples: {features, ?}: (x, ?)


모델 - 특성과 라벨의 관계를 정의

학습 - 모델을 만들거나 배우는 것

라벨이 있는 예를 모델에 보여 주고, 모델이 특성과 라벨의 관계를 점차적 학습

추론 - 학습된 모델을 라벨이 없는 예에 적용

학습된 모델을 사용하여 예측하는 것


회귀 - 연속적인 값을 예측

주택 가격 예측, 광고를 클릭할 확률 예측


분류 - 불연속적인 값을 예측

이미지 분류, 스팸이냐아니냐



2. ML로 전환하기

선형 회귀

2차원 좌표평면에 여러 데이터들이 뿌려져있을 때 하나의 선으로 데이터를 표현할 수 있다.


위의 그림은 귀뚜라미가 1분당 우는 횟수와 섭씨온도의 값을 표현한 것이다.


우는 횟수와 섭씨온도는 위와 같이 하나의 선으로 선형관계를 표시할 수 있다.

하나의 선에 완벽하게 일치하지 않지만 대략적인 표현이 가능하다.


수학적으로는  로 표현 가능하다.

는 섭씨 온도, 예측하려는 값

는 선의 기울기

는 1분당 우는 횟수, 입력 특성 값

는 y절편


머신러닝의 관습에 따라  로 표현 가능하다.

는 예측된 라벨, 얻고자 하는 출력

특성 1의 가중치, 기울기와 같음

특성, 알려진 입력



학습 및 손실

모델을 학습시킨다

라벨이 있는 데이터로부터 올바른 가중치와 편향 값을 결정


경험적 위험 최소화 - 다양한 예를 검토하고 손실을 최소화 하는 모델을 찾는 것


손실 - 잘못된 예측에 대한 벌점


빨간색 화살표 - 손실

파란색 직선 - 예측


손실 함수

제곱 손실

데이터 하나의 제곱 손실은 다음 식으로 나타낼 수 있다.


평균 제곱 오차(MSE, Mean Square Error)는 개별 예의 모든 제곱 손실을 합하고 수로 나누어 나타낸다.

는 예

는 모델이 예측하는데 사용하는 특성 집합 (온도, 나이 등)

는 예의 라벨 (분당 우는 소리)

는 특성 집합와 결합된 가중치 및 편향의 함수

는 쌍과 같이 여러 라벨이 있는 예가 포함된 데이터 세트

은 에 포함된 예의 수


MSE는 흔히 사용되지만, 최선의 손실 함수는 아니다.



출처

머신러닝 단기집중과정 https://developers.google.com/machine-learning/crash-course/

'Dev > 머신러닝(ML)' 카테고리의 다른 글

[ML] 머신러닝 단기집중과정(2)  (0) 2018.04.23