본문 바로가기
study

[머신러닝] 오파 00. 간단한 머신러닝 모델 사용하는 방법

by Jyeonni 2021. 12. 31.

머신러닝 모델이란?

데이터를 예측할 때 머신러닝 모델을 훈련시켜 예측한다.

 

예를 들면 와인의 성분에는 산도, 잔당, 도수 등이 있다. 이러한 feature들로 와인의 품질을 예측하려고 한다면 머신러닝 모델로 데이터를 훈련시켜 예측할 수 있다.

 

머신러닝 학습 방법은 지도 학습과 비지도 학습으로 나뉜다. 지도 학습에는 분류와 회귀가 있고 비지도 학습에는 대표적으로 클러스터링이 있다.

tensorflow? scikit-learn?

복잡하고 어려운 모델들을 사용하기 위해 처음부터 끝까지 하나하나 코드를 직접 짜야할까? 당연히 아니다.

 

python 오픈소스 머신러닝 라이브러리를 사용하면 쉽게 모델을 구현할 수 있다. 라이브러리에는 tensorflow, pytorch, scikit-learn 등이 있다.

사이킷런 사용하기

사이킷런을 사용하여 모델을 구현하고 싶다면 사이킷런을 선언하면 된다.

 

import scikit-learn

모델 선언하기

그 다음, 해당 라이브러리로부터 원하는 모듈을 불러오고 모델을 선언한다.

 

from [라이브러리] import [모듈]

model = 모듈명()

import sklearn
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeRegressor()

모델 훈련하기

예측에 사용되는 x 데이터, 예측 결과 변수인 y 데이터로 모델을 훈련한다. 

예를 들어, 코로나 확진자 수를 예측한다고 할 때 y 데이터는 일일코로나확진자수가 되고 x 데이터는 인구밀도, 백신접종자수, 고위험군환자수, 사용가능병상수 등이 있을 것이다.

 

x 데이터는 train data에서 y 데이터를 제외하여 가져온다.

y 데이터는 인덱싱하여 가져온다

 

X_train = train.drop(['제외할컬럼명'], axis = 1)
Y_train = train['예측할컬럼명']

X_train = train.drop(['confirmed'], axis = 1)
Y_train = train['confirmed']

이 데이터들을 가지고 모델을 훈련한다.

model.fit(X_train, Y_train)

예측하기

훈련된 모델로 예측을 하려면 predict 함수를 사용하면 된다.

예측하려는 데이터를 인자로 넣는다.

 

[할당할 array] = model.predict(test)

pred = model.predict(test)
pred[:5]

csv 파일 생성하기

마지막으로 예측한 결과를 파일로 내보내면 된다.

 

1. 빈 파일을 생성한다.

2. 빈 파일의 예측 결과 변수명에 예측 결과를 넣는다.

3. csv 파일을 생성한다.

submission = pd.read_csv('data/submission.csv')
submission['confirmed'] = pred
submission.to_csv('sub.csv',index=False)

출처

 

Lv1 모델링 1/6 python 파이썬 scikit-learn

#오늘의 파이썬 #1일1오파 #파이썬 # python

dacon.io

 

댓글