머신러닝 모델이란?
데이터를 예측할 때 머신러닝 모델을 훈련시켜 예측한다.
예를 들면 와인의 성분에는 산도, 잔당, 도수 등이 있다. 이러한 feature들로 와인의 품질을 예측하려고 한다면 머신러닝 모델로 데이터를 훈련시켜 예측할 수 있다.
머신러닝 학습 방법은 지도 학습과 비지도 학습으로 나뉜다. 지도 학습에는 분류와 회귀가 있고 비지도 학습에는 대표적으로 클러스터링이 있다.
tensorflow? scikit-learn?
복잡하고 어려운 모델들을 사용하기 위해 처음부터 끝까지 하나하나 코드를 직접 짜야할까? 당연히 아니다.
python 오픈소스 머신러닝 라이브러리를 사용하면 쉽게 모델을 구현할 수 있다. 라이브러리에는 tensorflow, pytorch, scikit-learn 등이 있다.
사이킷런 사용하기
사이킷런을 사용하여 모델을 구현하고 싶다면 사이킷런을 선언하면 된다.
import scikit-learn
모델 선언하기
그 다음, 해당 라이브러리로부터 원하는 모듈을 불러오고 모델을 선언한다.
from [라이브러리] import [모듈]
model = 모듈명()
import sklearn
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeRegressor()
모델 훈련하기
예측에 사용되는 x 데이터, 예측 결과 변수인 y 데이터로 모델을 훈련한다.
예를 들어, 코로나 확진자 수를 예측한다고 할 때 y 데이터는 일일코로나확진자수가 되고 x 데이터는 인구밀도, 백신접종자수, 고위험군환자수, 사용가능병상수 등이 있을 것이다.
x 데이터는 train data에서 y 데이터를 제외하여 가져온다.
y 데이터는 인덱싱하여 가져온다
X_train = train.drop(['제외할컬럼명'], axis = 1)
Y_train = train['예측할컬럼명']
X_train = train.drop(['confirmed'], axis = 1)
Y_train = train['confirmed']
이 데이터들을 가지고 모델을 훈련한다.
model.fit(X_train, Y_train)
예측하기
훈련된 모델로 예측을 하려면 predict 함수를 사용하면 된다.
예측하려는 데이터를 인자로 넣는다.
[할당할 array] = model.predict(test)
pred = model.predict(test)
pred[:5]
csv 파일 생성하기
마지막으로 예측한 결과를 파일로 내보내면 된다.
1. 빈 파일을 생성한다.
2. 빈 파일의 예측 결과 변수명에 예측 결과를 넣는다.
3. csv 파일을 생성한다.
submission = pd.read_csv('data/submission.csv')
submission['confirmed'] = pred
submission.to_csv('sub.csv',index=False)
출처
Lv1 모델링 1/6 python 파이썬 scikit-learn
#오늘의 파이썬 #1일1오파 #파이썬 # python
dacon.io
'study' 카테고리의 다른 글
[데이터] PA 01. 사이트 속도와 이탈률 (Site Speed, Bounce Rate) (0) | 2022.02.04 |
---|---|
[머신러닝] 오파 01. 의사결정나무 모델 (Decision Trees) (0) | 2022.01.28 |
[데이터] DA 01. 판다스 데이터 프레임에서 NaN값 확인하는 법 (0) | 2022.01.26 |
댓글