About_Datascience/ML
-
[ SVM을 이용한 얼굴 사진 분류모델 ]About_Datascience/ML 2023. 3. 17. 21:38
이번엔 SVM을 이용한 얼굴 사진 분류모델을 생성 후 Hyper Parameter Tuning 전과 후를 비교해서 Evaluation 해보고자 한다. 1. 필요한 Library Import import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.svm import SVC from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.model_selection import GridSearchCV from sklearn.metrics import accuracy_score..
-
[ Iris data를 이용한 SVM kernel 실습 ]About_Datascience/ML 2023. 3. 17. 21:15
1. 필요한 Library Import import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.svm import SVC np.random.seed(2021) 2. Load data from sklearn.datasets import load_iris iris = load_iris() data = iris.data target = iris.target 두 개의 그룹을 분류하는 SVM 모델 사용을 위해 데이터를 조금 줄여서 진행하도록 하자. data = data[target != 0, :2] target = target..
-
[ About _ SVM 이론 ]About_Datascience/ML 2023. 3. 17. 20:42
기본적으로 SVM(Support Vector Machine) 은 두 개의 그룹(데이터)을 분리하는 방법으로 데이터로부터 거리가 가장 먼 초평면(hyperplane) 을 선택하여 분리하는 방법이다. 간단히 말하면 결정 경계 (Decision Boundary)를 정의하는 모델이라고 할 수 있다. SVM의 구성요소로는 Support Vector, Margin, Decision Boundary 가 있으며 Support Vector 는 두 클래스 사이의 경계에 위치한 데이터 포인트들이며 Margin 은 Decision Boundary와 Support Vector 사이의 거리 x 2 이고, 초평면과 가장 가까이 있는 데이터와의 거리를 의미한다. 이 Margin은 직선이 한 쪽 데이터로 치우쳐져 있으면 데이터에 변동..
-
[ 보험료 예측 모델 생성(2) _ 다양한 Regression model ]About_Datascience/ML 2023. 3. 13. 17:36
저번 EDA 및 전처리를 통해 학습을 시키기 위한 데이터가 준비되었으니 이번엔 다양한 Regression model 들을 이용하여 모델링을 진행해보고 평가까지 해보고자 한다. 다양한 Regression 을 활용한 보험료 예측 모델 0. Import Necessary Module import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import missingno as msno from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import StandardScaler from sklearn.preprocessing i..
-
[ 보험료 예측 모델 생성(1) _ 간단한 EDA 및 전처리 ]About_Datascience/ML 2023. 3. 13. 15:48
이번에는 보험사 고객 정보 데이터셋을 가지고 간단한 EDA 및 모델링 프로젝트를 진행할 예정이다. 데이터를 간단히 살펴보면 age : 고객 나이 sex : 고객 성별 bmi : 고객 bmi 지수 children : 고객의 자녀 수 smoker : 고객의 흡연 여부 region : 고객 거주 지역 정보 charges : 고객에게 부과되는 보험료 간단한 EDA 및 전처리를 하기 전 확인해야 할 체크리스트를 정리해보았다. 어떤 질문을 풀거나 틀렸다고 증명하려 하는가 ? 중복된 데이터가 있는가 ? 어떤 종류의 데이터가 있으며 다른 데이터 타입들을 어떻게 다루려 하는가 ? 데이터에 Null 값이 존재하는지 , 있다면 그것들을 어떻게 처리하려 하는가? 이상치가 존재하는가 ? 그 이상치는 관심을 가져야 할 데이터인가..