About_Datascience
-
[ SVM을 이용한 얼굴 사진 분류모델 ]About_Datascience/ML 2023. 3. 17. 21:38
이번엔 SVM을 이용한 얼굴 사진 분류모델을 생성 후 Hyper Parameter Tuning 전과 후를 비교해서 Evaluation 해보고자 한다. 1. 필요한 Library Import import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.svm import SVC from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.model_selection import GridSearchCV from sklearn.metrics import accuracy_score..
-
[ Iris data를 이용한 SVM kernel 실습 ]About_Datascience/ML 2023. 3. 17. 21:15
1. 필요한 Library Import import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.svm import SVC np.random.seed(2021) 2. Load data from sklearn.datasets import load_iris iris = load_iris() data = iris.data target = iris.target 두 개의 그룹을 분류하는 SVM 모델 사용을 위해 데이터를 조금 줄여서 진행하도록 하자. data = data[target != 0, :2] target = target..
-
[ About _ SVM 이론 ]About_Datascience/ML 2023. 3. 17. 20:42
기본적으로 SVM(Support Vector Machine) 은 두 개의 그룹(데이터)을 분리하는 방법으로 데이터로부터 거리가 가장 먼 초평면(hyperplane) 을 선택하여 분리하는 방법이다. 간단히 말하면 결정 경계 (Decision Boundary)를 정의하는 모델이라고 할 수 있다. SVM의 구성요소로는 Support Vector, Margin, Decision Boundary 가 있으며 Support Vector 는 두 클래스 사이의 경계에 위치한 데이터 포인트들이며 Margin 은 Decision Boundary와 Support Vector 사이의 거리 x 2 이고, 초평면과 가장 가까이 있는 데이터와의 거리를 의미한다. 이 Margin은 직선이 한 쪽 데이터로 치우쳐져 있으면 데이터에 변동..
-
[ 보험료 예측 모델 생성(2) _ 다양한 Regression model ]About_Datascience/ML 2023. 3. 13. 17:36
저번 EDA 및 전처리를 통해 학습을 시키기 위한 데이터가 준비되었으니 이번엔 다양한 Regression model 들을 이용하여 모델링을 진행해보고 평가까지 해보고자 한다. 다양한 Regression 을 활용한 보험료 예측 모델 0. Import Necessary Module import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import missingno as msno from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import StandardScaler from sklearn.preprocessing i..
-
[ 보험료 예측 모델 생성(1) _ 간단한 EDA 및 전처리 ]About_Datascience/ML 2023. 3. 13. 15:48
이번에는 보험사 고객 정보 데이터셋을 가지고 간단한 EDA 및 모델링 프로젝트를 진행할 예정이다. 데이터를 간단히 살펴보면 age : 고객 나이 sex : 고객 성별 bmi : 고객 bmi 지수 children : 고객의 자녀 수 smoker : 고객의 흡연 여부 region : 고객 거주 지역 정보 charges : 고객에게 부과되는 보험료 간단한 EDA 및 전처리를 하기 전 확인해야 할 체크리스트를 정리해보았다. 어떤 질문을 풀거나 틀렸다고 증명하려 하는가 ? 중복된 데이터가 있는가 ? 어떤 종류의 데이터가 있으며 다른 데이터 타입들을 어떻게 다루려 하는가 ? 데이터에 Null 값이 존재하는지 , 있다면 그것들을 어떻게 처리하려 하는가? 이상치가 존재하는가 ? 그 이상치는 관심을 가져야 할 데이터인가..
-
[About _ Git _ add, commit , push]About_Datascience/Git 2023. 2. 6. 09:54
오늘은 Git 의 아주 기본적이면서 또 매우 중요한 add , commit , push 하는 방법에 대해 기록하고자 한다. 처음에 git 을 배울 때는 IT쪽에 관심이 있는 사람이라면 누구나 들어봤을 git이지만 '내가 이걸 굳이 내가 배워야 하나..?' 라는 의구심이 들었지만 배워보니 안 배우고 현업에 갔다가는 큰일날 뻔.. 했겠다.. 라는 생각을 가지게 되었다..! git은 생소하고 어색했지만 신기하고 재밌었다 ! 우선 git은 컴퓨터 파일의 변경사항을 추적하고 여러 명의 사용자들 간에 해당 파일들의 작업을 조율하기 위한 스냅샷 기반의 분산 버전 관리 시스템이다. 우선 git 은 mac os 유저는 이미 설치가 되어 있다고 한다 ! 혹시 설치가 되지 않은 분들은 %brew install git bre..
-
[About _ MySQL _ INDEX]About_Datascience/SQL 2023. 2. 3. 10:46
INDEX 는 검색 속도가(READ) 빨라지게 하기 위해 사용된다. 그러나 저장공간을 10% 정도 더 차지하고 INSERT , DELETE , UPDATE 를 할 때 속도가 느려지기 때문에 필요한 상황에 맞게 사용하는 것이 중요할 것 같다. INDEX는 테이블의 컬럼 단위로 설정 가능하고 INDEX에는 두 가지 종류가 있다. 첫 번째로 클러스터형 인덱스는 검색 속도에 큰 영향을 주지 않기 때문에 검색 속도에는 큰 의미가 없지만 데이터 정렬해주는 기능을 갖고 있다. 두 번째로 보조 인덱스 (secondary) 가 있는데 보조 인덱스가 우리가 생각하는 검색 속도 향상에 영향을 주는 인덱스이다. # index 출력 SHOW INDEX FROM salaries; INDEX의 주 기능인 검색 속도 향상을 확인해보..
-
[About _ MySQL _ Sub Query]About_Datascience/SQL 2023. 2. 2. 19:37
sub query는 query 문 안에 있는 query를 의미하며 SELECT절 , FROM절, WHERE 등에 사용이 가능하다. 1. SELECT 절에 사용되는 Sub Query 문 # 전체 국가 수, 전체 도시 수, 전체 언어 수를 1개의 row로 출력하는 구문 # SELECT 안에 또 SELECT 구문을 넣어 sub query작성 SELECT (SELECT COUNT(*) FROM country) AS total_country, (SELECT COUNT(*) FROM city) AS total_city, (SELECT COUNT(distinct(language))) FROM countrylanguage AS total_language; 2. FROM 절에 사용되는 Sub Query문 world da..