본문 바로가기

AI/Machine Learning

(5)
[파이썬 머신러닝 완벽 가이드 정리] 2. 사이킷런으로 시작하는 머신러닝 - #1 붓꽃 품종 예측 In [1]: import sklearn print(sklearn.__version__) 0.23.2 In [2]: from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split 데이터 세트 로딩¶ In [5]: import pandas as pd #붓꽃 데이터 세트 로딩 iris = load_iris() #iris.data는 iris데이터 세트에서 피쳐만으로된 데이터를 numpy로 가지고 있음. iris_data = iris.data #iris.target은 붓꽃 데이터 세트에서 결정값(레이블)을 numpy로 가지고 ..
[파이썬 머신러닝 완벽 가이드 정리] 1. 파이썬 기반의 머신러닝과 생태계 이해 - #3 Pandas (2) Aggregation함수와 Group by 수행 DataFrame/Series에서 집계함수를 사용할수있습니다. 데이터베이스의 집계함수와 비슷하다고 접근하면 이해에 도움이 됩니다. Aggregation 함수를 수행할때 axis를 명시하지 않으면 axis=0이 기본값으로 설정됩니다. 보통 axis=1인 행방향 계산은 많이 안한다고합니다. 그래도 기억하기!-! Group By DataFrame의 groupby()인자로 컬럼명을 입력하면 입력된 컬럼명을 기반으로 groupby라는 중간집합을 만들어 줍니다. → DataFrameGroupBy 객체를 반환합니다. 이렇게 반환된 객체에 aggregation 함수를 수행합니다. axis = 1 은 모든 행에 대해서 집계 함수를 수행하기때문에 length가 데이터의 row길이 임을 확인할 수 있습니다. count 함수..
[파이썬 머신러닝 완벽 가이드 정리] 1. 파이썬 기반의 머신러닝과 생태계 이해 - #3 Pandas 2차원 데이터 핸들링을 위해서는 판다스를 사용하자! 데이터 처리를 직접 수행해보면서 문제에 부딪힐때마다 판다스의 다양한 API 를 찾아서 해결해 가자! 주요 구성 요소 - DataFrame,Series,Index DataFrame Column * Rows 2차원 데이터셋. 행 번호는 Index로 고유한 Key객체이다. Series 1개의 Column값으로 구성된 1차원 데이터 셋 기본적으로 Pandas의 DataFrame은 ndarray로 구성된다. DataFrame에서 Series 추출 및 DataFrame 필터링 추출 DataFrame객체에서 [ ]연산자내에 한개의 컬럼만 입력하면 Series 객체 반환 DataFrame객체에서 [] 연산자내에 한개의 컬럼을 리스트로 입력하면 한개의 컬럼으로 구성된 ..
[파이썬 머신러닝 완벽 가이드 정리] 1. 파이썬 기반의 머신러닝과 생태계 이해 - #2 Numpy Numpy ndarray : N차원 배열 객체 한 개의 ndarray객체에 같은 데이터 타입만 존재해야 한다. 즉, 한 개의 ndarray객체에 int와 float가 함께 있을수없다. ndarrray 데이터 타입 확인 연산 : ndarray.dtype import numpy as np array1 = np.array([1,2,3] #shape(3,) 1차원 요소를 3개만 가지고 있다. array1 = np.array([1,2,3],[2,3,4]) #shape (2,3) 2행 3열 ndarray 타입 변환 대용량 데이터를 다룰 시 메모리 절약을 위해서 형변환을 고려해야한다. astype()을 이용하여 변환. ndarray 편리하게 생성하기 - arange, zeros, ones reshape() : nda..
[파이썬 머신러닝 완벽 가이드 정리] 1. 파이썬 기반의 머신러닝과 생태계 이해 - #1 1. 머신 러닝 개념 머신러닝이란 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법. 머신러닝, 왜 필요한가? 수시로 변하는 업무 환경, 정책, 사용자 성향에 따른 애플리케이션의 구현 어려움 많은 자원과 비용을 통해서 구현된 애플리케이션의 예측 정확성 문제 이러한 문제를 데이터 기반으로 숨겨진 패턴을 인지해 해결할수있다. 데이터를 기반으로 통게적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출해냅니다. 예측과 추론을 수행함으로써 신뢰도 있는 예측 결과를 도출해 낸다. 머신러닝의 분류 지도 학습 : 명확한 결정값이 주어진 데이터를 학습. 특정 레이블을 줘야함. 예를들어..