목차
1장 프로그래밍과 통계학 소개
R과 Python을 위한 코드 저장소(Repository)와 빠른 시작 방법
요약
연습문제
2장 데이터 요약과 시각화
인덱싱과 부분추출
조건 지정하기
데이터 요약하기
팩터 변수(Factor Variables)
R에서 수치형 변수(Numerical Variables)
Python에서 수치형 변수(Numerical Variables)
ggplot2로 그래프 그리기
변수 하나로 그래프 그리기
수치형 변수(Numerical Variables)
다중 변수로 그래프 그리기
다중 수치형 변수
다중 팩터 변수
상호 작용 그래프
사용 사례: 산업체 가치 평가 시각화
요약
연습문제
3장 데이터 관리와 준비
데이터 관리
열 선택하기
보조 함수(Helper Functions)
데이터 필터
코드 간소화
열 이름 변경
열 복사
열 정렬
그룹화(Group By)
팩터 변수 기록
사용 사례: Pandas에서 판매 데이터 필터와 정렬, 분할(Bin)
요약
연습문제
4장 프로그래밍 기초
기능들
반복(Looping)
벡터화를 통한 반복문(Loops) 대체
While 문(While Loops)
요약
연습문제
5장 확률, 확률 변수 및 분포
확률 변수
표본 크기
경험적 분포 함수
실용적인 예제
분포의 평균과 분산
일반적으로 사용되는 분포
R과 Python에서 분포 활용
사용 사례: 판매 데이터에서 확률과 분포
요약
연습문제
6장 분포
다중분포
일변량 및 다변량 분포
변형과 합성곱(Transformations and Convolutions)
표본분포(SAMPLING DISTRIBUTIONS)
요약
연습문제
7장 통계 검정 - 개념과 전략
기초 개념
통계 검정 전략
순열 검정법
P-value
판단의 시간
꼬리 이야기
P-value 산출 함수 만들기
심판이 되어 보기
신뢰 구간
요약
연습문제
8장 통계 검정
연속 데이터 통계 검정
범주형 데이터 통계 검정
연속 데이터 두 개에 대한 통계 검정
범주형 데이터 두 개에 대한 통계 검정
요약
연습문제
9장 비모수적 검증
중앙값 검정
두 표본 검정(TWO-SAMPLE TEST)
상관관계 검정
부트스트래핑
합성 데이터와 GANs
요약
연습문제
10장 현실 직시(PDF로 제공)
요양원과 Covid-19
요약
연습문제
11장 추정의 기본 원칙
우도(Likelihood) 원칙
수학적 최적화
또 다른 분산
연산 최적화
수치 결과
이진 결과
몇 가지 주의할 점
요약
연습 문제
12장 선형 모델 추정
선형 회귀 분석 모델
R과 Python에서 회귀 분석 함수
사용 예제: 선형 회귀 분석을 이용한 이익 예측
요약
연습문제
13장 일반 선형 모델
이진 결과
가산 결과
모델 적합도
R과 Python에서 함수
R
요약
연습문제
14장 회귀 분석과 구조
진단
이분산성(Heteroscedasticity)
다중 공선성(Multicollinearity)
회귀 분석 구조
변수 선정
사용 사례: 이익 예측, 안전 우선 선형 회귀를 위한 단계
요약
연습문제
15장 시계열(imeseries) 및 예측
시계열 구성: 트렌드, 계절성 및 노이즈(Noise)
데이터 준비: 이동 평균을 이용한 계절성 제거
간단 예측: 외삽(Extrapolation)
예측가의 가장 친한 친구: 시간 의존성(자기 상관)
자기회귀 분석(Autoregression, AR)을 이용한 예측
변화 예측: 트렌드가 당신의 친구가 아닐 때
예측 킬러: 유동성(Nonstationarities)
변화 예측: AR과 MA 결합(ARIMA)
요약
연습문제
16장 머신러닝 소개
예제 1: 분류 모델에 의사결정 트리(Decision Tree) 적용
예측 및 정확도(Accuracy)
일반화(Generalization), 과적합(Overfitting), 정규화(Regularization)
예제 2: 모델을 정규화하여 일반화 개선
요약
연습문제
17장 모델 선택과 교차 검증
모델 선택
다른 분류기- 최근접 이웃(Nearest Neighbour)
하이퍼-파라미터 튜닝(Hyper-Parameter Tuning)
모델 성능 추정
사용 사례: 어플리케이션 등급을 모델링하는 의사결정 트리
요약
연습문제
18장 머신러닝에서 선형 회귀 분석 모델
손실 최소화 vs 모델 추정
선형 회귀 분석
최소 제곱 최적화(Least Squares Optimization)
회귀 분석 예제
과소적합(Underfitting)을 해결하기 위한 피쳐 확장
비선형 모델 최적화
더 어려운 학습 문제
요약
연습문제
19장 분류 모델 및 평가
분류 및 확률
서로 다른 분류기 비교
합성 데이터 예제 1
합성 데이터 예제 2
머신러닝 이론에 대한 개요
사용 사례: 신용 위험 - 불량 신용 식별
클래스 불균형 다루기
요약
연습문제
20장 머신러닝 자동화(PDF로 제공)
모델링 파이프라인 자동화
요약
연습문제
찾아보기