목차
1장 데이터 분석 시작하기
1.1 데이터 분석
1.2 개발 환경 구축(구글 코랩)
구글 코랩 개요
구글 코랩 주요 특징
구글 코랩 시작
구글 코랩 환경설정
데이터 불러오기
코드 작성 및 실행
깨짐 오류 해결
마무리 실습문제
마무리 실습문제 정답
2장 NumPy
2.1 NumPy 개요
NumPy 개념
NumPy 특징
NumPy 확인
NumPy와 리스트의 차이점
2.2 배열 생성
np.array( ) 함수
np.zeros( ) 함수
np.ones( ) 함수
np.full( ) 함수
np.empty( ) 함수
np.arange( ) 함수
np.linspace( ) 함수
2.3 배열의 주요 속성
shape 속성
dtype 속성
size 속성
ndim 속성
flat 속성
2.4 배열의 데이터 타입
기본 데이터 타입
데이터 타입 변환 - astype( ) 함수
2.5 배열의 인덱싱
기본 인덱싱
다차원 배열 인덱싱
음수 인덱싱
다차원 배열에서의 음수 인덱싱
Boolean 인덱싱
팬시 인덱싱
다중 팬시 인덱싱
2.6 배열의 슬라이싱
기본 슬라이싱
다차원 배열 슬라이싱
슬라이싱을 이용한 행/열 선택
음수 슬라이싱
Boolean 배열을 사용한 슬라이싱
배열을 사용한 슬라이싱
2.7 배열의 연산
산술 연산
지수 연산
배열의 비교 연산
배열과 스칼라 연산
논리 연산
제곱근
2.8 배열 비교
요소별 비교
배열 간 비교
np.all( )
np.any( )
np.array_equal( )
2.9 배열 병합
2.10 배열 정렬
1차원 배열 정렬
다차원 배열 정렬
내림차순 정렬
원본 배열 정렬 - ndarray.sort( )
다중 조건 정렬 - np.lexsort( )
2.11 배열 필터링
기본 필터링
다차원 배열 필터링
np.where( )를 사용한 필터링
마스크 배열을 이용한 필터링 - ma.array( )
복합 조건을 사용한 필터링
np.extract( )를 사용한 조건 기반 추출
2.12 배열의 통계
최솟값 - np.min( )
최댓값 - np.max( )
데이터 범위 - np.ptp( )
합계(Sum) - np.sum( )
평균(Mean) - np.mean( )
중위수(Median) - np.median( )
분산(Variance) - np.var( )
표준편차(Standard Deviation) - np.std( )
사분위수(Quantiles) - np.percentile( )
마무리 실습문제
마무리 실습문제 정답
3장 Pandas
3.1 Pandas 개요
Pandas 개념
Pandas 특징
Pandas 확인
NumPy와 Pandas
3.2 Series
Series 개념
Series 특징
Series와 리스트의 차이점
Series 생성 방법
Series 구조 확인
데이터 조회
인덱싱 및 슬라이싱
데이터 추가
Series 값 수정
인덱스 이름 변경 - rename( )
데이터 통계 및 요약
고윳값 확인
데이터 필터링 및 조건 선택
Series의 데이터 연결 - concat( )
데이터 정렬
데이터 그룹화 및 집계
3.3 DataFrame
DataFrame 개념
DataFrame과 리스트의 차이점
DataFrame 생성 방법
DataFrame 구조 확인
데이터 조회
인덱싱 및 슬라이싱
데이터 추가
DataFrame 값 수정
열 이름 변경
데이터 통계 및 요약
고윳값 확인
데이터 필터링 및 조건 선택 - 다중 조건 필터링
데이터 병합 및 결합
데이터 정렬
데이터 그룹화 및 집계
3.4 Series와 DataFrame
Series와 DataFrame의 차이점
마무리 실습문제
마무리 실습문제 정답
4장 matplotlib
4.1 matplotlib 개요
matplotlib 개념
matplotlib 설치
4.2 matplotlib 기능
플롯(Plot)
선 그래프(Line Plot)
막대 그래프(Bar Chart)
파이 차트(Pie Chart)
산점도(Scatter Plot)
히스토그램(Histogram)
서브플롯(subplot)
플롯 이미지
4.3 seaborn 개요 및 기능
seaborn 개념
seaborn 설치
히트맵(Heatmap)
클러스터맵(Clustermap)
박스플롯(Boxplot)
카운트플롯(Countplot)
마무리 실습문제
마무리 실습문제 정답
5장 데이터 전처리
5.1 데이터 준비 및 불러오기
CSV 파일 불러오기
엑셀 파일 불러오기
JSON 파일 불러오기
5.2 데이터 탐색
데이터 구조 이해
통계적 요약
5.3 데이터 전처리
데이터 결측값 처리
중복 데이터 제거
5.4 데이터 변환
데이터 형식 변환
범주형 데이터 인코딩
데이터 정규화 및 표준화
데이터 인덱싱
데이터 슬라이싱
데이터 정렬
5.5 데이터 저장
CSV 형식으로 저장
Excel 형식으로 저장
JSON 형식으로 저장
마무리 실습문제
마무리 실습문제 정답
6장 데이터 분석
6.1 마케팅 및 고객 분석
6.2 금융 및 리스크 관리
6.3 의료 및 헬스케어
6.4 제조 및 품질관리
6.5 공공 정책 및 사회 문제 해결
7장 케글(kaggle) 실습
7.1 케글(kaggle) 개요
케글 개념
케글 특징
케글 준비
7.2 케글 실습
타이타닉 생존자 예측 문제(Titanic - Machine Learning from Disaster)
주택 가격 예측 문제(House Prices - Advanced Regression Techniques)
신용카드 사기 탐지 문제(Credit Card Fraud Detection)
8장 공공데이터 실습
8.1 공공데이터 개요
공공데이터 개념
공공데이터 특징
8.2 공공데이터 실습
대기오염 데이터 분석
서울시 자전거 대여 데이터 분석
지역별 인구통계 데이터 분석
별책부록 핵심노트
핵심 필기노트
핵심 용어노트