목차
옮긴이 머리말 xiii
베타리더 후기 xiv
시작하며 xvii
감사의 글 xix
CHAPTER 01 서론 1
1.1 지도 학습 2
1.2 비지도 학습 8
1.3 강화 학습 12
1.4 윤리 14
1.5 이 책의 구성 17
1.6 추천 도서 18
1.7 이 책을 읽는 방법 19
_참고 문헌 21
CHAPTER 02 지도 학습 23
2.1 지도 학습 개요 24
2.2 선형회귀 예 25
2.3 요약 30
_노트 30
_연습 문제 31
CHAPTER 03 얕은 신경망 33
3.1 신경망의 예 33
3.2 보편 근사 정리 37
3.3 다변량 입력과 출력 38
3.4 얕은 신경망: 일반적인 경우 43
3.5 용어 44
3.6 요약 45
_노트 46
_연습 문제 50
_참고 문헌 53
CHAPTER 04 심층 신경망 55
4.1 신경망 결합 55
4.2 네트워크 결합을 통한 심층 신경망 구성 58
4.3 심층 신경망 59
4.4 행렬 표기법 63
4.5 얕은 신경망 vs. 심층 신경망 65
4.6 요약 67
_노트 68
_연습 문제 71
_참고 문헌 74
CHAPTER 05 손실 함수 75
5.1 최대 우도 76
5.2 손실 함수 구성 방법 80
5.3 예제 1: 단변량 회귀분석 80
5.4 예제 2: 이진 분류 86
5.5 예제 3: 다중 클래스 분류 88
5.6 다중 출력 91
5.7 교차 엔트로피 손실 92
5.8 요약 94
_노트 95
_연습 문제 97
_참고 문헌 101
CHAPTER 06 모델 적합 103
6.1 경사 하강법 103
6.2 확률적 경사 하강법 110
6.3 모멘텀 113
6.4 적응 모멘트 추정 115
6.5 훈련 알고리즘 하이퍼파라미터 118
6.6 요약 119
_노트 120
_연습 문제 124
_참고 문헌 127
CHAPTER 07 기울기와 초기화 129
7.1 문제 정의 129
7.2 미분 계산 131
7.3 간단한 예시 133
7.4 역전파 알고리즘 137
7.5 매개변수 초기화 143
7.6 훈련 코드 예제 147
7.7 요약 149
_노트 149
_연습 문제 153
_참고 문헌 157
CHAPTER 08 성능 측정 159
8.1 간단한 모델 훈련 159
8.2 오차의 원인 161
8.3 오차 줄이기 166
8.4 이중 하강 170
8.5 하이퍼파라미터 선택 174
8.6 요약 175
_노트 176
_연습 문제 181
_참고 문헌 183
CHAPTER 09 정칙화 185
9.1 명시적 정칙화 185
9.2 암묵적 정칙화 189
9.3 성능 향상을 위한 경험적 방법 192
9.4 요약 202
_노트 203
_연습 문제 212
_참고 문헌 214
CHAPTER 10 합성곱 네트워크 219
10.1 불변성과 등변성 220
10.2 1차원 입력에 대한 합성곱 네트워크 221
10.3 2차원 입력에 대한 합성곱 네트워크 229
10.4 다운샘플링과 업샘플링 230
10.5 응용 233
10.6 요약 239
_노트 240
_연습 문제 246
_참고 문헌 249
CHAPTER 11 잔차 신경망 253
11.1 순차 처리 253
11.2 잔차 연결과 잔차 블록 256
11.3 잔차 신경망의 기울기 폭발 260
11.4 배치 정규화 262
11.5 일반적인 잔차 신경망 264
11.6 잔차 연결이 있는 신경망의 성능이 우수한 이유 271
11.7 요약 272
_노트 272
_연습 문제 280
_참고 문헌 282
CHAPTER 12 트랜스포머 285
12.1 텍스트 데이터 처리 285
12.2 점곱 셀프 어텐션 286
12.3 점곱 셀프 어텐션 확장 292
12.4 트랜스포머 층 295
12.5 자연어 처리를 위한 트랜스포머 296
12.6 인코더 모델의 예: BERT 300
12.7 디코더 모델의 예: GPT-3 303
12.8 인코더-디코더 모델의 예: 기계 번역 308
12.9 긴 시퀀스 처리를 위한 트랜스포머 310
12.10 이미지 처리를 위한 트랜스포머 311
12.11 요약 316
_노트 316
_연습 문제 328
_참고 문헌 330
CHAPTER 13 그래프 신경망 337
13.1 그래프란 무엇일까? 337
13.2 그래프 표현 340
13.3 그래프 신경망, 작업, 손실 함수 344
13.4 그래프 합성곱 네트워크 346
13.5 그래프 분류 예 349
13.6 귀납적 모델 vs. 전이적 모델 350
13.7 노드 분류 예 352
13.8 그래프 합성곱 네트워크 층 355
13.9 에지 그래프 359
13.10 요약 360
_노트 361
_연습 문제 370
_참고 문헌 373
CHAPTER 14 비지도 학습 377
14.1 비지도 학습 모델 분류 378
14.2 좋은 생성 모델의 특징 380
14.3 성능 정량화 381
14.4 요약 384
_노트 384
_참고 문헌 386
CHAPTER 15 생성적 적대 신경망 387
15.1 판별을 신호로 사용하기 387
15.2 안정성 향상 393
15.3 점진적 증가, 미니배치 판별, 절단 399
15.4 조건부 생성 402
15.5 이미지 변환 405
15.6 StyleGAN 410
15.7 요약 412
_노트 413
_연습 문제 419
_참고 문헌 421
CHAPTER 16 정규화 흐름 427
16.1 1차원 예제 427
16.2 일반 사례 430
16.3 역변환 가능한 신경망 층 433
16.4 다중 크기 흐름 442
16.5 응용 443
16.6 요약 447
_노트 448
_연습 문제 453
_참고 문헌 456
CHAPTER 17 변분 오토인코더 461
17.1 잠재변수 모델 461
17.2 비선형 잠재변수 모델 463
17.3 훈련 465
17.4 ELBO 속성 468
17.5 변분 근사 470
17.6 변분 오토인코더 471
17.7 재매개변수화 기법 474
17.8 응용 475
17.9 요약 480
_노트 481
_연습 문제 486
_참고 문헌 488
CHAPTER 18 확산 모델 493
18.1 개요 493
18.2 인코더(순방향 과정) 494
18.3 디코더 모델(역과정) 501
18.4 훈련 502
18.5 손실 함수의 재매개변수화 507
18.6 구현 510
18.7 요약 516
_노트 516
_연습 문제 521
_참고 문헌 524
CHAPTER 19 강화 학습 527
19.1 마르코프 결정 과정, 반환 및 정책 528
19.2 기대 수익 532
19.3 표 형식 강화 학습 536
19.4 Q-러닝 적합 541
19.5 정책 경사 방법 545
19.6 행위자-비평자 방법 551
19.7 오프라인 강화 학습 552
19.8 요약 554
_노트 555
_연습 문제 561
_참고 문헌 564
CHAPTER 20 왜 딥러닝이 효과적일까? 567
20.1 딥러닝에 반하는 사례 567
20.2 적합 성능에 영향을 미치는 요소 569
20.3 손실 함수의 특성 575
20.4 일반화 결정 요인 579
20.5 정말로 많은 매개변수가 필요한가? 584
20.6 신경망은 깊어야 할까? 587
20.7 요약 590
_연습 문제 591
_참고 문헌 592
CHAPTER 21 딥러닝과 윤리 597
21.1 가치 정렬 598
21.2 의도적인 오용 606
21.3 그 밖의 사회적, 윤리적, 전문적 문제 608
21.4 사례 연구 611
21.5 과학의 가치 중립적 이상 612
21.6 집단적인 행동 문제 관점에서의 책임 있는 AI 연구 614
21.7 앞으로 나아갈 길 615
21.8 요약 617
_연습 문제 618
_참고 문헌 620
APPENDIX A 표기법 627
A.1 스칼라, 벡터, 행렬, 텐서 627
A.2 변수와 매개변수 627
A.3 집합 628
A.4 함수 628
A.5 최소화와 최대화 629
A.6 확률분포 629
A.7 점근 표기법 630
A.8 기타 630
APPENDIX B 수학 개념 631
B.1 함수 631
B.2 이항계수 634
B.3 벡터, 행렬, 텐서 635
B.4 특수한 형태의 행렬 639
B.5 행렬 미적분 641
APPENDIX C 확률 643
C.1 확률변수와 확률분포 643
C.2 기댓값 647
C.3 정규 확률분포 652
C.4 샘플링 656
C.5 확률분포 사이의 거리 657
찾아보기 661