목차
[PART 01] 데이터 사이언스 기초편
▣ 1장: 데이터의 이해
1.1 데이터의 정의와 종류
___1.1.1 데이터 유형
___1.1.2 데이터 속성
1.2 데이터 분석
___1.2.1 통계적 모델링
___1.2.2 데이터 분석 프로세스
___1.2.3 데이터 분석 예시
1.3 데이터 시각화
___1.3.1 시각화의 종류
___1.3.2 시각화 원칙
1.4 탐색적 데이터 분석
___1.4.1 탐색적 데이터 분석 체크리스트
___1.4.2 탐색적 데이터 분석 예시
▣ 2장: 머신러닝의 기초
2.1 머신러닝 개념
___2.1.1 머신러닝의 비즈니스 목표 및 도입 고려사항
___2.1.2 머신러닝으로 해결 가능한 문제 정의 및 고려사항
2.1 머신러닝의 학습 원리
___2.1.1 순전파
___2.2.2 활성화 함수
___2.2.3 손실 함수
___2.2.4 최적화 알고리즘
___2.2.5 역전파
2.3 모델 성능 개선 및 평가
___2.3.1 과대적합과 과소적합
___2.3.2 정규화 기법
___2.3.4 모델 평가 지표
___2.3.5 모델 선택과 하이퍼파라미터 튜닝
2.4 머신러닝 모델 적용 예시
___2.4.1 머신러닝의 주요 접근 방식
___2.4.2 머신러닝 적용 사례
___2.4.3 모델 적용 시 고려사항
▣ 3장: 딥러닝의 핵심
3.1 기초 신경망 모델
___3.1.1 다층 퍼셉트론
___3.1.2 합성곱 신경망
___3.1.3 순환 신경망
3.2 생성 및 표현 학습 모델
___3.2.1 오토인코더
___3.2.2 생성적 적대 신경망
3.3 도메인 특화 신경망 모델
___3.3.1 그래프 신경망
___3.3.2 심층 Q-네트워크
3.4 최신 딥러닝 모델
___3.4.1 트랜스포머
___3.4.2 디퓨전 모델
___3.4.3 대규모 언어 모델
___3.4.4 MoE 모델
▣ 4장: 딥러닝 응용 분야
4.1 자연어 처리
___4.1.1 데이터 전처리
___4.1.2 모델 아키텍처
___4.1.3 모델 학습 및 평가
___4.1.4 핵심 모델
___4.1.5 필수 논문
___4.1.6 주요 라이브러리 및 도구
4.2 오디오 처리
___4.2.1 데이터 전처리
___4.2.2 모델 아키텍처
___4.2.3 모델 학습 및 평가
___4.2.4 핵심 모델
___4.2.5 필수 논문
___4.2.6 주요 라이브러리 및 도구
4.3 컴퓨터 비전
___4.3.1 데이터 전처리
___4.3.2 모델 아키텍처
___4.3.3 모델 학습 및 평가
___4.3.4 핵심 모델
___4.3.5 필수 논문
___4.3.6 주요 라이브러리 및 도구
4.4 강화 학습
___4.4.1 데이터 전처리
___4.4.2 모델 아키텍처
___4.4.3 모델 학습 및 평가
___4.4.4 핵심 모델
___4.4.5 필수 논문
___4.4.6 주요 라이브러리 및 도구
4.5 추천 시스템
___4.5.1 데이터 전처리
___4.5.2 모델 아키텍처
___4.5.3 모델 학습 및 평가
___4.5.4 핵심 모델
___4.5.5 필수 논문
___4.5.6 주요 라이브러리 및 도구
4.6 데이터 사이언스 로드맵
___4.6.1 자연어 처리
___4.6.2 오디오 처리
___4.6.3 컴퓨터 비전
___4.6.4 강화 학습
___4.6.5 추천 시스템
___4.6.6 확장 기술 스택
[PART 02] 데이터 사이언스 실전편
▣ 5장: 데이터 엔지니어링
5.1 데이터 수집
___5.1.1 데이터 수집 방식
___5.1.2 데이터 수집 파이프라인
___5.1.3 파이프라인 설계 시 고려사항
5.2 데이터 전처리
___5.2.3 데이터 정제
___5.2.2 데이터 변환
___5.2.3 특징 공학
___5.2.4 데이터 불균형 처리
___5.2.5 데이터 전처리 예시
5.3 데이터 거버넌스
___5.3.1 데이터 거버넌스 구성 요소
___5.3.2 데이터 거버넌스 도구
___5.3.3 데이터 거버넌스 도구 도입 시기
▣ 6장: 데이터 저장 및 설계
6.1 데이터 저장 및 관리
___6.1.1 관계형 데이터베이스 관리 시스템
___6.1.2 NoSQL
___6.1.3 벡터 데이터베이스
___6.1.4 데이터 일관성 및 무결성 유지 전략
6.2 데이터 아키텍처 패턴
___6.2.1 데이터 저장 및 관리 아키텍처
___6.2.2 데이터 모델링 기법
___6.2.3 OLAP과 OLTP 시스템
___6.2.4 클라우드 기반 데이터 웨어하우스
6.3 데이터 파이프라인 설계
___6.3.1 ETL과 ELT
___6.3.2 데이터 수집, 변환, 저장 단계별 설계 원칙
___6.3.3 데이터 파이프라인 설계 고려 사항
___6.3.4 분산 데이터 환경에서의 데이터 파이프라인 최적화
▣ 7장: 모델 운영 및 관리
7.1 API 설계 원칙
___7.1.1 RESTful API
___7.1.2 RESTful API 디자인 및 구현
___7.1.3 GraphQL 소개
___7.1.4 API 게이트웨이 역할 및 기능
7.2 모델 배포
___7.2.1 모델 배포 환경 선택 기준
___7.2.2 모델 배포 방식 및 시나리오
___7.2.3 모델 버전 관리 및 롤백 전략
7.3 모델 성능 모니터링
___7.3.1 모델 모니터링과 성능 분석
___7.3.2 모델 드리프트 감지 방법
___7.3.3 모델 재학습 전략
7.4 CI/CD와 MLOps
___7.4.1 CI/CD 파이프라인
___7.4.2 MLOps
___7.4.3 MLOps 플랫폼
___7.4.4 MLOps 파이프라인 설계 및 구축 전략
▣ 8장: 데이터 처리 파이프라인
8.1 워크플로 설계
___8.1.1 요구사항 정의 및 목표 설정
___8.1.2 워크플로 단계별 설계
___8.1.3 기술 스택 선정
___8.1.4 워크플로 모니터링 및 개선
8.2 배치 처리
___8.2.1 배치 처리 개념 및 특징
___8.2.2 배치 스케줄러 소개 및 비교
___8.2.3 배치 워크플로 설계 및 구현
___8.2.4 배치 처리 최적화
8.3 실시간 처리
___8.3.1 실시간 처리 개념 및 특징
___8.3.2 스트리밍 플랫폼 소개 및 비교
___8.3.3 실시간 데이터 파이프라인 설계 및 구축
___8.3.4 실시간 처리 최적화
8.4 배치 처리 vs 실시간 처리
___8.4.1 배치 처리와 실시간 처리의 핵심 차이점
___8.4.2 시스템 요구사항 기반 처리 방식 선택 가이드
___8.4.3 하이브리드 아키텍처
[PART 03] 시스템 아키텍처 설계
▣ 9장: 로그 설계와 운영
9.1 로그 수집, 저장, 분석 및 시각화
___9.1.1 로그의 역할
___9.1.2 로그 유형
___9.1.3 로그 수집 방법 및 도구
___9.1.4 효율적인 로그 저장 전략
9.2 로그 형식 및 관리 전략
___9.2.1 로그 형식 표준화의 중요성
___9.2.2 로그 형식 종류 및 선택 기준
___9.2.3 로그 레벨 정의 및 활용
___9.2.4 로그 메시지 작성 가이드라인
9.3 Elastic Stack
___9.3.1 Elastic Stack이란?
___9.3.2 Elasticsearch
___9.3.3 Logstash
___9.3.4 Kibana
___9.3.5 Beats
9.4 A/B 테스트 및 실험 디자인
___9.4.1 A/B 테스트란?
___9.4.2 실험 설계 원칙
___9.4.3 통계적 유의성 검증 및 결과 해석
___9.4.4 A/B 테스트 수행 절차 및 도구
▣ 10장: 시스템 아키텍처
10.1 시스템 아키텍처 설계 시 고려사항
___10.1.1 비기능적 요구사항 분석 방법
___10.1.2 설계 제약 조건 식별 및 관리
___10.1.3 아키텍처 패턴 소개
10.2 모놀리식 vs 마이크로서비스
___10.2.1 모놀리식 아키텍처
___10.2.2 마이크로서비스 아키텍처
___10.2.3 모놀리식과 마이크로서비스 아키텍처 비교 분석
___10.2.4 마이크로서비스로의 전환 전략
10.3 분산 시스템 설계 원칙
___10.3.1 분산 시스템 트레이드오프 이해
___10.3.2 분산 시스템 설계 시 고려 사항
___10.3.3 분산 시스템 장애 허용 설계
10.4 병목 현상 식별 및 해결 전략
___10.4.1 성능 병목 지점 식별 방법론
___10.4.2 병목 현상 유형
___10.4.3 시스템 성능 측정 및 분석 도구
___10.4.4 병목 현상 해결 전략
▣ 11장: 시스템 최적화 및 확장
11.1 로드 밸런싱
___11.1.1 로드 밸런싱의 필요성과 종류
___11.1.2 로드 밸런싱 알고리즘
___11.1.3 로드 밸런서 도입 시 고려사항
___11.1.4 클라우드 환경에서의 로드 밸런서
11.2 캐싱
___11.2.1 캐싱의 기본 원리 및 효과
___11.2.2 캐싱 전략
___11.2.3 캐시 데이터 일관성 유지 방법
11.3 컨테이너 오케스트레이션
___11.3.1 Docker 컨테이너 개념
___11.3.2 컨테이너 이미지 빌드 및 관리
___11.3.3 Kubernetes를 이용한 컨테이너 오케스트레이션
___11.3.4 클라우드 기반 컨테이너 서비스 소개
11.4 오토 스케일링
___11.4.1 수평적 확장 vs 수직적 확장
___11.4.2 오토 스케일링 정책 및 규칙 설정
___11.4.3 오토 스케일링 시 고려 사항
11.5 성능 측정 및 분석 방법
___11.5.1 성능 측정 지표 선택
___11.5.2 성능 분석 도구 활용
___11.5.3 병목 지점 식별 및 개선 전략
___11.5.4 성능 테스트 환경 구축 및 시나리오 설계
▣ 12장: 대규모 언어 모델 시스템 구성
12.1 검색 컴포넌트 선정 및 구성
___12.1.1 검색 기반 LLM 개요
___12.1.2 벡터 검색과 키워드 검색 비교
___12.1.3 검색 도구 비교
___12.1.4 검색 성능 최적화 및 확장 전략
12.2 생성 컴포넌트 선정 및 구성
___12.2.1 생성 모델의 종류 및 특성 비교
___12.2.2 GPT, LLaMA, Claude 등 주요 LLM 비교
___12.2.3 생성 모델 선택 기준
___12.2.4 LLM 최적화 전략
12.3 LLM 시스템 아키텍처 구성 전략
___12.3.1 프롬프트ㆍ컨텍스트ㆍ미세 조정 비교
___12.3.2 단일 모델 vs 다중 모델 조합 설계
___12.3.3 LLM 기반 애플리케이션의 API 설계 원칙
___12.3.4 모델 컨텍스트 프로토콜(MCP)
___12.3.5 비용 절감을 위한 효율 극대화 전략
12.4 RAG 시스템 아키텍처 구성 전략
___12.4.1 RAG 시스템 개요
___12.4.2 RAG 아키텍처 구축 프로세스
___12.4.3 RAG 시스템 성능 평가 및 개선 전략
[PART 04] 서비스 운영 가이드라인
▣ 13장: 보안 및 보호
13.1 AI 법률 및 규제
___13.1.1 AI 관련 주요 법률 및 규제 개요
___13.1.2 AI 시스템의 책임성과 법적 리스크
___13.1.3 개인정보 보호 가이드
___13.1.4 AI 규제 준수를 위한 운영 절차
13.2 데이터 보안 전략
___13.2.1 데이터 보호 원칙 및 보안 모델
___13.2.2 데이터 암호화 및 접근 제어
___13.2.3 데이터 공유 및 전송 방법
___13.2.4 데이터 보안 모니터링 및 감사
13.3 데이터 보안 사고 대응 및 복구 프로세스
___13.3.1 데이터 침해 사고 유형 및 사례 분석
___13.3.2 데이터 보안 사고 대응 프레임워크
___13.3.3 침해 탐지 및 대응 자동화
___13.3.4 데이터 복구 및 재발 방지 전략
13.4 개인정보 보호 가이드라인
___13.4.1 데이터 익명화 및 가명화 기법
___13.4.2 데이터 수집 및 활용 정책 수립
___13.4.3 개인정보 보호를 위한 기술적 조치
▣ 14장: 비용 관리
14.1 클라우드 비용 최적화
___14.1.1 클라우드 서비스 비용 구조
___14.1.2 모델 학습 비용 절감 전략
___14.1.3 장기적인 비용 절감
___14.1.4 비용 추적 및 알림
14.2 서비스 수준 계약 설정
___14.2.1 SLA란?
___14.2.2 SLA 설계 및 운영 방안
___14.2.3 SLA 위반 시 패널티 및 보상 정책
14.3 비용 관리 및 최적화 전략
___14.3.1 비용 데이터 수집 및 통합
___14.3.2 클라우드 비용 분석 및 예측
___14.3.3 리소스 최적화 및 활용률 향상
▣ 15장: 장애 복구와 고가용성 설계
15.1 장애 발생 시나리오 및 복구 전략
___15.1.1 데이터 파이프라인 장애 식별 및 대응
___15.1.2 모델 서빙 중단 복구 프로세스
___15.1.3 배치 처리 시스템 복구 전략
___15.1.4 실시간 처리 시스템 복구 전략
___15.1.5 분산 컴퓨팅 환경에서의 장애 격리
15.2 데이터 백업 및 복원 전략
___15.2.1 대용량 데이터세트 백업 아키텍처
___15.2.2 모델 체크포인트 관리 및 복원
___15.2.3 증분 백업과 전체 백업의 최적화
___15.2.4 메타데이터 및 피처 스토어 복구 방안
15.3 고가용성 설계 패턴
___15.3.1 멀티 클러스터 ML 인프라 구성
___15.3.2 데이터 레이크/웨어하우스 가용성 확보
___15.3.3 모델 서빙 계층 중복성 설계
___15.3.4 실시간 분석 시스템의 장애 복구 메커니즘
▣ 부록A
A.1 RESTful API 실무 가이드
A.2 Redis 실무 가이드
A.3 RDBMS 실무 가이드
A.4 OpenSearch 실무 가이드
A.5 Elastic Stack 실무 가이드
A.6 Grafana + Loki + Promtail/Agent 실무 가이드
A.7 Docker 실무 가이드
A.8 Kubernetes 실무 가이드
A.9 Apache Kafka 실무 가이드
A.10 Apache Flink 실무 가이드
A.11 Apache Airflow 실무 가이드
A.12 Apache Spark(PySpark) 실무 가이드
▣ 부록B
B.1 실시간 처리 아키텍처
B.2 배치 처리 아키텍처
B.3 RAG 아키텍처
B.4 Lambda 아키텍처
B.5 데이터 레이크하우스 아키텍처
▣ 부록C
C.1 데이터 사이언스 프로젝트의 특성
C.2 프로젝트 단계별 관리 전략
C.3 애자일 방법론 적용
C.4 산출물 및 관리 문서
C.5_ 데이터 사이언스 프로젝트 리스크 관리