◈ 이 책에서 다루는 내용 ◈
◆ 머신러닝의 원신 데이터에서 구현까지의 엔드-투-엔드 과정 학습
◆ 최근접 이웃과 베이지안 기법으로 주요 결과 분류
◆ 결정트리, 규칙, 서포트 벡터 머신을 사용해 미래의 사건 예측
◆ 회귀기법으로 수치 데이터를 예측하고 금융 수치 추정
◆ 인공신경망으로 복잡한 프로세스 모델링
◆ tidyverse를 사용해 데이터를 준비, 변환, 정제
◆ 모델을 평가하고 성능을 향상
◆ R을 SQL 데이터베이스와 Spark, Hadoop, H2O, TensorFlow 등의 떠오르는 빅데이터 기술과 연결
◈ 이 책의 대상 독자 ◈
데이터에 접근하고 그 데이터를 활용하고자 하는 사업 분석가, 사회 과학자 등의 응용 분야 종사자를 대상으로 하는 책이다. 이미 머신러닝에 대해 약간 알고 있지만 R을 사용한 경험이 없을 수도 있고, 반대로 R에 대해 약간 알고 있지만 머신러닝은 처음이거나 아예 둘 다 처음일 수도 있다. 어떤 경우에도 이 책은 여러분을 빠르게 시작하게 해줄 것이다. 기본 수학과 프로그래밍 개념에 약간이라도 익숙하다면 도움이 되겠지만 사전 경험은 필요하지 않다. 필요한 것은 호기심뿐이다.
◈ 이 책의 구성 ◈
1장, ‘머신러닝 소개’에서는 머신 학습자(machine learner)를 정의하고 구분해주는 용어와 개념을 살펴보고, 학습 작업을 적절한 알고리듬에 매칭하는 방법을 제시한다.
2장, ‘데이터의 관리와 이해’에서는 R을 이용해서 데이터를 직접 다룰 수 있는 기회를 제공한다. 데이터를 로딩하고, 탐색하고, 이해하는 데 사용되는 필수 데이터 구조와 절차를 설명한다.
3장, ‘게으른 학습: 최근접 이웃을 사용한 분류’에서는 단순하지만 강력한 머신러닝 알고리듬을 이해하고, 첫 번째 실제 작업인 암의 악성 샘플 식별에 적용하는 방법을 알려준다.
4장, ‘확률적 학습: 나이브 베이즈 분류’에서는 최첨단 스팸 필터링 시스템에서 사용하고 있는 확률의 핵심적인 개념을 소개한다. 독자는 자신만의 스팸 필터를 개발하는 과정에서 텍스트 마이닝의 기초를 배울 수 있다.
5장, ‘분할 정복: 의사결정 트리와 규칙 기반의 분류’에서는 예측을 정확하고 쉽게 설명하는 2가지 학습 알고리듬을 탐색한다. 이 방법은 투명성이 중요한 작업에 적용된다.
6장, ‘수치 데이터 예측: 회귀 방법에’서는 수치 예측에 사용되는 머신러닝 알고리듬을 소개한다. 이 기법은 통계 분야에 아주 많이 포함돼 있으므로 수치 관계를 이해하는 데 필요한 필수 척도도 함께 알아본다.
7장, ‘블랙박스 방법: 신경망과 서포트 벡터 머신’에서는 복잡하고 강력한 두 종류의 머신러닝 알고리듬을 다룬다. 수학이 위협적으로 보일 수 있겠지만 내부 작동을 보여주는 예제와 함께 간단한 용어로 진행한다.
8장, ‘패턴 찾기: 연관 규칙을 이용한 장바구니 분석’에서는 많은 소매업체가 채택한 추천 시스템의 알고리듬을 접할 수 있다. 소매업체가 나의 구매 습관을 나보다 더 잘 아는 이유가 궁금한 적이 있었다면 8장에서 그 비밀을 밝혀준다.
9장, ‘데이터 그룹 찾기: k-평균 군집화’에서는 관련 아이템을 군집화하는 절차를 알아본다. 이 알고리듬을 활용해 온라인 커뮤니티에서 프로필을 식별한다.
10장, ‘모델 성능 평가’에서는 머신러닝 프로젝트의 성공 여부를 측정하고 미래 데이터에 대한 학습자의 신뢰할 만한 성능 추정치를 얻는 방법에 대해 정보를 제공한다.
11장, ‘머신러닝으로 성공하기’에서는 교과서 데이터 세트에서 실세계 머신러닝 문제로 전환할 때 마주치는 흔한 함정과 이 문제를 극복하는 데 필요한 도구, 전략, 소프트 스킬을 알아본다.
12장, ‘고급 데이터 준비’에서는 머신러닝 프로세스를 도와 의미 있는 정보를 추출하고자 대용량 데이터 세트를 다루는 데 도움이 되는 tidyverse 패키지를 소개한다.
13장, ‘까다로운 데이터: 너무 많고, 너무 적고, 너무 복잡한 데이터’에서는 유용한 정보가 거대한 데이터 세트 속에서 바늘을 찾는 것과 유사하게 유실돼 머신러닝 프로젝트를 방해할 수 있는 여러 일반적인 문제에 대한 해결책을 고려한다.
14장, ‘더 나은 학습자 구축’에서는 머신러닝 대회 리더보드 상위 팀들이 사용하는 방법을 공개한다. 경쟁심을 갖고 있거나 데이터에서 최대한의 이점을 얻고자 하는 경우 이러한 기술을 여러분의 능력에 추가해야 할 것이다.
15장, ‘빅데이터 활용’에서는 머신러닝의 최전선을 탐구한다. 매우 큰 데이터 세트를 다루는 것부터 R의 작업 속도를 높이는 것까지, 다루는 주제는 여러분이 R로 가능한 범위의 한계를 넓히는 데 도움이 될 것이며, 구글과 같은 대규모 기관에서 이미지 인식 및 텍스트 데이터 이해를 위해 개발한 정교한 도구를 활용할 수 있게 해줄 것이다.
◈ 옮긴이의 말 ◈
머신러닝에 대한 기초부터 최신의 트렌드까지 ‘꼼꼼하게’ 소개한 책이다. 4판에서는 기존보다 4개의 장을 새로 보강해 머신러닝에 있어 핵심인 데이터에서 발생하는 결측치 등의 여러 문제를 어떻게 다루는지에 대해 상세히 알려준다. 동시에 빅데이터를 다루는 방법을 설명한다.
머신러닝의 기본 기법을 설명하는 기존의 여러 장도 새로운 예제를 보강하거나 추가적인 설명을 통해 더 쉽고 편하게 머신러닝을 익힐 수 있게 배려하고 있다. 각 장에 있는 여러 예제를 따라 하다 보면 자연스럽게 머신러닝의 여러 개념을 익힐 수 있다. 머신러닝에 대한 여러 입문서가 있지만 이 책은 내용의 충실성과 함께 비유를 통한 쉬운 설명을 모두 겸비한 흔치 않은 책이다. 머신러닝을 처음으로 배우려 하거나 이미 머신러닝의 기초 개념을 알고 있지만 좀 더 깊은 원리와 예제를 직접 경험하고 싶다면 이 책이 좋은 가이드가 될 것이다.