데이터 마이닝, 통계, 빅데이터 그리고 머신 러닝이라는 주제는 서로 떼어놓고 생각할 수 없는 관계다. 이 책은 데이터 마이닝 분야에서 다뤄지는 핵심 문제들을 빅데이터에 적용 가능한 알고리즘으로 구현할 수 있는 방법에 초점을 맞추고 있다. 스탠퍼드 대학의 교재답게(http://www.mmds.org/), 데이터 마이닝의 기본 원리부터 머신 러닝까지 상세히 다루며, 흥미로운 사례로 넷플릭스와 전자상거래의 추천 시스템, 검색 엔진의 기본 원리 등을 이해하기 쉽게 설명한다. 데이터 과학자가 되고 싶다면 이 책을 중심으로 다른 부교재들을 참고하며 공부하는 것을 추천한다.
★ 이 책에서 다루는 내용 ★
■ 대규모 데이터를 처리할 수 있는 병렬 알고리즘을 만드는 툴인 분산 파일 시스템과 맵리듀스(map-reduce)
■ 민해시(minhash)와 지역성 기반 해시(locality-sensitive hash) 알고리즘의 핵심 기술 및 유사도 검색(similarity search)
■ 매우 빨리 입력돼 즉각 처리하지 않으면 유실되는 데이터를 다루는 데 특화된 알고리즘과 데이터 스트림 처리
■ 구글의 페이지랭크(PageRank), 링크 스팸 탐지, 허브와 권위자(hubs-and-authorities) 기법을 포함하는 검색 엔진 기술
■ 연관 규칙(association rule), 시장바구니 모델(market-baskets), 선험적 알고리즘(A-Priori Algorithm)과 이를 개선한 기법들 및 빈발 항목집합(frequent-itemset) 마이닝
■ 대규모 고차원 데이터 집합을 클러스터링하는 알고리즘
■ 웹 애플리케이션과 관련된 두 가지 문제인 광고와 추천 시스템
■ 소셜 네트워크 그래프처럼 매우 큰 구조의 분석과 마이닝을 위한 알고리즘들
■ 특이 값 분해(singular value decomposition)와 잠재 의미 색인(latent semantic indexing) 및 차원 축소(dimensionality reduction)를 통해 대규모 데이터에서 중요한 속성을 도출해내는 기법들
■ 퍼셉트론(perceptron), 서포트 벡터 머신(support vector machine), 경사 하강(gradient descent) 같은 대규모 데이터에 적용 가능한 머신 러닝 알고리즘
★ 이 책의 대상 독자 ★
데이터베이스와 웹 기술을 선도하는 학자들이 쓴 이 책은 학생과 실무자 모두를 위한 필독서다. 다음의 과정을 익힌 독자들에게 적합한 책이다.
■ SQL 및 관련 프로그래밍 시스템을 주제로 하는 데이터베이스 시스템 입문
■ 2학년 수준의 자료구조, 알고리즘, 이산수학
■ 2학년 수준의 소프트웨어 시스템, 소프트웨어 엔지니어링, 프로그래밍 언어