장바구니 담기 close

장바구니에 상품을 담았습니다.

R을 활용한 기계 학습

R을 활용한 기계 학습

  • 브레트 란츠
  • |
  • 에이콘출판
  • |
  • 2014-09-30 출간
  • |
  • 456페이지
  • |
  • 190 X 260 X 19 mm
  • |
  • ISBN 9788960776135
판매가

35,000원

즉시할인가

31,500

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
31,500

이 상품은 품절된 상품입니다

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평

★ 요약 ★

이 책은 R이 제공하는 다양한 확률, 통계 기법을 모두 사용할 수 있을 뿐만 아니라 사용법도 쉽기 때문에 누구나 데이터를 분석하고 예측할 수 있게 한다. 손쉬운 CRAN을 통해 라이브러리를 설치는 다양한 라이브러리가 필요한 기계 학습에 매우 적합하다. 저자는 다양하고 흥미로운 실제 연구 데이터로 예제를 만들어 화려한 기법 소개보다 정확한 개념과 과정을 설명함으로써 어려운 개념을 쉽게 이해할 수 있게 한다.


★ 이 책에서 다루는 내용 ★

■ 기계 학습에 적용할 데이터 준비를 위한 R 사용
■ R을 활용한 데이터 탐험과 시각화
■ 최근접 이웃 기법을 이용한 데이터 분류
■ 데이터 분류를 위한 베이지안 기법 학습
■ 결정 트리, 규칙, 서포트 벡터 머신을 사용한 값 예측
■ 선형 회귀를 이용한 수치 값 예측
■ 신경망을 이용한 데이터 모델화
■ 장바구니 분석을 위한 연관 규칙을 사용한 패턴 찾기
■ 분할을 위한 데이터를 군집화하기


★ 이 책의 대상 독자 ★

이 책은 실제로 데이터를 사용하고자 하는 독자를 대상으로 한다. 기계 학습을 조금 알고 있지만 R을 한 번도 사용하지 않았거나, R에 대해 조금은 알지만 기계 학습은 잘 모르는 초보자를 대상으로 한다. 두 경우 모두 이 책을 통해 독자가 빠르게 학습하고 적용할 수 있게 한다. 기본적인 수학과 프로그래밍에 대한 친근함이 있으면 좋지만, 꼭 필요하지는 않다. 중요한 것은 호기심이다.


★ 이 책의 구성 ★

1장, ‘기계 학습 소개’에서는 용어와 기계 학습기를 구별하고 정의하는 개념을 소개한다. 기계 학습 작업과 적절한 알고리즘을 선정하기 위한 기법도 알려준다.

2장, ‘데이터 관리와 이해’에서는 R로 데이터를 가공해보면서 데이터를 로딩하고, 탐구하고, 이해하기 위해 데이터 구조와 프로시저를 사용한다.

3장, ‘게으른 학습: 최근접 이웃을 사용한 분류’에서는 첫 번째 기계 학습 작업인 악성 암 예제를 식별하기 위해, 단순하지만 강력한 학습 알고리즘을 적용하고 어떻게 작동하지 배운다.

4장 ‘확률론적 학습: 나이브 베이즈를 사용한 분류’에서는 최신 스팸 필터링 시스템에 사용하는 확률의 기본 개념을 알아본다. 자신만의 스팸 필터를 만드는 과정에서 텍스트 마이닝의 기본을 배운다.

5장, ‘분할 정복: 결정 트리와 규칙을 사용한 분류’에서는 정확하고 쉽게 설명할 수 있는 예측의 학습 알고리즘을 살펴본다. 이런 기법은 결정 투명성이 중요한 작업에 적용한다.

6장, ‘수치 데이터 예측: 회귀 기법’에서는 수치 예측을 할 수 있는 기계 학습 알고리즘을 소개한다. 이 기법은 통계 분야에 포함되기 때문에 수치 관계를 이해해야 하는 기본적인 메트릭(Metric)을 배운다.

7장, ‘블랙박스 기법: 신경망과 서포트 벡터 머신’에서는 극단적으로 복잡하지만 강력한 기계 학습을 다룬다. 수학 관련 지식은 부담스럽지만, 짧은 시간 내에 내부 작동을 설명하는 예제를 통해 작동 방법을 알아보자.

8장, ‘패턴 검색: 연관 규칙을 사용한 장바구니 분석’에서는 소매업계에서 사용하는 추천 시스템에 대한 알고리즘을 알아본다. 구매자 자신보다 소비 습관을 잘 아는 판매자에게 놀란 적이 있다면 그 비밀을 8장에서 알려준다.

9장, ‘데이터 그룹 검색: k 평균을 이용한 군집화’에서는 관련된 아이템의 군집(cluster)에 넣는 과정을 살펴본다. 웹 기반 커뮤니티 내에서 프로파일의 일부를 찾기 위해 이 알고리즘을 사용한다.

10장, ‘모델 성능 평가’에서는 기계 학습 프로젝트의 성과를 측정하는 정보를 제공한다. 미래 데이터에 대한 학습기의 성능에 대한 믿을 만한 측정 방식을 알아본다.

11장, ‘모델 성능 향상’에서는 기계 학습 경쟁의 우승 팀이 사용한 기법을 알려 준다. 경쟁에 도전하거나 데이터를 최대한 활용하고자 한다면 이런 기법을 꼭 알고 있어야 한다.

12장, ‘특화된 기계 학습 주제’에서는 기계 학습의 최신 정보를 알아본다. 빅데이터를 R에서 빠르게 사용할 수 있는 기법을 다뤄 R로 최대한 잘 사용할 수 있게 한다.


★ 저자 서문 ★

기계 학습 그 중심에는 정보를 실행할 수 있는 지식으로 변환하는 알고리즘이 연관돼 있다. 이런 사실은 기계 학습이 빅데이터 시대인 오늘날과 잘 맞음을 의미한다. 기계 학습 없이 정보의 거대한 흐름을 따라가지 못한다.

증가하는 R(크로스플랫폼, 무료 통계 프로그래밍 환경)의 중요성을 고려해 기계 학습을 시작할 최적기다. R은 강력하며, 데이터에서 통찰력을 얻을 수 있는 배우기 쉬운 도구를 제공한다.

반드시 이해해야 하는 기본적인 이론과 더불어 하나씩 직접 예제를 만들어본다. 이 책은 여러분의 프로젝트에 기계 학습을 적용할 때 필요한 모든 지식을 알려준다.

★ 옮긴이의 말 ★

잃어버린 ‘고리’를 찾아서
사물이 점차 디지털화되면서 사물과 행하는 모든 행위는 데이터로 남겨진다. 한 개인의 모든 행위는 데이터로 남겨지며, 바꿔 말하면 데이터가 개인을 나타내는 시대다. 아이폰에 저장된 아침 기상 시간, 출퇴근하면서 버스카드가 남기는 출발지, 출발시간, 도착지, 도착시간, 통화 기록, 음악 재생기록, 인터넷에서 구매한 목록, 집에서 보는 프로그램 로그까지 모두 한 사람을 나타내는 지표가 된다. 어떻게 보면 무서운 일이지만, 긍정적인 요소도 많다. 예를 들면 출근 시간과 근무지가 비슷한 사람들을 군집화(clustering)할 수 있으며, 좋아하는 음악 장르를 친구나 기계에서 추천 받을 수도 있다. 더 나아가 수집된 스팸 문자로부터 지금 받은 문자의 스팸 여부도 알 수 있으며, 상품을 진열할 때 최적의 위치도 알 수 있다. 이렇게 퍼져 있는 데이터에서 새로운 지식을 얻거나 새로운 데이터의 특성을 예측할 수 있는 기술이 기계학습이다. 기계 학습은 점점 더 많아지는 데이터에서 사람이 알지 못했던 ‘고리’를 찾아주는 데 큰 역할을 한다. 최신 기술을 이끄는 구글, 아마존,
애플 등과 같은 회사에서는 가장 활발하게 연구하는 분야이기도 하다. 이제 데이터를 어디서나 구할 수 있으며, 어떻게 데이터를 연관시키는가가 핵심이 됐다. 그 ‘고리’를 찾는 도구가 바로 기계 학습이다.

통계를 넘어서
기계 학습의 이론적 배경은 통계와 확률이다. 기계 학습 기법을 잘 적용하기 위해서는 가장 먼저 데이터를 분석해야 한다. 데이터가 어떻게 분포돼 있는지, 다른 분포로 변환할 수 없는지를 고민할 필요가 있다. R은 데이터 분석에 탁월한 언어다. 배우기도 쉬우며, CRAN(Comprehensive R Archive Network)을 통해 별다른 노력 없이 필요한 패키지를 설치할 수 있다. 필요에 따라 적절한 패키지를 찾아 바로 사용할 수 있다는 점은 마법처럼 매력적이다. 뿐만 아니라 시각화를 지원해 직관적으로 데이터를 분석할 수 있다는 점이 데이터 분석에 R이 잘 사용되는 이유다. 이 책은 R을 처음 접하는 사용자가 충분히 책을 다 읽을 수 있게 자세히 설명한다. 데이터를 분석할 때 필요한 기본 명령과 그 결과를 알기 쉽게 설명해 R 언어에 대한 부담감을 없게 했다. 실제 이 책을 다 읽고 난 후 R 언어에 대한 부담감은 거의 사라질 것이다. 데이터를 전처리해 분석하고, 기계 학습의 기법에 적용한 후 결과에 따라 다시 데이터를 처리하는 과정에서 R 언어의 차별화된 우수성을 느낄 수 있다.

거인의 어깨 위에서
아마존과 유튜브의 추천 시스템, 구글의 무인 자동차와 같이 기계 학습을 사용한 시스템과 사용하지 않은 시스템의 차이는 점점 더 커지고 있다. 기계학습을 사용한 기능이 전체 시스템을 좌우하는 것이 현실이다. 하지만 기계학습을 처음 접하는 학습자에게는 넘어야 할 산들이 많다. 예를 들면 반복적으로 사용하는 확률/통계의 기본 지식이나 데이터를 다룰 때 필요한 선형대수에 대한 지식이다. 그리고 각 기법에서 사용되는 수학적 모델과 그 모델의 유효성뿐만 아니라 문제 영역마다의 특수성을 염두에 둬야 한다. 이 책은 가장 먼저 기계 학습의 전체적인 이해를 높일 수 있게 설명하고, 기법마다 필요한 기반 지식을 충실히 설명한다. 기법의 장단점을 표로 비교해주고, 이미 학습했던 독자에게도 다른 기법과 비교하면서 학습할 수 있게 한다. 또한 기법을 적용할 때에는 데이터 수집, 데이터 전처리, 데이터로 모델 훈련, 모델 성능 평가, 모델 성능 향상으로 체계적으로 나눠 전체 과정을 이해할 수 있게 했다. 사실 이런 순서는 정확히 기계 학습 과정을 대표하지는 않지만, 처음 학습하는 독자에게는 모델을 선택하는 과정이나 차후 어느 단계에서 더 성능을 높일 수 있을지 알 수 있게 한다. 더욱이 저자의 실제 연구대상을 예제로 만들어 실제 현실 문제를 해결하는 것과 같은 현실감을 느낄 수 있다. 쉽고 체계적인 설명과 다양한 패키지를 설치할 수 있는 R은 기계학습에 쉽게 접근할 수 있게 한다.

저자소개

저자 브레트 란츠(Brett Lantz)는 인간 행위를 이해하기 위해 10년 동안 혁신적인 데이터 기법을 활용하고 있다. 사회학을 전공했고, 10대들의 소셜네트워킹 웹사이트 프로필을 연구하면서 처음으로 기계 학습에 빠졌다. 이후 핸드폰 통화, 의료비 청구 데이터, 자선 활동 등 학제 간 연구를 하고 있다. 여유시간에 가족과 시간을 보내며, 나머지 시간에는 대학 스포츠, 닥스훈트와 시간을 보낸다. 데이터에서 통찰력을 찾는 지식을 나누고자 dataspelunking.com을 운영 중이다.

도서소개

이 책은 R이 제공하는 다양한 확률, 통계 기법을 모두 사용할 수 있을 뿐만 아니라 사용법도 쉽기 때문에 누구나 데이터를 분석하고 예측할 수 있게 한다. 손쉬운 CRAN을 통해 라이브러리를 설치는 다양한 라이브러리가 필요한 기계 학습에 매우 적합하다. 저자는 다양하고 흥미로운 실제 연구 데이터로 예제를 만들어 화려한 기법 소개보다 정확한 개념과 과정을 설명함으로써 어려운 개념을 쉽게 이해할 수 있게 한다.

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.