장바구니 담기 close

장바구니에 상품을 담았습니다.

초보자를 위한 아파치 스파크 2

초보자를 위한 아파치 스파크 2

  • 라자나라야난 토투바이카투마나
  • |
  • 에이콘출판
  • |
  • 2018-01-31 출간
  • |
  • 384페이지
  • |
  • 188 X 235 X 20 mm
  • |
  • ISBN 9791161751054
판매가

30,000원

즉시할인가

27,000

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
27,000

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평

★ 이 책에서 다루는 내용 ★

■ 스칼라와 파이썬을 이용한 스파크 프로그래밍 모델과 스파크 2의 기초
■ 스파크 SQL 사용법과 스칼라와 파이썬을 이용한 데이터프레임 활용
■ R을 이용한 스파크 프로그래밍 기초
■ 파이썬을 활용한 그래프 및 차트 그리기, 스파크 데이터 처리
■ 스칼라와 파이썬을 이용한 스파크 스트림 처리
■ 스파크 MLib을 활용한 머신 러닝
■ 스파크 GraphX를 이용한 그래프 처리 기초
■ 배운 것들을 종합해 하나의 완벽한 스파크 애플리케이션 실전 예제 개발


★ 이 책의 대상 독자 ★

스파크의 데이터 처리 능력과 R 또는 데이터 및 스트림 처리, 머신 러닝, 그래프 처리를 결합해 상호 운용 가능한 하나의 프레임워크에서 스칼라나 파이썬을 지원하는 통합 API를 활용하는 데 관심이 있는 애플리케이션 개발자 및 데이터 과학자, 대규모 데이터 솔루션 아키텍처라면 이 책이 큰 도움이 될 것이다.


★ 이 책의 구성 ★
1장, ‘스파크 기초’에서는 스파크 프레임워크 기초와 API 그리고 함께 제공되는 라이브러리를 논의하고 스파크를 사용하는 데이터 처리 생태계 전체를 살펴본다.
2장, ‘스파크 프로그래밍 모델’에서는 스파크에서 사용되는 함수 프로그래밍 방법론을 기초로 스파크의 유니폼 프로그래밍 모델에 대해 설명하고 RDD(Resilient Distributed Data Sets) 및 스파크 변환, 스파크 액션의 기본 사항을 다룬다.
3장, ‘스파크 SQL’에서는 가장 강력한 스파크 라이브러리 중 하나인 스파크 SQL에 관해 논의하고 스파크 프로그램과 함께 어떠한 방식으로 동작하는지 살펴본다. 또한 데이터 처리를 위해 스파크 SQL을 사용해 다양한 데이터 소스에 액세스하는 방법과 여러 종류의 데이터 소스 통합에 관해 설명한다.
4장, ‘스파크 R 프로그래밍’에서는 스파크 R API인 SparkR과 R에 관해 설명한다. 이를 통해 R 사용자는 익숙한 데이터 프레임 추상화를 사용해 스파크의 데이터 처리 기능을 사용할 수 있다. 더불어 R 사용자가 스파크 데이터 처리 생태계에 익숙해질 수 있는 기초 지식도 제공한다.
5장, ‘파이썬을 활용한 스파크 데이터 분석’에서는 스파크를 이용한 데이터 처리 방법과 파이썬에서 스파크와 함께 활용할 수 있는 다양한 차트 및 그래프 라이브러리에 대해 설명한다. 또한 프로그래밍 언어로서 파이썬을 선택하고 스파크 애플리케이션을 파이썬과 결합해서 활용하는 방법에 대해 논의한다.
6장, ‘스파크 스트림 처리’에서는 스트림(stream) 형태로 수집한 데이터를 캡처하고 처리하는 가장 강력한 스파크 라이브러리 중 하나인 스파크 스트리밍에 대해 설명한다. 분산 메시지 브로커인 카프카(Kafka)와 카프카의 소비자로 작동하는 스파크 스트리밍 애플리케이션에 대해서도 논의한다.
7장, ‘스파크 머신 러닝’에서는 입문 수준에서 머신 러닝 애플리케이션 개발에 사용하는 가장 강력한 스파크 라이브러리 중 하나인 스파크 MLlib에 대해 설명한다.
8장, ‘스파크 그래프 처리’에서는 그래프 데이터 구조를 처리하는 가장 강력한 스파크 라이브러리 중 하나인 스파크 GraphX에 대해 설명하고 그래프로 데이터를 처리하는 수많은 알고리즘을 살펴본다. GraphX 기초와 GraphX에서 제공하는 알고리즘을 사용해 구현한 몇 가지 유스 케이스도 설명한다.
9장, ‘스파크 애플리케이션 설계’에서는 스파크의 다양한 기능을 다루는 스파크 데이터 처리 애플리케이션 설계 및 개발에 대해 설명한다. 9장에서 다루는 대부분의 내용은 이미 앞에서 다룬 내용이다.

★ 옮긴이의 말 ★

요즘 컴퓨터 세계는 빅데이터와 머신 러닝의 시대라고 해도 과언이 아니다. 이 두 가지 기술이 맞물려 창출해 내는 부가가치와 잠재력은 분야를 막론하고 상상을 초월한다. 이러한 흐름에 발맞춰 머신 러닝이나 빅데이터 처리 프레임워크에 관심을 가지는 개발자가 점점 많아지고 있다. 한국에서도 이러한 스킬을 가지고 있는 고급 개발자들이 미국의 글로벌 IT회사로 이직하는 경우를 많이 봐왔다.
이러한 큰 흐름에 따라 무언가 시도해 보고는 싶은데 어디서부터 시작할지 모르는 입문자나, 머신 러닝 자체보다는 데이터 전처리나 파이프 라인 구축에 드는 많은 시간과 노력에 지친 데이터 과학자들에게 스파크는 매우 환영 받는 프레임워크다. 맵리듀스 같은 복잡한 프로그래밍 모델을 모르더라도 간단한 스크립팅과 파이썬, 스칼라 등의 프로그래밍 언어만 알면 누구나 손쉽게 머신 러닝과 빅데이터 공부를 시작할 수 있다.
스파크가 데이터 처리 프레임워크 세계에서 차지하는 비중은 매우 크다. 스파크는 미국 버클리 대학의 리서치 프로젝트로 시작해서 지금은 전 세계에서 가장 활발한 오픈 소스 기반 데이터 처리 프로젝트가 됐다. 처음부터 대규모 데이터 처리를 염두에 두고 디자인됐기 때문에 빅데이터 처리에 매우 최적화됐고 이름처럼 속도가 빠르다. 2.0부터는 다양한 머신 러닝 라이브러리 지원을 통해 머신 러닝 데이터 처리 프레임워크로도 각광받고 있다. 이뿐만 아니라 스칼라, 자바, 파이썬, R 등 다양한 프로그래밍 언어 지원을 통해 개발자가 언어의 제약 없이 손쉽게 접근할 수 있고 포팅이 쉽다는 장점이 있다.
이 책은 단순한 데이터 처리, 스트리밍 데이터, 그래프 모델 구성, 스파크를 이용한 데이터 차트 그리기를 넘어 MLlib를 활용한 머신 러닝 예제까지, 입문자와 고급 개발자 모두가 활용 할 수 있는 다양한 예제를 제공한다. 이렇게 누구나 쉽게 스파크를 배울 수 있도록 했다. 대부분의 예제는 스칼라뿐 아니라 파이썬, R 버전으로도 제공되기 때문에 독자에게 편한 언어로 학습할 수 있다.
번역 기간 내내 여러가지 일과 병행하느라 우여곡절이 많았지만, 바람이 있다면 이 책이 한국의 개발자들이 머신 러닝과 빅데이터 세계에 뛰어드는 데 조금이나마 밑거름이 됐으면 한다. 나아가 독자들이 전세계 글로벌 IT 기업에서 나와 직접 마주치는 재미있는 순간이 오길 기대한다.

목차

1장. 스파크 기초

__아파치 하둡 소개
__스파크 분석
__스파크 설치
____파이선 설치
____R 설치
____스파크 설치
____개발 도구 설치
____추가 소프트웨어 설치
________IPython
________RStudio
________아파치 제플린
__참고문헌
__요약


2장. 스파크 프로그래밍 모델

__스파크 함수 프로그래밍
__스파크 함수 프로그래밍
____스파크 RDD 불변성
____스파크 RDD 분산 용이성
____스파크 RDD 메모리 상주
____스파크 RDD의 강력한 데이터 타입 지원
__스파크 RDD를 이용한 데이터 변환과 액션
__스파크 모니터링
__스파크 프로그래밍 기초
____맵리듀스
____조인
____추가 액션
__파일에서 RDD 생성
____스파크 라이브러리 스택
__참고문헌
__요약


3장. 스파크 SQL

__데이터 구조
__왜 스파크 SQL인가?
__스파크 SQL 해부
__데이터프레임 프로그래밍
____SQL 프로그래밍
____데이터프레임 API 프로그래밍
__스파크 SQL 집계
__스파크 SQL을 사용한 다중 데이터 소스 연결
__데이터셋
__데이터 카탈로그
__참고문헌
__요약


4장. 스파크 R 프로그래밍

__SparkR의 필요성
__R 언어의 기초
__R 데이터프레임과 스파크
__R을 이용한 스파크 데이터프레임 프로그래밍
____SQL 프로그래밍
____R 데이터프레임 API를 이용한 프로그래밍
__스파크 R을 이용한 집계
__SparkR을 이용한 다중 데이터 소스 조인
__참고문헌
__요약


5장. 파이선과 함께하는 스파크 데이터 분석

__차트 및 그래프 작성 라이브러리
__데이터셋 설정
__데이터 분석 유스 케이스
__차트와 그래프
____히스토그램
____밀도 그래프
____막대 차트
________누적 막대형 차트
____파이 차트
________도넛 차트
____상자 그래프
____수직 막대 그래프
____산점도
________강화된 산점도
____라인 그래프
__참고문헌
__요약


6장. 스파크 스트림 처리

__데이터 스트림 처리
__마이크로 배치 데이터 처리
____DStream 프로그래밍
__로그 이벤트 처리기
____넷캣 서버 시작
____파일 정리
____스파크 클러스터 작업 제출
____애플리케이션 모니터링
____스칼라 애플리케이션 구현
____애플리케이션 컴파일 및 실행
____출력 결과물 처리
____파이선 애플리케이션 실행
__구간 데이터 처리
____스칼라 애플리케이션 로그 이벤트 메시지 빈도수 세기
____파이선 애플리케이션 로그이벤트 메시지 빈도수 세기
__추가 처리 옵션
__카프카 스트림 처리
____주키퍼와 카프카 시작하기
____스칼라 애플리케이션 구현
____파이선 애플리케이션 구현
__실제 스파크 스트리밍 작업
____스파크 데이터 처리 애플리케이션 실패-내구성 구현
____구조 데이터 스트리밍
__참고문헌
__요약


7장. 스파크 머신 러닝

__머신 러닝
__스파크가 머신 러닝에 적합한 이유
__와인 품질 예측
__모델 저장
__와인 분류
__스팸 필터링
__특징 알고리즘
__동의어 찾기
__참고문헌
__요약


8장. 스파크 그래프 처리

__그래프와 사용 사례 이해
__스파크 GraphX 라이브러리
____GraphX overview
____그래프 분할
____그래프 처리
____그래프 구조 처리
__테니스 토너먼트 분석
__페이지랭크 알고리즘 적용
__연결된 구성 요소 알고리즘
__그래프프레임
__그래프프레임 쿼리
__참고문헌
__요약


9장. 스파크 애플리케이션 디자인

__람다 아키텍처
__람다 아키텍처 마이크로블로깅
____SfbMicroBlog 오버뷰
____데이터 이해
____데이터 사전 설정
__람다 아키텍처 구현
____배치 레이어
____서빙 레이어
____스피드 레이어
________쿼리
__스파크 애플리케이션 작업
__코딩 스타일
__소스 코드 셋업
__데이터 소화
__뷰와 쿼리 생성
__커스텀 데이터 처리 이해
__참고문헌
__요약

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.