장바구니 담기 close

장바구니에 상품을 담았습니다.

딥러닝 데이터 전처리 입문

딥러닝 데이터 전처리 입문

  • 앨런비소첵
  • |
  • 에이콘출판
  • |
  • 2018-05-24 출간
  • |
  • 236페이지
  • |
  • 188 X 235 X 15 mm
  • |
  • ISBN 9791161751580
판매가

20,000원

즉시할인가

18,000

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
18,000

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평




★ 이 책에서 다루는 내용 ★
■ 파이썬과 R로 CSV를 읽어 데이터의 통계량 출력하기
■ 데이터 형식과 API를 활용한 데이터 추출에 필요한 프로그래밍 구조 학습
■ 데이터 정리 과정에 필요한 정규 표현식의 효과적인 사용
■ 수치 데이터 분석에 필요한 도구와 패키지 탐색
■ 더 나은 데이터 구조 제어 방법 탐색
■ 프로그래밍 방식을 통한 데이터의 읽기, 검사, 수정, 형태 변경
■ 데이터셋을 불러오고 정제하고 출력하는 프로그램 작성

★ 이 책의 대상 독자 ★
데이터를 분석해보고 싶은 데이터 과학자, 데이터 분석가, 통계학자에게 유용한 책이다. R과 파이썬을 모두 다루기 때문에 큰 도움이 될 것이다

★ 이 책의 구성 ★
1장. "데이터 프로그래밍"에서는 데이터 처리 방법을 논의하고 이 책에서 다루는 내용을 개괄한다.
섹션 1. 데이터를 다루는 일반적인 프로그래밍 방법
2장. "파이썬 프로그래밍 소개"에서는 이 책에서 가장 많이 사용하는 프로그래밍 언어인 파이썬을 소개한다.
3장. "데이터 입력, 탐색, 수정: 1부"에서는 데이터를 처리하는 방법과 JSON 데이터 형식을 소개한다.
4장. "데이터 입력, 탐색, 수정: 2부"에서는 CSV와 XML 데이터 형식을 다룬다.
5장. "텍스트 데이터 처리: 정규 표현식 소개"에서는 정규 표현식을 이용해 주소로부터 도로명을 추출해본다.
섹션 2: 정형 데이터 처리
6장. "수치 데이터 정리: R과 RStudio 소개"에서는 R을 소개하고 RStudio를 이용해 수치 데이터를 정리하는 방법을 소개한다.
7장. "dplyr을 이용한 데이터 처리 간소화"에서는 데이터를 강력하면서도 간단하게 다룰 수 있는 R의 dplyr 패키지를 소개한다.
섹션 3: 고급 데이터 입출력 방법
8장. "웹에서 데이터 수집하기"에서는 파이썬 API를 이용해 웹에서 데이터를 추출하는 방법을 다룬다.
9장. "대용량 데이터 처리"에서는 대용량 데이터 처리 시 발생할 수 있는 문제점을 논의하고 MongoDB를 이용해 대용량 데이터를 처리해본다.

[옮긴이의 말]
알파고 이후로 제4차 산업혁명, 인공지능 등의 키워드와 마찬가지로 머신 러닝이라는 용어도 많은 회사와 대중에게 더욱 친숙해지고 있다. 하지만 많은 관심을 받고 있는 머신 러닝 분야에서 데이터 전처리의 중요성은 상대적으로 강조되지 못하는 분위기다.

데이터에 맞는 머신 러닝 알고리즘과 적절한 파라미터를 선택하는 것만큼 데이터 전처리 과정 또한 매우 중요하다. 양질의 데이터를 통해 좋은 결과를 만들어낼 수 있으므로, 올바른 데이터 전처리는 필수라 해도 과언이 아니다. 데이터 전처리는 꽤 노동집약적인 작업으로, 데이터 분석가는 전처리 작업에 많은 시간을 할애하고 있다.

머신 러닝 알고리즘과 도구를 소개하는 책은 다양하지만 전처리 과정을 쉽게 접할 수 있도록 소개하는 책은 드물다.

이 책에서는 먼저 데이터를 처리하는 방법을 알아보고 가장 널리 사용되는 파이썬을 사용해 JSON, CSV, XML 파일을 처리하는 방법을 살펴본다. 다음으로 실무에 매우 유용한 정규 표현식에 대해 알아보고 수치 데이터 분석에 유리한 R과 RStudio에 대해서도 배운다. 또한 데이터 수집을 위한 웹 크롤링과 대용량 데이터 처리를 위한 MongoDB에 대해서도 간단히 다룬다. 이 책을 통해 머신 러닝을 위한 데이터 전처리 학습에 도움을 얻길 바란다.

이 책이 머신 러닝에 처음 입문하는 분들에게 조금이나마 보탬이 됐으면 하는 바람이다


목차


1장. 데이터 프로그래밍
__데이터 처리의 이해
____데이터의 수집과 읽어오기
____데이터 정리
____데이터 형성 및 구조화
____데이터 저장
__데이터 처리 도구
____파이썬
____R
__요약

2장. 파이썬 프로그래밍 소개
__외부 리소스
__이번 장 살펴보기
____설치 요구 사항
____다른 학습 리소스
____파이썬 2와 파이썬 3의 차이점
__파이썬에서 프로그램 실행
____텍스트 편집기를 사용해 프로그램 작성 및 관리
____터미널을 사용해 프로그램 실행
____동작하지 않면 어떻게 해야 할까?
__데이터 유형, 변수, 파이썬 셸
____숫자: 정수와 실수
____문자열
____부울 데이터 형식
____print 함수
____변수
____배열(파이썬에서의 리스트)
____사전
__복합문
____복합문 문법과 들여쓰기 수준
____for문과 이터러블
____if문
____함수
__프로그램에서 주석 달기
__프로그래머 리소스
____공식 문서
____온라인 포럼과 메일링 리스트
__요약

3장. 데이터 입력, 탐색, 수정: 1부
__외부 리소스
__이번 장 살펴보기
____설치 요구 사항
____데이터
____파일시스템 설정
__기본 데이터 처리 작업 흐름 소개
__JSON 파일 형식 소개
__파이썬의 파일 I/O를 이용한 파일 열기와 닫기
____open 함수와 파일 객체
____파일 구조: 데이터 저장을 위한 좋은 방법
____파일 열기
__파일 내용 읽기
____파이썬 모듈
____json 모듈을 이용한 JSON 파일 파싱
__데이터 파일의 내용 탐색
____데이터의 주요 내용 추출
____데이터상의 모든 변수 출력
__데이터셋 수정
____원본 데이터셋에서 데이터 변수 추출
__수정된 데이터를 새 파일에 기록
__터미널에서 입출력 파일명 지정
____터미널에서 파일명 지정
__요약

4장. 데이터 입력, 탐색, 수정: 2부
__이번 장 살펴보기
____파일시스템 설정
____데이터
____pandas 설치
__CSV 형식 이해
__csv 모듈 소개
__CSV 데이터를 읽고 처리하기 위해 csv 모듈 사용
__CSV 데이터 기록을 위한 csv 모듈 사용
__데이터를 읽고 처리하기 위해 pandas 모듈 사용
____2011년 총 도로 길이 다시 계산
__비표준 CSV 인코딩과 다이얼렉트 처리
__XML 이해
____XML과 JSON 비교
__XML 데이터 파싱을 위한 xmletreeElementTree 모듈 사용
____Xpath
__요약

5장. 텍스트 데이터 처리: 정규 표현식 소개
__이번 장 살펴보기
____데이터
____파일 구조 설정
__패턴 인식의 필요성
____정규 표현식 소개
____정규 표현식 작성
____특수 문자
____공백 문자 탐색
____시작 문자 탐색
____종료 문자 탐색
____문자 또는 숫자의 범위 탐색
____여러 패턴의 탐색
____하나의 문자가 아닌 문자열 시퀀스 탐색
____패턴 결합
____문자열로부터 패턴 추출
____정규 표현식의 split() 함수
____파이썬 정규 표현식 문서
__패턴 탐색
__패턴 정량화
____도로명 주소를 탐색하는 정규 표현식 작성
____탐색 횟수 측정
____탐색 정확도 검증
__패턴 추출
____출력 결과 파일 저장
__요약

6장. 수치 데이터 정리: R과 RStudio 소개
__이번 장 살펴보기

____데이터
____디렉터리 구조
____R과 Rstudio 설치
__R과 RStudio 소개
__RStudio 연습
____R 명령어 실행
____작업 디렉터리 지정
____데이터 불러오기
____R 데이터프레임
____R 벡터
____R 데이터프레임 인덱싱
____R을 활용한 2001년 데이터 분석
__기본적인 이상치 탐지 및 제거
__NA 값 처리
____결측치 제거
____결측치를 상수로 대체
____결측치 대체
__변수명과 내용
__요약

7장. dplyr을 이용한 데이터 처리 간소화
__이번 장 살펴보기
____데이터
____파일시스템 구성
____dplyr 및 tibble 패키지 설치
__dplyr 소개
__dplyr 시작하기
__명령어 체인 사용
__데이터프레임의 행 필터링
__항목별로 데이터 요약하기
__dplyr을 이용한 코드 재작성
__요약

8장. 웹에서 데이터 수집하기
__이번 장 살펴보기
____파일시스템 설정
____requests 모듈 설치
____인터넷 연결
__API 소개
__API를 통해 파이썬으로 데이터 추출하기
__결과 필터링을 위한 URL 파라미터 사용
__요약

9장. 대용량 데이터 처리
__이번 장 살펴보기
____시스템 요구 사항
____데이터
____파일시스템 설정
____MongoDB 설치
____시간 계획
____정리
__컴퓨터 메모리 이해
__데이터베이스 이해
__MongoDB 소개
__파이썬에서 MongoDB 사용하기
__요약

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.