장바구니 담기 close

장바구니에 상품을 담았습니다.

19인의 데이터 과학자가 알려주는 나쁜 데이터 핸드북

19인의 데이터 과학자가 알려주는 나쁜 데이터 핸드북

  • 이든 맥컬럼
  • |
  • 비제이퍼블릭
  • |
  • 2013-06-17 출간
  • |
  • 324페이지
  • |
  • 175 X 230 mm
  • |
  • ISBN 9788994774428
★★★★★ 평점(10/10) | 리뷰(1)
판매가

24,000원

즉시할인가

21,600

배송비

2,300원

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
21,600

이 상품은 품절된 상품입니다

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

목차

Chapter 1 새로운 정의: 나쁜 데이터란 무엇인가?

Chapter 2 이 데이터 이상하지 않아요?

데이터 구조 이해하기
필드 검증
값 검증
간단한 통계적 해석
시각화
키워드 PPC 사례
검색 순위 사례
추천 분석
시계열 데이터
결론

Chapter 3 기계가 아닌 사람이 보도록 만든 데이터
데이터
문제: 사람을 위한 포맷의 데이터
- 데이터 배열
- 여러 파일에 흩어져 있는 데이터
해결책: 코드 작성
- 다루기 어려운 포맷의 데이터 읽기
- 여러 파일에 흩어져 있는 데이터 읽기
후기
다른 포맷
요약

Chapter 4 플레인 텍스트 속에 숨어있는 나쁜 데이터
어떤 플레인 텍스트 인코딩인가?
텍스트 인코딩 알아내기
텍스트 표준화
문제: 애플리케이션 특유의 문자가 들어간 플레인 텍스트
Python 텍스트 처리
예제

Chapter 5 웹 데이터 (재)구성하기
그 정보 구할 수 있겠니?
일반적인 작업 흐름 예시
- robots.txt
- 데이터 구성패턴 찾기
- 분석을 위한 오프라인 버전 저장하기
- 페이지에서 정보 스크랩하기
현실적인 어려움
- 가능한 콘텐츠를 다운로드하라
- 폼, 다이얼로그 박스, 새 창
- Flash
어두운 면
결론

Chapter 6 거짓 리뷰와 헷갈리는 리뷰 찾아내기
Weotta
리뷰 얻기
감정 분류
극성 표현
코퍼스 생성
분류기 학습
분류기 검증
데이터 설계
교훈
요약
리소스

Chapter 7 나쁜 데이터는 일어나 주실래요?
예시 1: 제조 결함 축소 시스템
예시 2: 여보세요?
예시 3: “대표적”이 “평균”을 뜻하지 않을 때
배운 점
이것도 테스트해야 할까요?

Chapter 8 피, 땀, 소변
매우 따분한 몸이 바뀌는 코미디
화학자가 값을 얻는 방법
모든 데이터베이스는 우리 소유입니다
확인해주세요
빨리 살고, 일찍 죽고, 보기 좋은 시체를 남겨라: 코드 저장소
화학자와 스프레드시트를 남용하는 사람들을 위한 중독 치료
tl;dr

Chapter 9 데이터와 현실이 다를 때
어느 종목의 기호인가?
분할, 배당, 재조정
나쁜 현실
결론

Chapter 10 탐지하기 어려운 편향과 오차
무응답 대체 편향: 일반적인 문제
보고 오차: 일반적인 문제
다른 편향 요인
- 상한코딩/하한코딩
- 경계 편향
- 대리 응답
- 표본 선정
결론
참고 자료

Chapter 11 너무 잘 하려다가 오히려 일을 그르친다: 나쁜 데이터가 정말 나쁠까?
먼저, 대학원 시절로 돌아가보자...
프로의 세계로 진출하다
공무원이 되다
행정 데이터는 대단히 현실적이다
신고 전화 데이터 예시
앞으로 나아가다
교훈과 전망

Chapter 12 데이터베이스의 공격: 파일을 고수해야 할 때를 위한 지침
지난 이야기
- 툴셋 만들기
- 장애물: 데이터 저장소
파일을 데이터 저장소로
- 파일은 단순하다!
- 파일은 모든 소프트웨어에서 동작한다
- 파일은 모든 형식의 데이터를 수용한다
- 데이터 손상이 국한적이다
- 훌륭한 툴을 가지고 있다
- 설치 비용이 없다
파일의 개념
- 인코딩
- 텍스트 파일
- 바이너리 데이터
- 메모리 맵(Memory-Mapped) 파일
- 파일 포맷
- 구분기호
파일 기반의 웹 프레임워크
- 동기
- 구현
반성

Chapter 13 웅크린 테이블, 숨겨진 네트워크
관계형 비용 할당 모델
조합이 폭발하는 섬세한 소리...
숨어있던 네트워크가 드러나다
그래프 저장하기
그렘린으로 그래프 탐색하기
네트워크의 가치 찾기
여러 데이터 모델과 알맞은 툴 사용에 관해서
감사의 말

Chapter 14 클라우드 컴퓨팅 신화
클라우드 입문
“클라우드”란 무엇인가?
클라우드와 빅 데이터
프레드(Fred) 소개
순조롭게 시작하다
인프라를 100% 클라우드에 올리다
처음에는 쉽게 확장되다
문제가 생기기 시작하다
성능을 높여야 한다
IO 성능이 중요해지다
대규모 지역 정전으로 심각한 서비스 중단이 발생하다
높은 IO에는 비용이 따른다
데이터 크기 증가
지역적 이중화(Geo Redundancy)가 중요하다
수평 확장은 생각만큼 쉽지 않다
비용이 급격히 증가하다
프레드의 어리석음
신화 1: 클라우드는 모든 인프라 요소에 적합한 솔루션이다
- 이 신화가 프레드의 이야기와 어떤 연관이 있을까
신화 2: 클라우드가 돈을 절약해줄 것이다
- 이 신화가 프레드의 이야기와 어떤 연관이 있을까
신화 3: 클라우드 IO 성능은 소프트웨어 RAID를 통해 쓸만한 수준까지 개선할 수 있다
- 이 신화가 프레드의 이야기와 어떤 연관이 있을까
신화 4: 클라우드 컴퓨팅은 수평 확장이 쉽다
- 이 신화가 프레드의 이야기와 어떤 연관이 있을까
결론과 조언

Chapter 15 데이터 과학의 어두운 면
위험 요소를 피하라
데이터에 대해 알지 말라
- 데이터 클리닝과 구성을 일관성 없이 하라
- 데이터가 정확하고 완전하다고 가정하라
- 시간 관련 데이터의 스필오버(spillover)
데이터 과학자에게 한 가지 툴만 주어라
- 애드-혹 분석에 상용 환경 사용하기
- 이상적인 데이터 연구 환경
분석만을 위해 분석을 하라
배운 것을 독차지하라
데이터 과학자에게 전능함을 기대하라
- 데이터 과학자는 어디에 사는가?
결론

Chapter 16 기계 학습 전문가를 먹이고 돌보는 방법
문제를 정의하라
완성하기 전에 가짜를 만들어라
학습 셋(training set)을 만들어라
특징을 찾아라
데이터를 인코딩하라
학습, 테스트, 정답 셋으로 나누어라
문제를 설명하라
질문에 대답하라
솔루션을 통합하라
결론

Chapter 17 데이터 추적 기술
왜?
개인적인 경험
- 스냅샷
- 출처 저장하기
- 출처에 가중치 부여하기
- 데이터 철회하기
- 단계 분리하기
- 근본 원인 식별하기
- 개선할 부분 찾기
불변성: 함수형 프로그래밍에서 생각을 빌리다
예제
- 크롤러
- 변천
- 클러스터링
- 인기도
결론

Chapter 18 소셜 미디어: 지워지는 잉크?
소셜 미디어: 어쨌든 누구의 데이터인가?
제어권
상업적 리신디케이션
커뮤니케이션과 표현을 둘러싼 기대
- 언어적 커뮤니케이션
새로운 사용자 기대의 기술적 영향
산업계는 무슨 일을 하는가?
- 검증 API
- 업데이트 알림 API
최종 사용자는 무엇을 해야 하는가?
어떻게 함께 일을 하는가?

Chapter 19 데이터 퀄리티 분석의 이해: 여러분의 데이터가 언제 충분히 좋은지 알기
프레임워크 소개: 데이터 퀄리티 분석의 네 가지 C
- Complete
- Coherent
- Correct
- aCcountable
결론

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.