◈ 이 책에서 다루는 내용 ◈
◆ 데이터를 신중하게 생각하고 올바른 질문을 하는 방법
◆ 개별 데이터 포인트와 관련된 문제 데이터 식별
◆ 데이터의 체계적인 형태에서 문제 데이터 감지
◆ 데이터 무결성 및 청결 문제 해결
◆ 분석 및 머신 러닝 작업을 위한 데이터 준비
◆ 누락되거나 신뢰할 수 없는 데이터에 값 보정
◆ 데이터 과학, 데이터 분석 또는 시각화 목표에 더 적합한 통합 특징 생성
◈ 이 책의 대상 독자 ◈
자기 주도적인 독자나 좀 더 체계적인 학술, 훈련 또는 인증 과정에서 사용하기 적합하다. 각 장의 하단에는 독자나 학생들에게 이전 자료에서 방금 배운 것과 관련된 작업을 완성하게 요구하는 연습이 있다.
◈ 옮긴이의 말 ◈
데이터 과학이나 데이터 엔지니어링 작업 중 80%는 데이터 수집, 변환, 정제와 같은 준비 작업이다. 나머지 20%의 작업이 통계, 머신러닝 또는 기타 다양한 분석 기업을 적용하는 것이다. 80% 추정치가 정확하지 않더라도 데이터를 다루는 대부분의 시간과 노력이 여기에 소비된다.
이처럼 데이터의 수집과 변환, 정제에 이르기까지 데이터 과학의 효율을 높이는 작업을 데이터 클리닝이라고 하며, 데이터 과학자라면 피할 수 없는 작업이다. 데이터 클리닝은 데이터 과학 및 머신 러닝 작업을 위한 데이터 파이프라인에서 시간이 많이 걸리고 중요한 작업이지만 가장 적게 언급되는 부분이다. 주로 책이 아닌 경험이나 시행착오를 통해 배우게 되지만 데이터 클리닝에 관한 적합한 책을 찾을 수 있다면 이러한 시간과 비용을 줄일 수 있다.
하지만 데이터 과학 관련 서적들이 주로 첫째 장에서만 데이터 준비 과정을 다루기 때문에 이론적 토대에 관한 지식을 제대로 전달하지 않고 관련 파이썬 및 R 패키지를 사용하는 방법만 보여준다. 이 책의 전반적인 구성은 데이터 과학 실무에서 개발할 데이터 파이프라인 단계와 유사한 순서로 배열돼 있으며 효율적인 데이터 과학을 위한 표준 데이터 파이프라인에서 해결해야 할 데이터 클리닝 문제를 다룬다.
광범위한 테이블 형식, 계층적 형식 등 여러 타입의 데이터 형식을 살펴보며 결측값을 보정하고 신뢰할 수 없는 데이터 및 통계적 이상치를 감지하고 합성하는 기술을 설명한다. 특히 다양한 형태의 데이터에 대한 구조적 문제와 내용적 문제를 짚어보고 유용하게 정리하는 방법의 장단점을 살펴본다. 또한 데이터 준비 과정에 대한 필수 내용을 구체화했고 실제 데이터 과학에서 응용할 수 있는 기술을 전달한다. 데이터 클리닝을 수행하기 위한 도구와 기술을 설명하고 새로 습득한 기술을 테스트하고 개선해 지식이 강화되도록 각 장의 끝부분에서는 자세한 실습을 제공하고 있다.
이 책에서 다루는 파이썬이나 R 코드를 감안할 때 이러한 언어에 대한 지식과 경험이 있는 것은 좋지만 전부 알고 있을 필요는 없다. 템플릿으로 사용할 수 있는 코드 예제가 많지만 코드의 이해나 잘라내기 및 붙여넣기 예제보다 사고방식과 사고 과정을 강조한다. 즉, 파이썬, 셸 스크립트, R을 모르더라도 몇 줄의 코드로 얼마나 많은 일을 할 수 있는지 보는 것만으로도 도움이 된다.
데이터 과학이나 AI 분야에서 일하는 사람이라면 누구나 이 책을 읽고 더 정제되고 유용한 데이터를 얻고자 프로세스를 구현하는 방법을 학습할 수 있을 것이다. 데이터를 준비하는 전처리 과정과 관련이 있는 독자에게 이 책을 강력히 추천하며 전산학 학위 취득을 위해 데이터 구조와 알고리즘을 배우는 시기에 읽을 것을 권장한다.