이 책의 내용과 학습 절차
이 책은 크게 R의 시작 - 시각화 - 데이터 수집과 전처리 - 시뮬레이션과 데이터 분석의 4개 파트로 구성되어 있다. 첫 번째 파트인 R의 시작에서는 1장에서 4차 산업혁명 시대의 데이터 분석 사례를 통해 그 중요성을 이해하고, 데이터 분석 도구인 R의 개요를 살펴보자. 2장에서는 R과 RStudio 개발환경을 구축하고 시작하는 과정을, 3장에서는 R 데이터 구조와 데이터 세트, 그리고 함수를 통해 기초적인 문법을 익혀보자. 두 번째 파트인 시각화 파트는 데이터 분석 효과를 높이기 위해 그래프, 애니메이션, 지도 출력 방법을 알아보자. 4장에서 ggplot2 패키지를 이용한 고급 그래프를 출력하는 방법을 살펴보고, 5장에서는 그래프 애니메이션과 이미지 애니메이션을 제작해본다. 6장에서는 세계지도와 우리나라 행정지도를 이용한 지도의 활용 방법을 살펴본다. 세 번째 파트는 데이터 분석에 필요한 데이터 수집과 전처리 과정을 익히고, 7장~9장에서 웹스크래핑, 공공데이터와 네이버의 Open API를 이용한 실용적인 데이터를 수집하는 방법을 살펴보자. 또한, 10장에서 데이터 프로파일링, 데이터 정제, 데이터 병합 등의 데이터 전처리에 대해 살펴보자. 마지막 시뮬레이션과 데이터 분석 파트에서는 11장에서 복잡한 실세계의 문제를 컴퓨터 시뮬레이션으로 해결하는 원리를 이해하고, 12장에서 사회관계분석을 위한 네트워크 분석, 13장에서 인공신경망과 딥러닝의 원리를 살펴본다. 학습 절차는 시간적인 제약과 흥미에 따라 달리할 수 있을 것이다. 파트 1과 2는 R의 기초적인 내용으로 순서에 따라 학습하면 좋을 것이다. 한편, 파트 3과 4의 각 주제는 장별 순서대로 학습하거나 주제별로 선별해서 순서와 무관하게 학습할 수 있다. 다만, 8장의 공공 데이터 활용과 9장의 네이버 오픈 API 활용은 7장의 웹스크래핑 원리를 익힌 후에 학습하기를 권한다.
파트 3과 4의 각 주제는 개요, 원리 이해, 기초 실습, 응용 실습 단계로 기술하여, 학습자가 혼자서 또는 그룹으로 토의하면서 내용들을 이해할 수 있도록 하였다. 또한, 각 주제별 학습 후에는 연습문제와 응용문제를 통해 스스로 이해 수준을 파악하고 응용력을 키울 수 있도록 하였다.