데이터 관리·분석의 새로운 세계를 보여주는 타이디버스 안내서!
타이디버스(tidyverse)란, ‘타이디데이터(tidy data) 형태를 데이터 분석 및 시각화의 표준으로 하는, 데이터 접근법들로 구성된 세계’라고 볼 수 있다. 타이디데이터는 3가지 규칙을 지닌다. ‘① 하나의 변수는 하나의 세로줄을 형성한다. ② 하나의 사례는 하나의 가로줄을 형성한다. ③ 하나의 변수의 종류별로 하나의 표를 형성한다’가 그것이다. 사실 이 3가지 규칙은 그리 놀라운 것은 아니다. 일반적으로 우리가 접하는 데이터는 대개 이 규칙들을 따르기 때문이다. 그러나 문제는 데이터 과학에서 다루는 적지 않은 데이터들이 이 규칙을 전면적으로 혹은 부분적으로 따르지 않은 채 ‘정리되지 않은 데이터(uncleaned data)’ 혹은 ‘지저분한 데이터(messy data)’로 남아 있으며, 그로 인해 실질적인 데이터 분석이 이루어지지 못한다는 점이다.
이 책은 연구자들로 하여금 정리되지 않은 방대한 양의 데이터를 위의 3가지 규칙에 따라 기술통계분석, 모형추정, 분석결과의 시각화를 할 수 있는 형태로 정리하여 타이디데이터 형태로 정리하는 방법을 안내해준다. 아울러 타이디버스 라이브러리의 여러 함수들과 그 활용방법을 소개함으로써 독자들이 효율적·효과적으로 데이터를 관리·분석하고 실질적인 분석결과를 도출할 수 있도록 이끌어준다 !
R 기반 데이터 과학의 진보, 타이디버스 접근법!
오늘날 R 이용환경은 급속하게 변화하고 있다. 그러나 환경이 변했다고 해서 R을 이용하는 것이 더 어려워진 것은 아니다. R 환경은 더 많은 양의 데이터, 더 다양한 형태의 데이터를 보다 쉽게 다루고 분석할 수 있도록 변해가고 있으며, 이 발전적 변화를 주도하고 있는 패키지가 바로 ‘타이디버스(tidyverse)’이다.
‘타이디버스 접근법’을 쓰기 위해 기존의 R 프로그래밍 습관을 버릴 필요는 없다. 상황에 따라서는 타이디버스 접근법을 따르는 것보다 R 베이스에 기반해 데이터를 분석하는 것이 더 효율적이기도 하다. 그러나 데이터가 크고 복잡하며, 정리되지 않은 지저분한 형태로 존재할 때 타이디버스 접근법은 매우 위력적이다!