◈ 이 책에서 다루는 내용 ◈
통계 기법보다 비판적 사고에 초점을 두고 데이터 과학을 흥미롭게 소개한다.
데이터 과학이나 통계 입문서에서 복잡한 수학 정리를 증명하거나 뜻도 잘 모르는 용어와 공식을 외우도록 하는 일은 피해야 하는데, 현재 정량 분석 입문 교재는 대부분 이런 내용만 강조한다. 반면에 이 책은 무엇보다도 비판적 사고와 개념 이해에 집중해서, 학생들로 하여금 살면서 마주칠 정량적 정보와 논증에 있어서 더 나은 소비자이자 분석가가 되도록 가르친다.
다른 내용도 많이 있지만, 특히 데이터에서 관찰한 어떤 관계가 현실에 존재하는 관계를 반영하는지 판단하는 방법, 정말 그렇다면 그 관계가 인과관계인지 파악하는 방법, 그리고 질문에 답하는 데 가장 유용한 비교를 하는 방법을 설명한다. 또한, 정량적 증거를 들어서 주장하는 사람에게 어떤 질문을 해야 하는지, 어떤 통계가 특히 유용하거나 판단을 그르치는지 알려주며, 정량적 증거가 어떻게 의사 결정에 영향을 미쳐야 하거나 미치면 안 되는지, 그리고 데이터뿐만 아니라 윤리적 가치도 함께 고려해서 더 나은 의사 결정을 하는 방법을 가르친다. 다양한 실제 사례를 통해서, 이 책은 선거, 시민 저항, 범죄, 테러, 금융위기, 건강보험, 스포츠, 음악, 우주 여행과 같이 폭넓은 주제에서 사고 도구를 문제에 응용하는 방법을 보여준다. 또한, 무엇보다도 이 책은 데이터 기반 시대의 여러 이점에도 불구하고, 어째서 데이터가 인간의 사고를 대체하지 못하는지 보여준다.
◆ 데이터 과학, 통계학, 정치학, 경제학, 심리학, 사회학, 공공 정책 등의 분야에 모두 적용가능한 정량 분석법 개론
◆ 표본, 가설 검정, 베이즈 추론, 회귀, 실험, 도구 변수, 이중차분법, 회귀 불연속성을 포함한 데이터 분석의 기본 도구
◆ 다양한 주제에서 얻은 실제 사례와 데이터
◆ 데이터를 다루는 연습 문제
◈ 이 책의 구성 ◈
1부는 오로지 용어의 의미를 같은 수준으로 이해시키는 데 힘을 쏟는다. 상관관계와 인과관계의 의미를 개념적이고 기술적으로 정의한다. 용어의 의미를 구축하며, 특히 상관관계와 인과관계를 정량 분석의 초석으로서 강조한다.
이를 바탕으로 2부에서는 데이터와 증거 자료를 사용해서 세상에 존재하는 여러 특성 사이에 상관관계나 인과관계가 존재하는지 여부를 판별하는 방법을 다룰 것이다. 4장은 종속 변수를 고르는 과정에서 흔히 범하는 실수를 소개하고, 변이를 고려하지 않고 상관관계를 구축할 수 없는 이유를 보여주고, 이런 실수가 큰 영향을 미친 무수한 사례를 살펴본다. 5장은 회귀를 시각적으로 나타내기에 집중해, 상관관계를 측정하는 방법을 다룬다. 6장은 통계적 유의성과 가설 검정을 설명하고, 이 책에서 여러 번 나올 공식을 소개한다.
4장을 읽어도 데이터로부터 관계를 수립하는 데 있어서 명확한 사고의 중요성이 충분히 전달되지 않았다면, 7장은 p-해킹 문제, 출판 편향, 그 밖에 관련 있는 주제를 논의함으로써 이를 확실히 한다. 마지막으로, 8장은 평균으로의 복귀라는 생소한 주제를 다루고, 이를 앞서 설명한 출판 편향과 결합해서 재현성 위기와 더불어, 흔히 나타나는 과학적 추정치가 시간이 흐르면서 감소하는 현상을 보여 준다.
3부에서는 인과 추론으로 넘어가서 세상사에 개입하는 의사결정에 있어서 인과관계에 관한지식이 얼마나 중요한지 일깨운다. 9장은 교란 변수와 역인과관계를 논하면서, 상관관계가 반드시 인과관계를 내포하지는 않는 이유를 설명한다. 10장은 통계 분야의 통제를 다루고, 회귀의 관점에서 이를 도식화한다. 11장부터 13장까지는 인과관계를 학습하려는 학자들이 어떻게 연구 방식을 설계하는지 개괄적으로 소개한다. 11장은 무작위 실험과 자연 실험 두 가지를 모두 다루는데, 불이행 문제를 다룰 방법인 도구 변수를 소개한다. 12장과 13장은 회귀 불연속과 이중차분법 설계를 차례로 다룬다. 14장에서는 인과관계 기작 학습에 따르는 어려움을 논의하면서 3부를 마친다.
4부에서는 인과관계가 끝이 아님을 지적한다. 인과적 효과에 관한 지식이 충분해도, 그것만으로 정량화된 정보를 활용해서 의사결정을 잘 하는 방법을 터득했다고 보기는 어렵다. 15장은 여러분이 어떤 정량화된 정보가 어떤 질문에 대한 답을 주는지를 얼마나 쉽게 헷갈리는지 지적하고, 이런 실수를 피하게끔 정보의 세부 사항으로부터 핵심을 추려내도록 독려한다. 이 과정에서 베이즈 법칙(Bayes’ rule)을 소개한다. 16장은 측정, 외부 타당성, 외삽법(extrapolation)을 다루며, 표본 선택 편향도 함께 논의한다. 마지막으로, 17장에서는 정량 분석을 아무리 명확하게 하더라도 의사결정 과정에서 겪는 근본적인 한계를 마주한다.
◈ 옮긴이의 말 ◈
빅데이터라는 용어가 식상하게 느껴지는 시대다. 데이터의 양은 물론이고 분석 도구와 활용 범위 또한 하루가 다르게 늘어간다. 게다가 인공지능의 대두로 빅데이터의 효용성이 더욱 부각되는 모습이다.
저자들이 이 책을 완성한 이후로도 인공지능은 장족의 발전을 거듭했고, 이제는 사람의 자리를 위협할지도 모른다는 위기감마저 느껴질 정도다. 대량의 데이터를 처리하는 능력을 따지면 사람은 진작부터 컴퓨터의 상대가 아니었다. 더욱이 최근의 인공지능은 기계적인 분석을 넘어서 인간만의 영역으로 여기던 추론 능력까지 선보이기 시작했다. 그렇다면 우리는 과연 조만간 모든 결정을 프로그램에 맡기고 그저 따르는 존재가 될까?
영화 〈쇼생크 탈출〉에서 주인공 앤디 듀프레인은 이렇게 말했다.
희망은 좋은 거죠. 가장 소중한 것일지도 몰라요. 그리고 좋은 것은 절대 사라지지 않아요.
올바른 사고는 사람이 지닌 좋은 능력이다. 인공지능이 정말로 대단한 능력을 보여주고 사람이 하던 많은 일을 대신하더라도, 절대 사라지지 않을 소중한 희망이겠다. 물론 거저 얻어지는 열매는 아니며 부단한 노력이 필요하다. 아무쪼록 여러분이 올바르게 사고하는 능력을 가꿔 나가는 데 이 책이 길잡이가 되길 바란다.
-임형준
.