파이썬을 활용한 머신러닝 실전 예제 분석
이 책은 과거 캐글 경진대회에서 제공된 실제 데이터를 다룬다. 머신러닝을 시작하기 위하여 두껍고 어려운 선형대수, 미적분, 통계 책을 읽기 시작하여 고통받고 있는 독자를 위하여, 이 책은 더 재미있고 피부에 와닿는 실제 경진대회를 통해 머신러닝을 배울 수 있도록 돕고자 한다.
먼저, 경진대회에 출제된 문제를 올바르게 이해하고, 데이터 시각화 과정을 통해 데이터에 대한 이해를 쌓아간다. 그리고 높은 순위를 기록한 상위 입상자의 코드를 직접 분석하고 피쳐 엔지니어링, 모델 튜닝, 교차 검증 기법을 독자가 직접 재현할 수 있도록 돕는다. 이 책을 통해 독자는 “성공적인 머신러닝 파이프라인”이 무엇인지를 배우게 될 것이다.
캐글은 2010년에 설립된 머신러닝 경진대회 플랫폼이다. 기업과 연계하여 주최되는 경진대회를 통해 머신러닝 문제와 데이터가 제공되면, 캐글에 가입한 데이터 분석가, 통계학자, 머신러닝 엔지니어 등의 개개인이 모여 가장 높은 점수를 내기 위해 경쟁하는 구조이다. 기업은 우승자의 코드와 분석 기법을 토대로 기업이 보유한 내부 머신러닝 알고리즘을 고도화할 수 있는 기회를 얻게 되고, 개인들은 평소에 접할 수 없는 데이터를 직접 다루는 기회를 얻으며, 상위 입상 시 고액의 상금을 얻는다.
아마존, 페이스북, 구글 등 모두가 아는 IT 기업들도 캐글에 경진대회를 개최한 경험이 있다. 세계 최고 수준의 머신러닝 알고리즘을 구현하는 기업, 구글 딥마인드에서도 파이썬을 활용한 캐글 경진대회에서 우수한 성적을 거두면 자연스럽게 쌓아갈 수 있는 풍부한 경험과 지식을 채용 1순위 기준으로 삼고 있다. 이 책은 전세계에서 인정받을 수 있는 머신러닝 엔지니어 업무를 커리어로 삼고 싶은 독자들을 위한 책이다.