캐글 입문 방법, 캐글 활용법, 기본 테크닉, 고급 테크닉, 방법론, 고득점 노하우, 선배들의 조언 등 이 책에 담긴 모든 것을 습득하고 활용해보세요!
캐글을 처음 시작하거나, 캐글을 알고 있지만 어떻게 활용해야 할지 잘 모르거나, 몇 번 해봤지만 잘 되지 않았던 캐글러 분들이 캐글에 조금 더 가까워지도록 도움을 드리는 것이 목표입니다.
1장: Kaggle
1장에서는 캐글이 무엇이고, 어떤 구성 요소와 기능이 있는지, 이 요소들의 특징과 활용 방법은 무엇인지 자세히 소개합니다. 처음 이 책을 볼 때는 1장을 꼭 한번 훑은 뒤에 컴페티션 솔루션 장을 볼 것을 권장합니다. 1장은 캐글에서 제공하는 대부분의 기능과 활용 방법을 소개하므로, 이 책에서 소개하는 솔루션을 이해하는 데는 물론 앞으로 본격적으로 캐글을 활용할 때 도움이 될 것입니다.
2~7장: 솔루션 장
1장 이후 솔루션 장에서는 저자들이 직접 참가했던 캐글 컴페티션에 대해 소개합니다. 컴페티션의 목적과 배경을 소개하고, 주어진 데이터의 특징과 함께 문제를 풀어나가는 과정에 대해 저자의 경험을 토대로 설명합니다. 여기에 저자가 컴페티션에 참가하면서 느꼈던 점, 추가로 알았으면 하는 팁, 인상 깊게 보았던 다른 캐글러의 솔루션 등도 포함합니다.
솔루션 장은 총 6개로 이루어져 있으며, 순서에 상관없이 원하는 장을 골라 볼 수 있습니다. 솔루션 장은 컴페티션을 간단히 요약한 표로 시작하여, 컴페티션을 소개하는 Overview 절이 뒤를 따릅니다. 이 둘을 참고하면 관심 가는 문제 및 데이터를 다루는 장을 빠르게 파악할 수 있습니다.
각 컴페티션 솔루션은 컴페티션 진행 과정을 파이썬 코드와 함께 설명합니다. 파이썬 코드에서는 주로 컴페티션 데이터와 딥러닝, 머신러닝 모델을 다루기 때문에 파이썬 프로그래밍 언어와 다음 라이브러리에 대한 사전 지식이 필요합니다.
__머신러닝 프레임워크: 파이토치(PyTorch), 텐서플로(Tensorflow), 사이킷런(Scikit-learn)
__데이터셋 라이브러리: 판다스(Pandas), 넘파이(Numpy)
__시각화 라이브러리: 맷플롯립(Matplotlib), 시본(Seaborn), 플롯나인(Plotnine)
8장: 캐글 노트북을 위한 팁
마지막으로 8장은 부록 성격으로, 캐글 노트북을 작성하는 데 필요한 간단한 팁을 정리했습니다. 주로 어떤 유형의 노트북이 공유되는지 소개하고, 각 유형별 특징에 대해 알아봅니다. 또한, 좋은 노트북을 쓰기 위해서는 무엇이 필요한지 간단한 가이드라인도 제공합니다.
[베타테스트평]
2018년부터 캐글 코리아 커뮤니티를 운영하고, 수많은 스터디를 진행하면서 항상 어려웠던 건 스터디원이나 커뮤니티 멤버들에게 캐글 컴페티션 프로세스를 이해시키고 체화시키는 부분이었습니다. 이 책은 초반부에 초보 캐글러를 위한 입문 가이드를 제공하여 좋았습니다. 뿐만 아니라 캐글 플랫폼에서 제공하는 각 기능들을 상세하게 설명하고 사용 예시를 스크린샷으로 확인할 수 있어 실제 캐글을 입문하려는 분들께 도움이 많이 될 것입니다.
강천성 / 컨택스츠아이오 / 5년 차 머신러닝 엔지니어
캐글에서 잔뼈가 굵은 여러 캐글러들이 본인의 노하우를 아낌없이, 밤을 새웠을 예제를 들어 공유해주고 있습니다. 수많은 기법들이 어디에 어떻게 사용되는지, 어떤 고민을 했는지 당시의 기쁨과 괴로움을 모두 나눠준 책입니다. 현업이 바빠서, 가정을 돌봐야 해서, 캐글 컴페티션에 뛰어들지 못하는 분들도 캐글의 효용을 체감할 수 있을 것입니다.
이제현 / 한국에너지기술연구원 / 데이터 사이언티스트
머신러닝의 기본 개념을 배운 후 캐글처럼 실전 문제에 적용하고 싶은 사람에게 좋은 노하우를 제시해주는 책입니다. 특히 캐글 플랫폼에 대한 자세한 설명과 tabular, computer vision, medical image, NLP 등 다양한 도메인에서 사용하는 기본 방식을 알 수 있으며, 기본적인 EDA부터 앙상블까지 따라 하며 실제 현업에서 적용할 수 있는 경험을 제시해줍니다. 또한, 다양한 프레임워크와 다른 상위권 팀의 노하우도 같이 공유하여 한 문제에 대한 다양한 접근법과 새로운 인사이트를 얻을 수 있는 점이 도움이 되었습니다. 다양한 방면에서 딥러닝의 기술을 익히고 싶은 사람에게 추천하며, 관심 분야로 파고들 수 있는 참고서가 되리라 생각합니다.
박찬민 / VUNO / 2년 차 데이터 사이언티스트
어떠한 분야에서든 입문자가 실력을 빠르고 효과적으로 상승시킬 수 있는 강력한 방법이 있습니다. (1) 대가들의 결과물을 반복해서 소비하고 연구하면서 (2) 그 결과물을 만들 당시 대가들의 생각과 느낌을 재현, 흉내내 보고 (3) 이 반복 과정을 통해 대가들의 기술과 감각을 나만의 방식으로 해석, 습득하는 것입니다. 캐글은 위와 같은 트레이닝을 하기에 최적화된 플랫폼이고, 이 책은 다양한 사례와 시행착오를 담고 있습니다. 즉, 데이터 분석 입문자가 효과적으로 실력을 향상시킬 최적의 플랫폼과 방법의 조합을 소개하는 책입니다.
김보찬 / AO Labs / 4년 차 백엔드 개발자
각 대회마다 초기 데이터 분석(EDA)부터 토론과 해결 과정까지, 실제 캐글 대회에 참여하는 경험을 간접적으로 느낄 수 있었습니다. 특히 실제 대회에 참가하면서 겪게 될 고민과 해결 방법을 미리 경험하고, 캐글 대회에 대한 접근 방법을 구체적으로 알 수 있었다는 점에서 큰 도움이 되었습니다. 이 책의 실질적인 가이드라인과 실전 노하우는 캐글 입문자나 향후 캐글에 도전하려는 이들에게 매우 유용할 것입니다.
유승완 / 대학생
코드가 효율적으로 구현되어 코드를 직관적으로 이해하기 쉬웠고, 평소 생각하지 못한 접근 방식을 배울 수 있었습니다. 평소 캐글에 진입 장벽을 느낀 초심자부터 순위권을 목표로 했지만 등수를 올리기 어려웠던 캐글러에게 이 책을 추천합니다.
김지은 / 고려대학교 산업경영공학과 석사 졸업 / 데이터 직무 준비 중
캐글을 이용하여 데이터 과학에 입문하는 사람부터 중수(중급) 이상을 노리는 사람까지, 실력 편차 없이 각자 얻어갈 부분이 많은 책이라 느꼈습니다. 데이터 과학을 공부하는 초보자에게는 캐글 플랫폼 내부의 디테일한 부분까지 설명해주어 나침반 역할을 해줍니다. 또한, 캐글 노트북을 어떻게 작성하고 어느 부분을 강조하는 것이 좋은지, 다른 사람에게 본인이 직접 분석한 내용을 표현과 논리적으로 설명할 수 있는 실력을 길러줍니다.
정호영 / 프리랜서 / 5년 차 데이터 사이언티스트
캐글 노트북의 디스크 제한량 등 디테일한 사용법을 알려주어 실전에서 사용하는 데 도움이 되었습니다. 또한, 평소에 관심이 많았던 이슈인 고용량 데이터를 분할 압축하여 데이터 제너레이터로 나눠서 입력 데이터로 사용할 수 있는 방법을 알 수 있어서 좋았습니다. 그리고 저자들의 솔루션 말고도 다른 상위권의 솔루션, 아이디어를 얻었던 솔루션도 같이 소개하였기에 다양한 방식을 고찰할 수 있었습니다. 특히 IEEE-CIS Fraud Detection 1위 솔루션에서 적대적 유효성 검사의 특성을 이용해서 검사가 주로 쓰이는 방식이 아닌 다른 방식으로 활용하는 인사이트가 인상적이었습니다.
한원배 / 동국대학교 / AI 개발자 취업 준비 중
실습도 다양하고 실습 관련 해설도 잘 돼 있어서 초보 개발자가 캐글에 도전하기 전에 꼭 읽어봐야 할 책입니다. 데이터나 그래프를 보면 어떻게 해석해야 하나 고민될 때가 많았는데 책에 해설이 잘 돼 있어서 ‘이런 지표가 이런 걸 알려주는구나!’라는 걸 배우고, 데이터와 그래프를 보는 방법 등에 친숙해진 것 같습니다.
신기훈 / 취업준비생 / 개발자 취업 준비 중
1장 내용이 캐글에 대한 표면적인 소개에 그치는 것이 아니라, 캐글을 통해 어떻게 성장할 수 있는지를 알려주는 느낌이라 좋았습니다. 솔루션 또한 굉장히 자세하게 서술되어 있어 (초심자라면 한번에 이해하기 어려울 수도 있지만) 많은 인사이트를 얻어갈 수 있습니다. 머신러닝 이론을 공부할 때, ‘그래서 이걸 어떻게 써먹는 거지? 왜 이런 방법이 필요한 거지?’라는 의문이 든 경험이 다들 있을 텐데, 이 책은 머신러닝으로 풀려는 문제가 먼저 주어지고 그 문제를 어떻게 접근했는지 디테일한 방식을 엿볼 수 있기에 공부하는 데 큰 도움이 될 것입니다.
백승윤 / 코르카 / 3년 차 머신러닝 엔지니어