장바구니 담기 close

장바구니에 상품을 담았습니다.

캐글 메달리스트가 알려주는 캐글 노하우

캐글 메달리스트가 알려주는 캐글 노하우

  • 김태진
  • |
  • 길벗
  • |
  • 2023-07-25 출간
  • |
  • 380페이지
  • |
  • 183 X 235 X 16mm
  • |
  • ISBN 9791140705290
판매가

34,000원

즉시할인가

30,600

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
30,600

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평

캐글 입문 방법, 캐글 활용법, 기본 테크닉, 고급 테크닉, 방법론, 고득점 노하우, 선배들의 조언 등 이 책에 담긴 모든 것을 습득하고 활용해보세요!

캐글을 처음 시작하거나, 캐글을 알고 있지만 어떻게 활용해야 할지 잘 모르거나, 몇 번 해봤지만 잘 되지 않았던 캐글러 분들이 캐글에 조금 더 가까워지도록 도움을 드리는 것이 목표입니다.

1장: Kaggle
1장에서는 캐글이 무엇이고, 어떤 구성 요소와 기능이 있는지, 이 요소들의 특징과 활용 방법은 무엇인지 자세히 소개합니다. 처음 이 책을 볼 때는 1장을 꼭 한번 훑은 뒤에 컴페티션 솔루션 장을 볼 것을 권장합니다. 1장은 캐글에서 제공하는 대부분의 기능과 활용 방법을 소개하므로, 이 책에서 소개하는 솔루션을 이해하는 데는 물론 앞으로 본격적으로 캐글을 활용할 때 도움이 될 것입니다.

2~7장: 솔루션 장
1장 이후 솔루션 장에서는 저자들이 직접 참가했던 캐글 컴페티션에 대해 소개합니다. 컴페티션의 목적과 배경을 소개하고, 주어진 데이터의 특징과 함께 문제를 풀어나가는 과정에 대해 저자의 경험을 토대로 설명합니다. 여기에 저자가 컴페티션에 참가하면서 느꼈던 점, 추가로 알았으면 하는 팁, 인상 깊게 보았던 다른 캐글러의 솔루션 등도 포함합니다.
솔루션 장은 총 6개로 이루어져 있으며, 순서에 상관없이 원하는 장을 골라 볼 수 있습니다. 솔루션 장은 컴페티션을 간단히 요약한 표로 시작하여, 컴페티션을 소개하는 Overview 절이 뒤를 따릅니다. 이 둘을 참고하면 관심 가는 문제 및 데이터를 다루는 장을 빠르게 파악할 수 있습니다.
각 컴페티션 솔루션은 컴페티션 진행 과정을 파이썬 코드와 함께 설명합니다. 파이썬 코드에서는 주로 컴페티션 데이터와 딥러닝, 머신러닝 모델을 다루기 때문에 파이썬 프로그래밍 언어와 다음 라이브러리에 대한 사전 지식이 필요합니다.
__머신러닝 프레임워크: 파이토치(PyTorch), 텐서플로(Tensorflow), 사이킷런(Scikit-learn)
__데이터셋 라이브러리: 판다스(Pandas), 넘파이(Numpy)
__시각화 라이브러리: 맷플롯립(Matplotlib), 시본(Seaborn), 플롯나인(Plotnine)

8장: 캐글 노트북을 위한 팁
마지막으로 8장은 부록 성격으로, 캐글 노트북을 작성하는 데 필요한 간단한 팁을 정리했습니다. 주로 어떤 유형의 노트북이 공유되는지 소개하고, 각 유형별 특징에 대해 알아봅니다. 또한, 좋은 노트북을 쓰기 위해서는 무엇이 필요한지 간단한 가이드라인도 제공합니다.

[베타테스트평]
2018년부터 캐글 코리아 커뮤니티를 운영하고, 수많은 스터디를 진행하면서 항상 어려웠던 건 스터디원이나 커뮤니티 멤버들에게 캐글 컴페티션 프로세스를 이해시키고 체화시키는 부분이었습니다. 이 책은 초반부에 초보 캐글러를 위한 입문 가이드를 제공하여 좋았습니다. 뿐만 아니라 캐글 플랫폼에서 제공하는 각 기능들을 상세하게 설명하고 사용 예시를 스크린샷으로 확인할 수 있어 실제 캐글을 입문하려는 분들께 도움이 많이 될 것입니다.
강천성 / 컨택스츠아이오 / 5년 차 머신러닝 엔지니어

캐글에서 잔뼈가 굵은 여러 캐글러들이 본인의 노하우를 아낌없이, 밤을 새웠을 예제를 들어 공유해주고 있습니다. 수많은 기법들이 어디에 어떻게 사용되는지, 어떤 고민을 했는지 당시의 기쁨과 괴로움을 모두 나눠준 책입니다. 현업이 바빠서, 가정을 돌봐야 해서, 캐글 컴페티션에 뛰어들지 못하는 분들도 캐글의 효용을 체감할 수 있을 것입니다.
이제현 / 한국에너지기술연구원 / 데이터 사이언티스트

머신러닝의 기본 개념을 배운 후 캐글처럼 실전 문제에 적용하고 싶은 사람에게 좋은 노하우를 제시해주는 책입니다. 특히 캐글 플랫폼에 대한 자세한 설명과 tabular, computer vision, medical image, NLP 등 다양한 도메인에서 사용하는 기본 방식을 알 수 있으며, 기본적인 EDA부터 앙상블까지 따라 하며 실제 현업에서 적용할 수 있는 경험을 제시해줍니다. 또한, 다양한 프레임워크와 다른 상위권 팀의 노하우도 같이 공유하여 한 문제에 대한 다양한 접근법과 새로운 인사이트를 얻을 수 있는 점이 도움이 되었습니다. 다양한 방면에서 딥러닝의 기술을 익히고 싶은 사람에게 추천하며, 관심 분야로 파고들 수 있는 참고서가 되리라 생각합니다.
박찬민 / VUNO / 2년 차 데이터 사이언티스트

어떠한 분야에서든 입문자가 실력을 빠르고 효과적으로 상승시킬 수 있는 강력한 방법이 있습니다. (1) 대가들의 결과물을 반복해서 소비하고 연구하면서 (2) 그 결과물을 만들 당시 대가들의 생각과 느낌을 재현, 흉내내 보고 (3) 이 반복 과정을 통해 대가들의 기술과 감각을 나만의 방식으로 해석, 습득하는 것입니다. 캐글은 위와 같은 트레이닝을 하기에 최적화된 플랫폼이고, 이 책은 다양한 사례와 시행착오를 담고 있습니다. 즉, 데이터 분석 입문자가 효과적으로 실력을 향상시킬 최적의 플랫폼과 방법의 조합을 소개하는 책입니다.
김보찬 / AO Labs / 4년 차 백엔드 개발자

각 대회마다 초기 데이터 분석(EDA)부터 토론과 해결 과정까지, 실제 캐글 대회에 참여하는 경험을 간접적으로 느낄 수 있었습니다. 특히 실제 대회에 참가하면서 겪게 될 고민과 해결 방법을 미리 경험하고, 캐글 대회에 대한 접근 방법을 구체적으로 알 수 있었다는 점에서 큰 도움이 되었습니다. 이 책의 실질적인 가이드라인과 실전 노하우는 캐글 입문자나 향후 캐글에 도전하려는 이들에게 매우 유용할 것입니다.
유승완 / 대학생

코드가 효율적으로 구현되어 코드를 직관적으로 이해하기 쉬웠고, 평소 생각하지 못한 접근 방식을 배울 수 있었습니다. 평소 캐글에 진입 장벽을 느낀 초심자부터 순위권을 목표로 했지만 등수를 올리기 어려웠던 캐글러에게 이 책을 추천합니다.
김지은 / 고려대학교 산업경영공학과 석사 졸업 / 데이터 직무 준비 중

캐글을 이용하여 데이터 과학에 입문하는 사람부터 중수(중급) 이상을 노리는 사람까지, 실력 편차 없이 각자 얻어갈 부분이 많은 책이라 느꼈습니다. 데이터 과학을 공부하는 초보자에게는 캐글 플랫폼 내부의 디테일한 부분까지 설명해주어 나침반 역할을 해줍니다. 또한, 캐글 노트북을 어떻게 작성하고 어느 부분을 강조하는 것이 좋은지, 다른 사람에게 본인이 직접 분석한 내용을 표현과 논리적으로 설명할 수 있는 실력을 길러줍니다.
정호영 / 프리랜서 / 5년 차 데이터 사이언티스트

캐글 노트북의 디스크 제한량 등 디테일한 사용법을 알려주어 실전에서 사용하는 데 도움이 되었습니다. 또한, 평소에 관심이 많았던 이슈인 고용량 데이터를 분할 압축하여 데이터 제너레이터로 나눠서 입력 데이터로 사용할 수 있는 방법을 알 수 있어서 좋았습니다. 그리고 저자들의 솔루션 말고도 다른 상위권의 솔루션, 아이디어를 얻었던 솔루션도 같이 소개하였기에 다양한 방식을 고찰할 수 있었습니다. 특히 IEEE-CIS Fraud Detection 1위 솔루션에서 적대적 유효성 검사의 특성을 이용해서 검사가 주로 쓰이는 방식이 아닌 다른 방식으로 활용하는 인사이트가 인상적이었습니다.
한원배 / 동국대학교 / AI 개발자 취업 준비 중

실습도 다양하고 실습 관련 해설도 잘 돼 있어서 초보 개발자가 캐글에 도전하기 전에 꼭 읽어봐야 할 책입니다. 데이터나 그래프를 보면 어떻게 해석해야 하나 고민될 때가 많았는데 책에 해설이 잘 돼 있어서 ‘이런 지표가 이런 걸 알려주는구나!’라는 걸 배우고, 데이터와 그래프를 보는 방법 등에 친숙해진 것 같습니다.
신기훈 / 취업준비생 / 개발자 취업 준비 중

1장 내용이 캐글에 대한 표면적인 소개에 그치는 것이 아니라, 캐글을 통해 어떻게 성장할 수 있는지를 알려주는 느낌이라 좋았습니다. 솔루션 또한 굉장히 자세하게 서술되어 있어 (초심자라면 한번에 이해하기 어려울 수도 있지만) 많은 인사이트를 얻어갈 수 있습니다. 머신러닝 이론을 공부할 때, ‘그래서 이걸 어떻게 써먹는 거지? 왜 이런 방법이 필요한 거지?’라는 의문이 든 경험이 다들 있을 텐데, 이 책은 머신러닝으로 풀려는 문제가 먼저 주어지고 그 문제를 어떻게 접근했는지 디테일한 방식을 엿볼 수 있기에 공부하는 데 큰 도움이 될 것입니다.
백승윤 / 코르카 / 3년 차 머신러닝 엔지니어

목차

1장 Kaggle
__1.1 컴페티션
____1.1.1 컴페티션 파악
____1.1.2 컴페티션 선택
____1.1.3 컴페티션 종료
__1.2 초보 캐글러를 위한 컴페티션 시작 팁
____1.2.1 컴페티션이 어려운 이유
____1.2.2 컴페티션 시작
____1.2.3 컴페티션 점수에 대한 생각
__1.3 코드
____1.3.1 노트북
____1.3.2 클라우드 노트북
____1.3.3 Save Version
____1.3.4 공유
__1.4 데이터셋
____1.4.1 캐글 데이터셋
____1.4.2 데이터셋 생성
____1.4.3 데이터셋 활용
____1.4.4 공유
__1.5 디스커션
____1.5.1 디스커션 종류와 역할
____1.5.2 Thanks for sharing!
__1.6 More
____1.6.1 Progression System
____1.6.2 Learn
__1.7 이제 캐글의 세계로

2장 Instant Gratification
__2.1 들어가기 전에
____2.1.1 캐글 프로필: 김연민
____2.1.2 코드
__2.2 Overview
____2.2.1 대회 목적
____2.2.2 평가 지표
____2.2.3 데이터 소개
__2.3 솔루션 소개
____2.3.1 Overview
____2.3.2 EDA
____2.3.3 스태킹
____2.3.4 솔루션 상세
____2.3.5 제출 전략
__2.4 디스커션

3장 IEEE-CIS Fraud Detection
__3.1 들어가기 전에
____3.1.1 캐글 프로필: 김현우
____3.1.2 캐글 프로필: 정성훈
____3.1.3 코드
__3.2 Overview
____3.2.1 대회 목적
____3.2.2 평가 지표
____3.2.3 데이터 소개
__3.3 솔루션 소개
____3.3.1 Overview
____3.3.2 EDA
____3.3.3 피처 엔지니어링
____3.3.4 모델링
__3.4 다른 솔루션 소개
____3.4.1 Overview
____3.4.2 EDA
____3.4.3 피처 엔지니어링
____3.4.4 피처 선택
____3.4.5 모델링
__3.5 디스커션

4장 Quick, Draw! Doodle Recognition
__4.1 들어가기 전에
____4.1.1 캐글 프로필: 명대우
____4.1.2 코드
__4.2 Overview
____4.2.1 대회 목적
____4.2.2 평가 지표
__4.3 솔루션
____4.3.1 EDA
____4.3.2 데이터 전처리
____4.3.3 데이터 생성
____4.3.4 모델링
____4.3.5 앙상블
__4.4 다른 솔루션 소개
__4.5 디스커션

5장 Bengali.AI Handwritten Grapheme Classification
__5.1 들어가기 전에
____5.1.1 캐글 프로필: 이유한
____5.1.2 코드
__5.2 Overview
____5.2.1 대회 목적
____5.2.2 평가 지표
____5.2.3 데이터 소개
__5.3 솔루션 소개
____5.3.1 검증 전략 설정
____5.3.2 학습 전 전처리
____5.3.3 데이터셋 만들기
____5.3.4 학습
____5.3.5 데이터 증강
____5.3.6 수도 레이블링
____5.3.7 앙상블
__5.4 다른 솔루션 소개
____5.4.1 1등 솔루션
____5.4.2 2등 솔루션
__5.5 디스커션
____5.5.1 Tips
____5.5.2 후기

6장 SIIM-ACR Pneumothorax Segmentation
__6.1 들어가기 전에
____6.1.1 캐글 프로필: 권순환
____6.1.2 코드
__6.2 Overview
____6.2.1 대회 목적
____6.2.2 평가 지표
____6.2.3 데이터 소개
__6.3 솔루션 소개
____6.3.1 Object Detection, Instance/Semantic Segmentation
____6.3.2 U-Net
____6.3.3 하이퍼컬럼
____6.3.4 fast.ai 프레임워크
____6.3.5 손실 함수 정의
____6.3.6 Cyclic Learning Rates
____6.3.7 데이터 증강
____6.3.8 경량화의 중요성
____6.3.9 전체 정리
__6.4 다른 솔루션 소개
____6.4.1 Model
____6.4.2 Fast Prototyping(Uptrain)
____6.4.3 Combo loss
____6.4.4 세 개의 임곗값 활용
__6.5 디스커션

7장 Jigsaw Unintended Bias in Toxicity Classification
__7.1 들어가기 전에
____7.1.1 캐글 프로필: 김태진
____7.1.2 코드
__7.2 Overview
____7.2.1 대회 목적
____7.2.2 평가 지표
____7.2.3 데이터 소개
__7.3 EDA
__7.4 솔루션 소개(텐서플로, TPU)
____7.4.1 전처리
____7.4.2 모델
____7.4.3 토큰화
____7.4.4 TPU
____7.4.5 TFRecord
____7.4.6 학습 with TPU
____7.4.7 서브미션 노트북 만들기
____7.4.8 결과 제출
__7.5 솔루션 소개(Ours)
__7.6 솔루션 소개(2nd Prize)
__7.7 디스커션

8장 캐글 노트북 작성을 위한 팁
__8.1 들어가기 전에
____8.1.1 캐글 프로필: 안수빈
____8.1.2 코드
____8.1.3 8장에 대하여
__8.2 각 타입별 노트북과 작성 팁
____8.2.1 EDA
____8.2.2 전처리
____8.2.3 파이프라인
____8.2.4 고득점 노트북
____8.2.5 튜토리얼
____8.2.6 My First Notebook
__8.3 좋은 노트북을 위한 가이드라인
____8.3.1 시각화
____8.3.2 재사용성
____8.3.3 가독성
____8.3.4 SEO
____8.3.5 홍보
____8.3.6 출처
__8.4 맺음말

찾아보기

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 : 070-4821-5101
교환/반품주소
  • 부산광역시 부산진구 중앙대로 856 303호 / (주)스터디채널 / 전화 : 070-4821-5101
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.