《파이썬을 이용한 웹 크롤링과 스크레이핑》은 파이썬을 이용한 데이터 수집과 분석을 위해 입문에서 실전까지 상세하게 설명한 책입니다.
기본적인 크롤링과 API를 활용한 데이터 수집은 물론, HTML과 XML 분석부터 데이터 수집 후 분석 및 머신러닝 처리에 대한 설명까지, 데이터를 수집하고 분석해서 활용할 수 있는 방법까지 확실하게 이해할 수 있도록 기초부터 차근차근 알려 줍니다.
웹 서비스 개발이나 데이터 과학 또는 머신러닝 분야에서 실무에 활용하고자 하는 사람들은 물론, 파이썬을 처음 배우는 초보자도 따라 하면서 학습할 수 있게끔 친절하게 구성했으며, 파이썬을 이용한 다양한 라이브러리와 강력한 프레임워크를 활용해 효율적인 개발이 가능하도록 도와줍니다.
이 책은 크롤링/스크레이핑과 관련된 내용을 정말 자세하게 다루는 책입니다. '기본적인 유닉스 명령어를 사용해 크롤링/스크레이핑하는 방법'부터 '파이썬 프레임워크인 Scrapy를 사용해 크롤링/스크레이핑하는 방법'까지 현재 사용되고 있는 크롤링/스크레이핑 방법을 전반적으로 다룹니다.
★ 이 책의 구성 ★
1장에서는 파이썬을 사용하지 않고, 유닉스 명령어로 간단하게 크롤링/스크레이핑하는 방법을 소개합니다. 크롤링과 스크레이핑이 무엇인지 조금은 느낄 수 있을 것입니다.
2장에서는 파이썬 표준 라이브러리만으로 크롤링/스크레이핑을 합니다. 파이썬을 사용하면 유연한 스크레이핑이 가능하다는 것을 느낄 수 있을 것입니다.
3장에서는 편리하게 사용할 수 있는 서드파티 라이브러리를 사용해 크롤링/스크레이핑합니다. 서드파티 라이브러리를 사용하면 표준 라이브러리만으로는 어려운 처리를 간단하게 할 수 있습니다.
4장에서는 실제로 웹사이트를 대상으로 크롤링/스크레이핑할 때 주의해야 할 점을 설명합니다.
5장에서는 실제 웹사이트에서 데이터를 수집하고 활용해 봅니다. 데이터 세트 또는 API로 데이터를 수집하거나 그래프로 그리거나 자연 언어를 처리하는 등의 데이터 활용에 대해서도 설명합니다.
6장에서는 강력한 크롤링/스크레이핑 프레임워크인 Scrapy를 사용해 효율적인 크롤러를 간단하게 만들어 봅니다. 또한 내용 검색 또는 얼굴 인식 등과 관련된 데이터 활용에 대해서도 설명합니다.
7장에서는 크롤러를 지속적으로 운용할 때 필요한 것들을 소개합니다. 또한 크롤링을 빠르게 할 수 있는 효율적인 방법에 대해서도 설명합니다.