장바구니 담기 close

장바구니에 상품을 담았습니다.

R을 이용한 텍스트 마이닝

R을 이용한 텍스트 마이닝

  • 백영민
  • |
  • 한울아카데미
  • |
  • 2017-08-10 출간
  • |
  • 296페이지
  • |
  • 173 X 236 X 19 mm /663g
  • |
  • ISBN 9788946070226
판매가

29,500원

즉시할인가

28,020

배송비

2,300원

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
28,020

이 상품은 품절된 상품입니다

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

출판사서평

사회학, 심리학, 언론학, 경제·경영학, 문화인류학, 보건의료학 등
사회과학 연구자와 학생을 위한
R 텍스트 마이닝 워크북!

디지털 시대, 텍스트의 홍수에서 의미 건져내기
텍스트는 사회과학 연구자들이 다루는 ‘재료’이다. 이 재료를 이용해 세계와 인간을 분석하는 것이 사회과학자들의 일이다. 전통적으로 텍스트 데이터를 분석하는 기법은 크게 두 가지다. 우선 연구자가 텍스트 데이터를 ‘문자 그대로’ 세밀하게 읽고 이해한 후, 연구자의 이론과 비판적 시각에 따라 요약하거나 일부만 발췌하여 제시하는 방식이다. 흔히 정성적 연구방법을 추구하는 연구자들이 사용하는 방식이며, 텍스트의 의미를 파악하는 가장 타당한 방법이다. 현재로서는 이 방법만이 행간의 의미와 미묘한 뉘앙스 차이를 파악해낼 수 있기 때문이다. 그러나 텍스트 분량이 방대할 경우 실행 자체가 불가능하고, 연구자의 주관적 관점이 개입할 여지가 많다는 문제를 안고 있다.
대용량의 텍스트를 체계적으로 처리하기 위해서는 정성적 연구방법보다는 정량적 연구방법이 더 효율적이다. 언론학을 비롯한 여러 분과의 사회과학자들은 ‘내용분석(content analysis)’ 기법을 이용해 텍스트를 분석해왔다. 그런데 오늘날과 같이 텍스트가 폭발적으로 넘쳐나는 시기에는 전통적 내용분석 방식은 더 이상 유지되기 어렵다. 소셜미디어를 비롯한 온라인 공간에서 발생하는 새로운 종류의 텍스트에 대해 연구자가 충분한 지식을 갖기 어렵고, 따라서 텍스트 분석의 타당성을 확보하기 어렵기 때문이다. 또한 방대한 텍스트 데이터를 분석하기 위해 엄청난 인건비와 관리비용, 시간이 소요되며, 설사 이 문제가 해결된다 하더라도 인간이 방대한 양을 처리하는 과정의 일관성과 신뢰도를 장담할 수 없다.
이 때문에 알고리즘을 활용한 텍스트 분석방법이 주목받고 있다. 알고리즘에 기초한 텍스트 분석방법은 텍스트를 해석하는 인간의 지능을 유사하게 혹은 거칠게 모방한 인공지능이다. 분석 대상이 되는 텍스트의 의미를 파악하기 위해 의미를 구성하는 최소 단위의 텍스트 구성요소들을 파악한 후, 이 구성요소들에 수학적 연산 과정을 적용시켜 어떤 텍스트 구성요소가 텍스트를 주도적으로 설명하는지, 혹은 어떤 텍스트 구성요소가 알려진 텍스트의 의미를 예측하는 데 강력한 효과를 발휘하는지를 정량화하는 방식이다. 이처럼 텍스트 분석기법을 이용해 텍스트 데이터에서 정보를 추출하고 의미 있는 통계 결과를 얻어내는 것이 바로 ‘텍스트 마이닝’이다.

사회과학자가 손수 프로그래밍해보는 텍스트 분석 알고리즘
이 책은 최근 가장 각광받는 프로그래밍 언어이자 오픈소스 프로그램인 R을 이용해 텍스트 마이닝’을 해내는 실제적인 방법을 안내한다. R은 각종 통계분석기법들이 패키지로 공개되어 있고, 텍스트 데이터를 직관적이고 효율적으로 처리할 수 있는 뛰어난 라이브러리들이 계속해서 추가되고 있다. 통계 결과를 그래프나 단어구름 등으로 손쉽게 시각화할 수도 있다. 그리고 이 모두가 무료다. 이런 까닭으로 R은 사회과학 연구에 텍스트 마이닝을 적용하는 데 더없이 좋은 새 도구로 사용되고 있다. 이 책은 다양한 데이터 마이닝 기법과 데이터 처리 방법을 소개하고 이를 구현하는 R 프로그래밍 코드를 첫 줄부터 마지막 줄까지 세심하게 설명했다.
이 책에서 다루는 텍스트 처리기법들은 타당한 근거 위에서 학문적 신뢰성을 획득한 방법이다. 현재 언론학, 정치학, 사회학, 컴퓨터공학, 통계학 등의 학술논문에서 소개되거나 해당 분과의 학술적 주장을 뒷받침하는 자료로서 효용을 인정받고 있다. 빠르게 변화하는 디지털시대 학문 환경 속에서 더욱 새롭고 효율적인 분석기법이 속속 제안되겠지만, 이 책에서 소개하는 기본 개념과 모형 구성의 기본 패러다임은 크게 바뀌지 않을 것으로 전망된다. 특히 수년간 R를 이용한 텍스트 분석 워크숍을 진행해왔으며 스스로 R를 연구에 이용하고 있기도 한 저자의 경험은 이 책이 사회과학 연구자와 학생들의 눈높이와 필요에 맞춤하게 서술되도록 했다. 기초 개념과 프로그래밍을 요령 있게 습득할 수 있는 이 책은 나날이 새로워지는 데이터 분석기법을 익히는 데 견고한 바탕이 될 것이다.

목차

머리말 : R, 대용량 텍스트에 대한 체계적 분석도구

1부 텍스트 데이터랑 무엇인가?
01 텍스트 데이터로 파악하기

2부 텍스트 데이터 사전처리
01 텍스트 분석을 위한 기초적 R 함수
02 텍스트 분석을 위한 R의 베이스 함수
03 텍스트 분석을 위한 Striner 라이브러리 함수
04 말뭉치 텍스트 데이터 사전처리
05 한국어 텍스트 데이터 처리
06 품사분석

3부 텍스트 데이터 분석 및 결과 제시
01 텍스트 데이터에 대한 기술통계 분석
02 토픽모형
03 감정분석

4부 마무리
01 R를 활용한 온라인 데이터 수집 소개
02 맺음말

참고문헌
찾아보기 주제어

저자소개

저자 백영민은 연세대학교에서 신문방송학을 전공하고 서울대학교 언론정보학 대학원에서 석사 학위를 받았으며 미국 펜실베이니아 대학교 아넨버그 커뮤니케이션 스쿨에서 2011년 박사 학위를 받았다. 한국과학기술원(KAIST) 조교수를 거쳐 현재 연세대학교 언론홍보영상학부 부교수로 재직 중이다.
여론조사 및 수용자 조사, 계량적 연구방법에 주로 관심을 두고 연구해왔다. 현재 R를 이용하여 실험이나 설문자료와 같은 전통적인 사회과학 데이터 분석은 물론, 언론보도 아카이브, 정부 문서, 온라인 공간의 댓글 등과 같은 텍스트 데이터 분석을 시도하고 있다. 사회과학 연구자들이 R를 요령 있게 사용할 수 있도록 꾸준히 소개하면서 ?R를 이용한 사회과학데이터 분석: 기초편?(2015), ?R를 이용한 사회과학데이터 분석: 응용편?(2016), ?R를 이용한 사회과학데이터 분석: 구조방정식모형 분석?(2017) 등의 저서를 출간했다.
PLOS ONE, Journal of Communication, Communication Research, New Media & Society, Journal of Broadcasting and Electronic Media, American Politics Research, ≪한국언론학보≫ 등 여러 학술지에 논문을 게재했고, 역서로 ?포퓰리즘?(근간), ?수학적 커뮤니케이션 이론?(2016), ?국민의 선택: 대통령 선거 캠페인 기간에 유권자는 지지 후보를 어떻게 결정하는가?(2015) 등이 있다.
홈페이지 https://sites.google.com/site/ymbaek/

도서소개

비판적 사회과학을 돕는 데이터 분석 도구
지금 바로 시작하는 R 텍스트 마이닝 실용 레시피!

이 책은 최근 가장 각광받는 프로그래밍 언어이자 오픈소스 프로그램인 R을 이용해 텍스트 분석을 실행하는 실제적인 방법을 안내한다. 다양한 데이터 마이닝 기법과 데이터 처리 방법을 소개하고 이를 구현하는 R 프로그래밍 코드를 첫 줄부터 마지막 줄까지 세심하게 설명했다.
이 책에서 다루는 텍스트 처리기법들은 타당한 근거 위에서 학문적 신뢰성을 획득한 방법이다. 현재 언론학, 정치학, 사회학, 컴퓨터공학, 통계학 등의 학술논문에서 소개되거나 해당 분과의 학술적 주장을 뒷받침하는 자료로서 효용을 인정받고 있다.
특히 수년간 R를 이용한 텍스트 분석 워크숍을 진행해왔으며 스스로 R를 연구에 이용하고 있기도 한 저자의 경험은 이 책이 사회과학 연구자와 학생들의 눈높이와 필요에 맞춤하게 서술되도록 했다. 사회과학 연구자들이 알고리즘 구현에 적극적으로 참여하면서, 장차 사회적 맥락 정보를 텍스트 분석에 정량적 방식으로 투입하는 기법을 세울 수 있을 것이라는 기대를 갖게 한다.

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소
  • 경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.