바닥부터 배우는 강화 학습- 북채널

장바구니 담기

장바구니에 상품을 담았습니다.

장바구니로 계속쇼핑하기

컴퓨터/IT

사전 경제/경영 문학 만화 대학교재 과학 가정/건강/생활 정치/사회 어린이 여행/지도 역사/문화 예술/대중문화 외국도서 외국어/어학 유아 인문 인물 잡지 종교 청소년 취미/레저 컴퓨터/IT 수험서/자격증 학술도서 기술/공학 초등참고서 중/고등참고서 전자책
컴퓨터공학

컴퓨터입문/활용 OS/Networking e비즈니스/창업 OA/사무자동화 홈페이지/웹 컴퓨터공학 프로그래밍 일반 그래픽/멀티미디어 개발/방법론 자격증 IT에세이 전산통계/해석 게임 모바일프로그래밍 웹사이트 CAD
인공지능

네트워크/데이터통신 데이터베이스 마이크로프로세서 소프트웨어공학 자료구조/알고리즘 전산수학 정보통신공학 컴퓨터공학/전산학개론 인공지능 IT일반 유비커터스/RFID 컴퓨터공학/과학개론 컴퓨터구조 운영체제론 정보시스템

미리보기

무료배송소득공제

바닥부터 배우는 강화 학습

노승은
|
영진닷컴
|
2020-09-15 출간
|
304페이지
|
152 X 225 mm
|
ISBN 9788931463170

판매가: ~~22,000원~~

즉시할인가: 19,800 원

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

추가상품

상품선택: 독서대 7,900원 독서대 선택안함 0원

수량: + -

총주문금액: 19,800원

장바구니 구매하기

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

북스크린영상으로 만나보는 한 권의 책 이야기

출판사서평: [구성 소개]
Chapter 1. 강화 학습이란
바둑에서 시작하여 게임, 금융, 로봇까지 수많은 분야에서 강화학습을 통해 전례 없는 수준의 AI가 만들어졌습니다. 기존 학습 방법론과 어떤 차이가 있었기에 이런 도약이 가능했을까요? 그에 대한 답은 강화 학습이 무엇인가라는 작은 이야기부터 시작합니다.

Chapter 2. 마르코프 결정 프로세스
문제를 풀기 위해서는 먼저 문제가 잘 정의되어야 합니다. 강화 학습에서 문제를 잘 정의하려면 주어진 문제를 MDP(Markov Decision Process)의 형태로 만들어야 합니다. MDP에 대해 속속들이 알아봅니다.

Chapter 3. 벨만 방정식
대부분의 강화 학습 알고리즘은 밸류를 구하는 것에서 출발합니다. 그리고 밸류를 구하는 데 뼈대가 되는 수식이 바로 벨만 방정식입니다. 벨만 기대 방정식과 벨만 최적 방정식이라는 두 종류의 방정식을 배워봅니다.

Chapter 4. MDP를 알 때의 플래닝
벨만 방정식 학습으로 간단한 MDP를 풀 수 있습니다. 벨만 방정식을 반복적으로 적용하는 방법론을 통해 아주 간단한 MDP를 직접 풀어봅니다.

Chapter 5. MDP를 모를 때 밸류 평가하기
MDP의 전이 확률과 보상 함수를 모를 때에 대한 이야기가 시작됩니다. 주어진 수식을 이용해 정확한 값을 계산하는 대신, 수많은 샘플을 통해 근사하는 “샘플 기반 방법론”을 배워봅니다.

Chapter 6. MDP를 모를 때 최고의 정책 찾기
Control 문제를 해결할 차례입니다. 밸류를 계산할 수 있기 때문에 이를 이용해 정책을 찾는 것은 한결 쉽습니다. 그 유명한 Q러닝을 배워봅니다.

Chapter 7. Deep RL 첫걸음
커다란 MDP의 세계를 항해하기 위해서 우리에게는 또 다른 무기가 하나 필요합니다. 바로 “딥러닝” 입니다. 딥러닝과 강화 학습이 만나 Deep RL이라는 유연하고도 범용적인 방법론이 탄생합니다. 먼저 딥러닝에 대한 이야기부터 시작합니다.

Chapter 8. 가치 기반 에이전트
신경망을 이용해 액션 밸류 네트워크를 학습하면 그게 곧 하나의 에이전트가 될 수 있습니다. 아타리 게임을 플레이 하던 DQN이 바로 이 방식입니다. 가치 함수만을 가지고 움직이는 에이전트, 즉 가치 기반 에이전트에 대해 알아보겠습니다.

Chapter 9. 정책 기반 에이전트
딥러닝과 정책 함수가 결합하면 강력한 정책 네트워크를 만들어 냅니다. 보상 및 밸류 네트워크를 이용해 직접적으로 정책 네트워크를 학습하는 방법에 대해 알아보겠습니다. 이는 수많은 최신 강화 학습 알고리즘의 뿌리가 되는 방법론입니다.

Chapter 10. 알파고와 MCTS
인류 최고의 바둑 기사를 이긴 AI를 만드는 과정도 분해해서 생각하면 간단한 방법론들의 조합입니다. 이제 한 걸음만 더 가면 알파고를 완전히 이해할 수 있습니다. 그 마지막 한 조각인 MCTS를 소개하고, 이를 통해 알파고를 낱낱이 분해합니다.
Chapter 11. 블레이드&소울 비무 AI 만들기
복잡한 실시간 격투 게임에 강화 학습을 적용하는 일은 어떤 과정을 거칠까요? 블레이드&소울에 강화 학습을 적용하여 에이전트를 학습시키는 과정과 시행착오에 대해 소개합니다.

목차: Chapter 1. 강화 학습이란
Chapter 2. 마르코프 결정 프로세스
Chapter 3. 벨만 방정식
Chapter 4. MDP를 알 때의 플래닝
Chapter 5. MDP를 모를 때 밸류 평가하기
Chapter 6. MDP를 모를 때 최고의 정책 찾기
Chapter 7. Deep RL 첫걸음
Chapter 8. 가치 기반 에이전트
Chapter 9. 정책 기반 에이전트
Chapter 10. 알파고와 MCTS
Chapter 11. 블레이드&소울 비무 AI 만들기

추천포스트

교환 및 환불안내

도서교환 및 환불	ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.) ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다. ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다. ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다. ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다. ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.) ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다. ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다. ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다. ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다. ㆍ군부대(사서함) 및 해외배송은 불가능합니다. ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내	마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 1800-7327
교환/반품주소	경기도 파주시 문발로 211 1층 / (주)북채널 / 전화 : 1800-7327 택배안내 : CJ대한통운(1588-1255) 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.

패밀리사이트

Company info

Address

주소 : 경기도 파주시 광인사길 193 1층

CS center

고객센터 1800 - 7327
평일 09:00 ~ 17:30 토·공휴일 휴무

에스크로

도서 카테고리

스테디셀러

베스트셀러

진행중인 이벤트/기획전

바닥부터 배우는 강화 학습

북스크린영상으로 만나보는 한 권의 책 이야기

출판사서평

목차

교환 및 환불안내