본문 바로가기
jisung's 책읽기/기술서

강화학습 첫걸음 - 새로운 지식의 무거운 첫걸음

by jisungStory 2019. 12. 5.
반응형

Image by  Gerd Altmann  from  Pixabay

첫걸음

새로운 지식의 무거운 첫걸음

 어려운 책이었습니다. 새로운 분야에 대한 공부를 시작할 때 가장 어렵게 느껴지는 것이 용어에 대한 정의입니다. 이런 기술 서적의 경우에는 전문 용어들이 많이 나오기 때문에 용어에 대한 이해가 가장 중요합니다. 짧은 시간에 책의 내용을 이해하고자 할 때 가장 먼저 부딪히는 장애물도 이 전문 용어들입니다. 이런 전문 용어들에 대한 이해가 부족해서 인지 책을 읽기는 했지만 이해했다고 할 수는 없습니다.  기술 서적 답지 않게 얇고 가볍지만 그 내용만 큼은 가벼운 책이 아닙니다. 인공지능 구현에 필요한 전문 지식들을 압축해서 담아 놓았기에 앞에 읽었던 다른 어떤 책들보다 밀도 높게 내용을 다루고 있습니다. 

 

강화학습 첫걸음

 

 강화학습(reinforcement learning)은 정의된 에이전트가 현재 상태를 인식하여 행동 순서를 선택하는 방법입니다.  현실 세계에서 흔히 만나는 많은 생명체들이 이런 강화 학습을 하고 있습니다.  흔히 학습이라고 하는 행동은 대부분 강화 학습에 근거하고 있습니다. 특정한 사건에 대해서 반복해서 노출되면 지능을 가진 생명체 라면 그 사건에 적응하고 대응하는 방법을 익히게 됩니다. 그런 자연계의 학습 현상을 수식화 하여 기계인 컴퓨터에게 적용시킨 것이 강화 학습이라고 이해했습니다. 

 이 책의 전체 내용을 이해하는데는 시간이 꽤나 걸릴 것 같습니다. 각 장에서 다루는 내용들은 개론적인 내용만 다루고 있지만 논문 한편은 거뜬히 될 것 같은 내용들입니다. 퉁치고 넘어 가버리면 다음에 이런 모델들을 사용할 때 제대로 활용할 수 없게 되기 때문에 좀 더 연구가 필요할 것 같습니다. 

강화학습 프레임워크

 

 저는 책을 읽으면서 하나의 문장을 찾기 위해 노력합니다. 이 책은 수학에 기반한 책이다 보니 자연스럽게 수식에 눈이 갔습니다. 아마도 인공지능을 잘 표현해 줄 수 있는 수식은 벨만방 정식 ( Bellman equation) 이 아닐까 합니다. 

 

Q(s,a)* = r + 𝛄(max(Q(s’,a’))

 어떤 상태(s)와 액션(a)에 대한 최적의  Q값은 현재의 보상(r), 그리고 다음 상태(s’)에 대해 테이블에 의해 기대되는 할인된 (𝛄) 최대 미래 보상의 합으로 표현할 수 있습니다. 
 
강화 학습 첫걸음  p.47 11번째 줄부터 

 

 어릴 때부터 수학을 멀리 해온 저로 서는 수학 공식만 나와도 멀미가 날것 갔지만 새로운 지식을 향한 길이 순탄하기만을 바라는 것은 어리석은 자의 오만일 뿐입니다. 위 식을 어떻게 이해해야 할까 고민이 많았습니다.  저는 이 식을 재래시장에서 물건을 사는 것으로 비유해서 이해해 보려 노력했습니다. 제가 살던 곳에는 전쟁 때부터 생겼던 오래된 재래시장이 있었습니다. 거기서 어머니와 함께 여러 가지 식자재들을 사곤 했습니다. 그럴 때마다 상인과 어머니와의 신경전은 아직도 강렬한 기억으로 남아 있습니다. 일단 상인이 제시하는 가격이 1,000원이라고 한다면 어머니는 500원이 면 된다고 말씀하십니다. 상인은 당연히 안된다고 거절할 것이고 그럼 거기서 거래가 종료돼야 하지만 어떻게든 이윤을 남겨야 하는 상인의 입장에서는 아쉬움이 남습니다. 그래서 어머니에게 다시 거래를 제안합니다. “900원이면 사시겠습니까?” 하고 말입니다. 하지만 어머니는 강경한 분이십니다. 그런 어설픈 상인의 제안에 넘어갈 리 없습니다. 그러자 상인은 한숨을 쉬며 700원에 사가시라고 말합니다. 어머니는 불만족한 마음으로 700원에 사십니다. 하지만 다음에 또 장을 보러 갈 때는 이제 1000원이 아닌 700원에서 거래가 시작되게 됩니다. 

 제대로 된 예시라고 할 수는 없습니다. 그저 비전문가의 입장에서 어떻게든 저 수식을 이해하기 위해 저의 삶에서 가장 비슷한 예를 비유적으로 들어본 것뿐입니다. 아직도 인공지능의 분야는 연구가 진행되고 있는 분야입니다. 그리고 최근에 들어서야 어느 정도의 성과를 내고 있는 분야이기도 합니다. 그래서 여러 지식들이 우리에게는 익숙하지 않은 언어와 방식으로 유통되고 있습니다. 그래서 많은 분들이 낯설게 느끼시고 거부감도 느끼고 계신 것 같습니다. 

 세상에 변하지 않는 것은 없습니다.  지나온 삶을 돌이켜 보면 저의 짧은 삶의 기억 속에서도 수많은 변화가 있었습니다. 그리고 지금도 그 변화는 진행 중에 있습니다. 저는 변화를 지진과 비슷하다고 생각합니다. 점진적으로 천천히 변화하는 경우도 있겠지만 많은 힘이 누적되었다가 한 번에 표출되어 변화하는 경우도 있습니다. 오랜 세월 지층에 힘이 누적되어 나타나는 지진은 큰 피해를 줍니다. 하지만 예측할 수 없는 그 지진을 피할 수는 없습니다. 지진이 있을 수도 있다는 경험적인 지식을 바탕으로 현재를 열심히 살아야 하는 것이 지구에서 살고 있는 생명체로써 할 수 있는 최선이라고 생각합니다. 

 사람의 삶도 이와 비슷합니다. 새로운 지식이 낯설고 어색하더라도 그 변화의 힘이 언젠가는 지금 내가 살고 있는 세상을 뒤흔들 수도 있다는 생각을 갖고 준비해 나가야 합니다. 그 준비의 연장선에서 더 나은 삶 혹은 더 행복한 삶에 대한 단서를 얻을 수 있다고 생각합니다. 

 너무 어려워서 머리가 지끈 거리지만 그래도 새로운 지식을 만날 수 있어서 즐거웠던 책 ‘강화 학습 첫걸음’이었습니다. 

2019/11/26 - [하루 책읽기/하루 기술서] - 텐서플로 첫걸음 - IT거인의 빅피쳐

 

텐서플로 첫걸음 - IT거인의 빅피쳐

텐서 플로 첫걸음 IT 거인의 빅 피쳐 인공지능 분야의 머신러닝 책을 읽어 나가다 보면 텐서 플로의 이름을 만나게 됩니다. 수많은 새로운 용어들이 난무하는 IT 분야에서 새로운 단어를 만나는 것은 자주 있는..

jisungs.tistory.com

2019/11/12 - [하루 책읽기/하루 기술서] - 처음 배우는 머신러닝 - 새로운 지식을 향한 걸음

 

처음 배우는 머신러닝 - 새로운 지식을 향한 걸음

처음 배우는 머신러닝 새로운 지식을 향한 걸음 인공지능은 최근 개발 분야에서 가장 큰 화두입니다. 많은 데이터 과학자들이 인공지능 연구에 매진하고 있습니다. 그 덕분에 많은 발전이 있었습니다. 2016년이..

jisungs.tistory.com

2019/10/29 - [하루 책읽기/하루 기술서] - 딥러닝 첫걸음 - 인공지능 이해하기

 

딥러닝 첫걸음 - 인공지능 이해하기

딥러닝 첫걸음 새로운 개념에 익숙해지기 알파고의 바둑 승리 이후 인공지능에 대한 관심이 높아졌습니다. 하지만 인공지능이라는 주제 자체게 어려운 것이다 보니 책을 구해 읽어 보아도 머릿속에 잘 그려지지..

jisungs.tistory.com

 

반응형

댓글