10-04-TD
10/14일
오늘은 GAIL(Generative Adversarial Imitation Learning) 논문을 읽기 시작했다.
이 논문을 읽기전에 여러 기초 지식들이 필요하다는것을 뼈저리게 느꼈지만 일단 헤딩하는 느낌으로 논문을 읽어나가면서 부족한 지식을 채워나가는 방식으로 글을 작성하려한다.
지금까지 이해한 부분 간단하게 3줄 요약
- GAIL은 imitation learning의 방법중 하나로써 기존의 Inverse Reinforce Learning(역강화학습 : 전문가의 행동데이터를 기반으로 Reward function을 복원하여 최적의 Policy를 얻어내는 학습)의 단점인 전문가의 행동데이터에서 간접적으로 학습을 하기때문에 소요시간이 크다는 점을 해결한 논문이다.
- imitation learning과 GAN의 유사점에서 착안하여 데이터로부터 직접적으로 Policy를 학습함
- GAN과 비슷하게 Discriminator와 Generator(논문상에서는 TRPO)가 존재한다.
- Generator는 점점 더 샘플링된 전문가의 행동처럼 움직임을 결정하게 학습을 한다.
- 다른 역강화학습에 비해 상대적으로 적은양의 샘플로도 좋은 성능을 내었음
아직 수직적으로는 이해하지 못한부분이 많아서 여러번 정독을 해야할것 같다. 그리고 역강화학습 자체도 내가 대략적으로 개념정도만 공부한 상황이라 논문을 이해했다고 이야기 하기 위해서는 더 조사할 필요성을 느낀다.
관련된 지식에 대하여 포스트를 작성할 계획이다.
Paper
https://arxiv.org/abs/1606.03476
+정리한 CS 지식
Array & ArrayList & LinkedList