2021-10-04 게시 됨2021-10-04 업데이트 됨일상 / TIL3분안에 읽기 (약 449 단어)

10-04-TD

10/14일

오늘은 GAIL(Generative Adversarial Imitation Learning) 논문을 읽기 시작했다.
이 논문을 읽기전에 여러 기초 지식들이 필요하다는것을 뼈저리게 느꼈지만 일단 헤딩하는 느낌으로 논문을 읽어나가면서 부족한 지식을 채워나가는 방식으로 글을 작성하려한다.
지금까지 이해한 부분 간단하게 3줄 요약

GAIL은 imitation learning의 방법중 하나로써 기존의 Inverse Reinforce Learning(역강화학습 : 전문가의 행동데이터를 기반으로 Reward function을 복원하여 최적의 Policy를 얻어내는 학습)의 단점인 전문가의 행동데이터에서 간접적으로 학습을 하기때문에 소요시간이 크다는 점을 해결한 논문이다.
imitation learning과 GAN의 유사점에서 착안하여 데이터로부터 직접적으로 Policy를 학습함
GAN과 비슷하게 Discriminator와 Generator(논문상에서는 TRPO)가 존재한다.
Generator는 점점 더 샘플링된 전문가의 행동처럼 움직임을 결정하게 학습을 한다.
다른 역강화학습에 비해 상대적으로 적은양의 샘플로도 좋은 성능을 내었음

아직 수직적으로는 이해하지 못한부분이 많아서 여러번 정독을 해야할것 같다. 그리고 역강화학습 자체도 내가 대략적으로 개념정도만 공부한 상황이라 논문을 이해했다고 이야기 하기 위해서는 더 조사할 필요성을 느낀다.
관련된 지식에 대하여 포스트를 작성할 계획이다.

Paper

https://arxiv.org/abs/1606.03476

+정리한 CS 지식

Array & ArrayList & LinkedList

10-04-TD

https://kyubumshin.github.io/2021/10/04/Diary/10-04-TD/

Author

KyuBum Shin

Posted on

2021-10-04

Updated on

2021-10-04

Licensed under

#일상

10-04-TD

10/14일

Paper

Author

Posted on

Updated on

Licensed under

댓글

링크

카테고리

최근 글

아카이브

태그

업데이트 소식 받기

follow.it