sung kim 교수님 말대로 hole에 빠졌을때 -1 인 reward를 주지 않는 방향으로 생각해봤다.


아예 처음부터 싹 지우고 Q-Learning 알고리즘 그대로 이용해서 작성해보기로 했다.


(이번에는 미끄러짐 옵션도 켜둔 상태로)



이런 알고리즘이다.


진짜 이 알고리즘 그대로 구현한 코드가 이것이다.


이대로 모니터링을 하고 레코드를 하여 openAI gym에 업로드 하였다.


물론 미끄러짐 옵션 때문인지 성능이 오락가락 했지만


나름 상위권의 점수로 기록되었다.


https://gym.openai.com/envs/FrozenLake-v0


ps. 저기 나와있는 episode 35 짜리는 미끄러짐 옵션을 꺼뒀을때 레코드 한것이다.

+ Recent posts