머신러닝스터디/2017

CNN, Artistic style
Reinforcement learning, game play

Reinforcement Learning ¶

https://en.wikipedia.org/wiki/Bellman_equation
Planning vs Learning
Planning

Know about Model
Dynamic Programming

Learning

Model free
Monte Carlo method, Temporal Difference learning

Monte-Carlo Reinforcement Learning ¶

직접적인 경험으로부터 배움
Model-free : 직접적인 MDP transition과 보상을 알 필요가 없다
끝난 에피소드로부터 학습한다.
episodic MDP 문제만 풀 수 있다.

Temporal-Difference Learning ¶

경험으로부터 학습한다
model-free
끌나지 않은 경험에서도 학습 가능하다(Bootstraping)

last modified 2021-02-07 05:29:27
Processing time 0.0118 sec