Reinforcement learning

Lästips: Extra utdelat material

Hur är det överhuvudtaget möjligt att lära sig ett beteende från en skalär belöningssignal?

Över vilket tidshorisont vill vi optimera den totala belöningen?

Vad kan man använda RL till?

Vilka grundantaganden finns det bakom teorin kring RL?

Vad menas med policy och värdefunktion?

Hur kan man hitta en optimal policy när man har en (stokastisk) modell av omvärden?

Vad menas med value iteration och policy iteration?

Hur kan man hitta en optimal policy i en okänd omgivning?

Vad menas med Monte-Carlo tekniken för värdefunktionsskattning?

Vad är exploitation-exploration dilemmat och hur löser man det?

Vad kännetecknar TD (temporal difference) metoderna?

Vad menas med Q-learning?

Vad är Sarsa-learning?

Vad är ett eligibility trace och hur kan detta utnyttjas för att snabba upp inlärningen?