L'idea di questo corso nasce dai recenti progressi fatti nel campo dell'intelligenza artificiale grazie allo sviluppo delle tecniche di apprendimento per rinforzo coadiuvate dal'utilizzo di reti neurali profonde.
Nel corso, per quanto possibile nel limite dei 6 CFU, impareremo a descrivere i problemi come processi decisionali di Markov e ad affrontarli tramite tecniche di programmazione dinamica - se è disponibile un modello di distribuzione - o di vero e proprio apprendimento per rinforzo - se solo esperienza vera o al più un sample model è disponibile.
1) Il problema nell'apprendimento per rinforzo: interazione agente-ambiente.
2) Il contesto nell'apprendimento per rinforzo: i processi decisionali di Markov.
3) Predizione e controllo nella programmazione dinamica.
4) Predizione e controllo nel caso model-free: metodi TD e MC.
5) Predizione e controllo con approssimazione.
6) Metodi di apprendimento diretto della policy.
7) Il dilemma esplorazione-sfruttamento: multi-armed bandits
8) Apprendimento per rinforzo nei giochi a informazione perfetta a due giocatori e somma zero.
SEDE DI CHIETI
Via dei Vestini,31
Centralino 0871.3551
SEDE DI PESCARA
Viale Pindaro,42
Centralino 085.45371
email: info@unich.it
PEC: ateneo@pec.unich.it
Partita IVA 01335970693