CLEII

Lingua Insegnamento:

Italiano. Dispense e libro di testo in inglese.
Testi di riferimento:

-) Libro di testo: "Reinforcement Learning: An Introduction", Sutton-Barto, liberamente disponibile a incompleteideas.net/book/the-book-2nd.html.
-) Dispense del docente.
Obiettivi formativi:

Introdurre i principi base dell'apprendimento automatico per rinforzo (Reinforcement Learning), con particolare enfasi alla loro applicazione nel mondo dei giochi combinatori.

RISULTATI DI APPRENDIMENTO ATTESI

CONOSCENZA E CAPACITÀ DI COMPRENSIONE:

Alla fine dell’insegnamento lo studente dovrà:
-) comprendere la logica di base dell'interazione agente-ambiente nell'ambito dei processi decisionali di Markov;
-) capire le differenze tra i diversi principi base nell'apprendimento per rinforzo;
-) conoscere i più importanti algoritmi di apprendimento per rinforzo.

CONOSCENZA E CAPACITÀ DI COMPRENSIONE APPLICATE:

Alla fine dell’insegnamento lo studente dovrà essere in grado di:
-) determinare se un certo problema può essere affrontato tramite apprendimento automatico per rinforzo;
-) formalizzare un problema come processo decisionale di Markov;
-) operare nell'ambito model-free con metodi Monte Carlo e differenze temporali;
-) realizzare da zero un programma che impari a giocare a un semplice gioco combinatorio tramite apprendimento per rinforzo.

ABILITÀ DI COMUNICAZIONE:

Alla fine dell’insegnamento lo studente dovrà essere in grado di esporre i concetti appresi, utilizzando un linguaggio corretto e preciso sia dal punto di vista logico-inferenziale che informatico.

CAPACITÀ DI APPRENDERE:

Alla fine dell’insegnamento lo studente dovrà essere in grado di leggere e orientarsi in testi e articoli di ricerca sull'apprendimento per rinforzo.
Prerequisiti:

Nessuno.
Metodi didattici:

Lezioni frontali in aula e in laboratorio di informatica.
Modalità di verifica dell'apprendimento:

Esame scritto e orale. L'orale è opzionale, su richiesta dello studente o del docente.
Sostenibilità:

Non tratta tematiche riconducibili alla sostenibilità ambientale.
Altre Informazioni:

E-mail: maurizio.parton@unich.it.
Cellulare di riferimento: 349-5323-199.

L'idea di questo corso nasce dai recenti progressi fatti nel campo dell'intelligenza artificiale grazie allo sviluppo delle tecniche di apprendimento per rinforzo coadiuvate dal'utilizzo di reti neurali profonde.
Nel corso, per quanto possibile nel limite dei 6 CFU, impareremo a descrivere i problemi come processi decisionali di Markov e ad affrontarli tramite tecniche di programmazione dinamica - se è disponibile un modello di distribuzione - o di vero e proprio apprendimento per rinforzo - se solo esperienza vera o al più un sample model è disponibile.

1) Il problema nell'apprendimento per rinforzo: interazione agente-ambiente.
2) Il contesto nell'apprendimento per rinforzo: i processi decisionali di Markov.
3) Predizione e controllo nella programmazione dinamica.
4) Predizione e controllo nel caso model-free: metodi TD e MC.
5) Predizione e controllo con approssimazione.
6) Metodi di apprendimento diretto della policy.
7) Il dilemma esplorazione-sfruttamento: multi-armed bandits
8) Apprendimento per rinforzo nei giochi a informazione perfetta a due giocatori e somma zero.