Kurzusleírás

Bevezetés a Reinforcement Learning és az Agens-alapú AI-vához

  • Döntéshozatal bizonytalanság alatt és sorrendes tervezés
  • Az RL kulcselemei: ügynökök, környezetek, állapotok és jutalmak
  • Az RL szerepe az alkalmazkodó és agens-alapú AI rendszerekben

Markov Döntési Folyamatok (MDPs)

  • Az MDP-k formális meghatározása és tulajdonságai
  • Értékfüggvények, Bellman-egyenletek és dinamikus programozás
  • Szabályzatértékelés, javítás és iteráció

Model-mentes Reinforcement Learning

  • Monte Carlo és Időbeli Különbség (TD) tanulás
  • Q-tanulás és SARSA
  • Gyakorlat: táblázatos RL-módszerek implementálása Pythonban

Mély Reinforcement Learning

  • Neurális hálózatok és RL kombinációja funkciós közelítésre
  • Mély Q-Hálózatok (DQN) és tapasztalati visszajátszás
  • Actor-Critic architektúrák és szabályzatgradiensek
  • Gyakorlat: ügynök képzése DQN és PPO Stable-Baselines3 használatával

Felfedezési Stratégiák és Jutalmak Formálása

  • Az észlelés és kihasználás egyensúlyozása (ε-greediness, UCB, entropia módszerek)
  • Jutalmi függvények tervezése és a nem kívánt viselkedések elkerülése
  • Jutalmak formálása és tanulási rendszerterv

Haladó Témák a RL-ben és a Döntéshozatalban

  • Többügynökös reinforcement learning és együttműködési stratégiák
  • Hierarchikus reinforcement learning és opciók keretrendszere
  • Offline RL és mintázat-másoló tanulás biztonságos alkalmazásáért

Szimulációs Környezetek és Értékelés

  • Az OpenAI Gym és egyedi környezetek használata
  • Folyamatos vs. diszkrét cselekvési tér
  • Metrikák az ügynökök teljesítményére, stabilitására és mintavételezési hatékonyságára

RL Integrálása Agens-alapú AI Rendszerekbe

  • Gondolkodás és RL kombinálása híbridd ügynöki architektúrákban
  • Reinforcement learning integrálása eszköz-használati ügynökökkal
  • Műveleti szempontok a méretezés és alkalmazás szempontjaihoz

Záró Projekt

  • Reinforcement learning ügynök tervezése és implementálása egy szimulált feladathoz
  • Tanítási teljesítmény elemzése és hiperparaméterek optimalizálása
  • Alkalmazkodó viselkedés és döntéshozatal bemutatása agens-környezetben

Összefoglalás és Következő Lépések

Követelmények

  • Erős Python programozási képesség
  • Alapvető megértés a gépi tanulás és mélytanulás fogalmainak
  • Ismeret az algebrával, valószínűségszámítással és alapvető optimalizálási módszerekkel

Célcsoport

  • Reinforcement learning mérnökök és alkalmazott mesterséges intelligencia kutatók
  • Robótika és automatizálás fejlesztői
  • Munkacsoportok, amelyek alkalmazkodó és agens-alapú mesterséges intelligencia rendszerek fejlesztésén dolgoznak
 28 órák

Résztvevők száma


Ár per résztvevő

Vélemények (3)

Közelgő kurzusok

Rokon kategóriák