Kurzusleírás

Bevezetés a megerősítéses tanulásba és az agentikus AI-ba

  • Döntéshozatal bizonytalanság mellett és szekvenciális tervezés
  • Az RL kulcsfontosságú összetevői: ügynökök, környezetek, állapotok és jutalmak
  • Az RL szerepe adaptív és agentikus AI rendszerekben

Markov döntési folyamatok (MDP-k)

  • Az MDP-k formális definíciója és tulajdonságai
  • Értékfüggvények, Bellman-egyenletek és dinamikus programozás
  • Politikaértékelés, -javítás és -iteráció

Modellmentes megerősítéses tanulás

  • Monte Carlo és időbeli különbségi (TD) tanulás
  • Q-learning és SARSA
  • Gyakorlat: táblázatos RL módszerek implementálása Pythonban

Mély megerősítéses tanulás

  • Neurális hálózatok kombinálása RL-lel függvényközelítéshez
  • Deep Q-Networks (DQN) és tapasztalati visszajátszás
  • Színész-bíráló architektúrák és politikai gradiens módszerek
  • Gyakorlat: ügynök betanítása DQN és PPO segítségével Stable-Baselines3-mal

Felfedezési stratégiák és jutalomformálás

  • Egyensúly a felfedezés és a kihasználás között (ε-greedy, UCB, entrópia módszerek)
  • Jutalomfüggvények tervezése és nem kívánt viselkedések elkerülése
  • Jutalomformálás és tanítási tanterv

Haladó témák az RL-ben és a döntéshozatalban

  • Több ügynökös megerősítéses tanulás és kooperatív stratégiák
  • Hierarchikus megerősítéses tanulás és opciók keretrendszere
  • Offline RL és utánzásos tanulás biztonságos üzembe helyezéshez

Szimulációs környezetek és értékelés

  • OpenAI Gym és egyéni környezetek használata
  • Folytonos vs. diszkrét cselekvési terek
  • Metrikák az ügynök teljesítményére, stabilitására és mintahatékonyságára

RL integrálása agentikus AI rendszerekbe

  • Érvelés és RL kombinálása hibrid ügynök architektúrákban
  • Megerősítéses tanulás integrálása eszközhasználó ügynökökkel
  • Működési szempontok a skálázás és üzembe helyezés során

Záróprojekt

  • Tervezzen és implementáljon egy megerősítéses tanulási ügynököt egy szimulált feladathoz
  • Elemezze a betanítási teljesítményt és optimalizálja a hiperparamétereket
  • Mutassa be az adaptív viselkedést és döntéshozatalt egy agentikus kontextusban

Összefoglalás és következő lépések

Követelmények

  • Erős Python programozási ismeretek
  • Szilárd gépi tanulási és mélytanulási alapok
  • Ismeret a lineáris algebra, valószínűségszámítás és alapvető optimalizálási módszerek terén

Közönség

  • Megerősítéses tanulással foglalkozó mérnökök és alkalmazott AI kutatók
  • Robotika és automatizálás fejlesztők
  • Adaptív és agentikus AI rendszereken dolgozó mérnöki csapatok
 28 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (3)

Közelgő kurzusok

Rokon kategóriák