Kurzusleírás

1. Bevezetés a Mély Megerősítéses Tanulásba

  • Mi a megerősítéses tanulás?
  • Különbség a felügyelt, felügyelet nélküli és megerősítéses tanulás között
  • A DRL alkalmazásai 2025-ben (robotika, egészségügy, pénzügy, logisztika)
  • Az ügynök-környezet interakciós ciklusának megértése

2. Megerősítéses Tanulás alapjai

  • Markov döntési folyamatok (MDP)
  • Állapot, művelet, jutalom, politika és értékfüggvények
  • Felderítés vs. kihasználás kompromisszum
  • Monte Carlo módszerek és Időbeli Különbség (TD) tanulás

3. Alapvető RL algoritmusok implementálása

  • Táblázatos módszerek: Dinamikus programozás, Politikaértékelés és Iteráció
  • Q-Learning és SARSA
  • Epsilon-greedy felderítés és csökkenő stratégiák
  • RL környezetek implementálása OpenAI Gymnasiummal

4. Áttérés a Mély Megerősítéses Tanulásra

  • A táblázatos módszerek korlátai
  • Neurális hálózatok használata függvényközelítéshez
  • Deep Q-Network (DQN) architektúra és munkafolyamat
  • Tapasztalati visszajátszás és célhálózatok

5. Fejlett DRL algoritmusok

  • Double DQN, Dueling DQN és Prioritized Experience Replay
  • Policy Gradient módszerek: REINFORCE algoritmus
  • Actor-Critic architektúrák (A2C, A3C)
  • Proximális Politika Optimalizálás (PPO)
  • Soft Actor-Critic (SAC)

6. Folytonos műveleti terek kezelése

  • Kihívások a folytonos irányításban
  • DDPG (Deep Deterministic Policy Gradient) használata
  • Twin Delayed DDPG (TD3)

7. Gyakorlati eszközök és keretrendszerek

  • Stable-Baselines3 és Ray RLlib használata
  • Naplózás és monitorozás TensorBoarddal
  • Hiperparaméterek hangolása DRL modellekhez

8. Jutalomtervezés és környezet tervezés

  • Jutalomformálás és büntetés kiegyenlítése
  • Szimulációból valós környezetbe történő átviteli tanulás fogalmai
  • Egyéni környezetek létrehozása Gymnasiumban

9. Részben megfigyelhető környezetek és általánosítás

  • Hiányos állapotinformáció kezelése (POMDPs)
  • Memóriaalapú megközelítések LSTMs és RNNs használatával
  • Az ügynök robusztusságának és általánosításának javítása

10. Játékelmélet és Többügynökös Megerősítéses Tanulás

  • Bevezetés a többügynökös környezetekbe
  • Együttműködés vs. versengés
  • Alkalmazások az ellenséges kiképzésben és a stratégiai optimalizálásban

11. Esettanulmányok és valós alkalmazások

  • Önvezető járművek szimulációi
  • Dinamikus árazás és pénzügyi kereskedési stratégiák
  • Robotika és ipari automatizálás

12. Hibakeresés és optimalizálás

  • Instabil betanítás diagnosztizálása
  • Jutalomszegénység és túlilleszkedés kezelése
  • DRL modellek skálázása GPU-kon és elosztott rendszereken

13. Összefoglalás és következő lépések

  • A DRL architektúra és kulcsfontosságú algoritmusok összefoglalása
  • Ipari trendek és kutatási irányok (pl. RLHF, hibrid modellek)
  • További források és olvasmányanyagok

Követelmények

  • Python programozási jártasság
  • A kalkulus és a lineáris algebra ismerete
  • Alapvető ismeretek a valószínűségszámítás és statisztika területén
  • Tapasztalat gépi tanulási modellek építésében Python és NumPy vagy TensorFlow/PyTorch segítségével

Közönség

  • Fejlesztők, akik érdeklődnek az AI és az intelligens rendszerek iránt
  • Adattudósok, akik felfedezik a megerősítéses tanulási keretrendszereket
  • Gépi tanulási mérnökök, akik autonóm rendszereken dolgoznak
 21 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (5)

Közelgő kurzusok

Rokon kategóriák