Kurzusleírás

1. Mélymegbízó Tanulás Bevezetése

  • Mibe válik a megbízó tanulás?
  • Különbségek a felügyelt, felügyelt nélküli és megbízó tanulás között
  • DRL alkalmazások 2025-ben (robotika, egészségügy, pénzügy, logisztika)
  • Agens-környezet kölcsönhatások megértése

2. Megbízó Tanulás Alapjai

  • Markov-döntési folyamatok (MDP)
  • Állapot, cselekvés, jutalom, politika és értékfüggvények
  • Kutatás vs. kihasználás kompromisszuma
  • Monte Carlo módszerek és időbeli differenciálás (TD) tanulás

3. Alapvető RL Algoritmusok Megvalósítása

  • Táblázatos módszerek: dinamikus programozás, politika értékelése és iteráció
  • Q-tanulás és SARSA
  • Epsilon-keresés és leépülő stratégiák
  • RL környezetek megvalósítása OpenAI Gymnasium-mal

4. Átmenet a Mélymegbízó Tanulásra

  • Táblázatos módszerek korlátai
  • Hálózatok használata függvény közelítésre
  • Mély Q-hálózat (DQN) architektúra és munkafolyamat
  • Élményújratöltés és célhálózatok

5. Fejlett DRL Algoritmusok

  • Kettős DQN, duelling DQN és prioritásos élményújratöltés
  • Politika gradiens módszerek: REINFORCE algoritmus
  • Személyes-kritikus architektúrák (A2C, A3C)
  • Közelítő politikai optimalizálás (PPO)
  • Lágy személyes-kritikus (SAC)

6. Folytatott Cselekvési Térrel Dolgozási

  • A folytonos irányítás kihívásai
  • DDPG (Mély Determinisztikus Politikagradiens) használata
  • Kettős Késleltetett DDPG (TD3)

7. Práctikus Eszközök és Keretek

  • Stable-Baselines3 és Ray RLlib használata
  • Naplózás és monitorozás TensorBoard-dal
  • Hiperparaméter optimalizálás DRL modelljeihez

8. Jutalomtervezés és Környezettervezés

  • Jutalomformálás és büntetés egyensúlyozás
  • Sim-to-real átvitel tanulási fogalmak
  • Egyedi környezet létrehozása a Gymnasium-ban

9. Részleges Láthatóságú Környezetek és Generalizáció

  • Teljes állapotinformáció hiánya (POMDPs) kezelése
  • Memória alapú megközelítések LSTM-ekkel és RNN-ekkel
  • Agens robustsága és generalizálódásának javítása

10. Játékelmélet és Több Agens Megbízó Tanulás

  • Bevezetés több agens környezetekbe
  • Közreműködés vs. verseny
  • Alkalmazások ellenfelekkel edzés és stratégiaoptimalizálásban

11. Esettanulmányok és Valós Állapotú Alkalmazások

  • Autonóm vezetés szimulációk
  • Dinamikus árképzés és pénzügyi kereskedelmi stratégiák
  • Robotika és ipari automatizálás

12. Hibaelhárítás és Optimalizálás

  • Instabil edzés diagnózisa
  • Jutalomszegénység és túlfit kezelése
  • DRL modelljeinek skálázása GPU-kon és elosztott rendszereken

13. Összefoglalás és Következő Lépések

  • DRL architektúra és kulcsalgoritmusok áttekintése
  • Ipari trendek és kutató irányok (pl. RLHF, hibrid modellje)
  • További források és olvasmányi anyagok

Követelmények

  • Python programozás ismerete
  • Calculus és Lineáris Algebra ismerete
  • Alapvető ismeretek a Valószínűségszámítás és a Statisztika területéről
  • Tapasztalat az Önmegtanuló modell készítésében Python és NumPy vagy TensorFlow/PyTorch használatával

Célközönség

  • AI és intelligens rendszerekbe érdekelt fejlesztők
  • Adat tudósok, akik a megerősítő tanulási keretrendszerek kutatásával foglalkoznak
  • Önmegtanuló rendszerekkel dolgozó Önmegtanuló mérnökök
 21 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (5)

Közelgő kurzusok

Rokon kategóriák