Kurzusleírás
1. Bevezetés a Mély Megerősítéses Tanulásba
- Mi a megerősítéses tanulás?
- Különbség a felügyelt, felügyelet nélküli és megerősítéses tanulás között
- A DRL alkalmazásai 2025-ben (robotika, egészségügy, pénzügy, logisztika)
- Az ügynök-környezet interakciós ciklusának megértése
2. Megerősítéses Tanulás alapjai
- Markov döntési folyamatok (MDP)
- Állapot, művelet, jutalom, politika és értékfüggvények
- Felderítés vs. kihasználás kompromisszum
- Monte Carlo módszerek és Időbeli Különbség (TD) tanulás
3. Alapvető RL algoritmusok implementálása
- Táblázatos módszerek: Dinamikus programozás, Politikaértékelés és Iteráció
- Q-Learning és SARSA
- Epsilon-greedy felderítés és csökkenő stratégiák
- RL környezetek implementálása OpenAI Gymnasiummal
4. Áttérés a Mély Megerősítéses Tanulásra
- A táblázatos módszerek korlátai
- Neurális hálózatok használata függvényközelítéshez
- Deep Q-Network (DQN) architektúra és munkafolyamat
- Tapasztalati visszajátszás és célhálózatok
5. Fejlett DRL algoritmusok
- Double DQN, Dueling DQN és Prioritized Experience Replay
- Policy Gradient módszerek: REINFORCE algoritmus
- Actor-Critic architektúrák (A2C, A3C)
- Proximális Politika Optimalizálás (PPO)
- Soft Actor-Critic (SAC)
6. Folytonos műveleti terek kezelése
- Kihívások a folytonos irányításban
- DDPG (Deep Deterministic Policy Gradient) használata
- Twin Delayed DDPG (TD3)
7. Gyakorlati eszközök és keretrendszerek
- Stable-Baselines3 és Ray RLlib használata
- Naplózás és monitorozás TensorBoarddal
- Hiperparaméterek hangolása DRL modellekhez
8. Jutalomtervezés és környezet tervezés
- Jutalomformálás és büntetés kiegyenlítése
- Szimulációból valós környezetbe történő átviteli tanulás fogalmai
- Egyéni környezetek létrehozása Gymnasiumban
9. Részben megfigyelhető környezetek és általánosítás
- Hiányos állapotinformáció kezelése (POMDPs)
- Memóriaalapú megközelítések LSTMs és RNNs használatával
- Az ügynök robusztusságának és általánosításának javítása
10. Játékelmélet és Többügynökös Megerősítéses Tanulás
- Bevezetés a többügynökös környezetekbe
- Együttműködés vs. versengés
- Alkalmazások az ellenséges kiképzésben és a stratégiai optimalizálásban
11. Esettanulmányok és valós alkalmazások
- Önvezető járművek szimulációi
- Dinamikus árazás és pénzügyi kereskedési stratégiák
- Robotika és ipari automatizálás
12. Hibakeresés és optimalizálás
- Instabil betanítás diagnosztizálása
- Jutalomszegénység és túlilleszkedés kezelése
- DRL modellek skálázása GPU-kon és elosztott rendszereken
13. Összefoglalás és következő lépések
- A DRL architektúra és kulcsfontosságú algoritmusok összefoglalása
- Ipari trendek és kutatási irányok (pl. RLHF, hibrid modellek)
- További források és olvasmányanyagok
Követelmények
- Python programozási jártasság
- A kalkulus és a lineáris algebra ismerete
- Alapvető ismeretek a valószínűségszámítás és statisztika területén
- Tapasztalat gépi tanulási modellek építésében Python és NumPy vagy TensorFlow/PyTorch segítségével
Közönség
- Fejlesztők, akik érdeklődnek az AI és az intelligens rendszerek iránt
- Adattudósok, akik felfedezik a megerősítéses tanulási keretrendszereket
- Gépi tanulási mérnökök, akik autonóm rendszereken dolgoznak
Vélemények (3)
Nagyon tetszett, hogy időt szántunk a CHAT GPT-vel való játszozgatásra. A terem ebben az esetben nem volt a legmegfelelőbb - helyette egy nagy asztalra több kisebb asztalt kellett volna beállítani, így csoportokban lehettünk volna, és ötletekkel gondolkodhattunk volna.
Nola - Laramie County Community College
Kurzus - Artificial Intelligence (AI) Overview
Gépi fordítás
Fókuszált munka az első elvekből indulva, majd ugyanabból a naptól esettanulmányok alkalmazásához való átmenet
Maggie Webb - Department of Jobs, Regions, and Precincts
Kurzus - Artificial Neural Networks, Machine Learning, Deep Thinking
Gépi fordítás
Annak ellenére, hogy valódi céges adatokat használt. A tanár nagyon jó megközelítést alkalmazott a tanulók részvételének és versengésének elősegítésével
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Kurzus - Applied AI from Scratch in Python
Gépi fordítás