Kurzusleírás
1. Bevezetés a Mély Megerősítéses Tanulásba
- Mi a megerősítéses tanulás?
- Különbség a felügyelt, felügyelet nélküli és megerősítéses tanulás között
- A DRL alkalmazásai 2025-ben (robotika, egészségügy, pénzügy, logisztika)
- Az ügynök-környezet interakciós ciklusának megértése
2. Megerősítéses Tanulás alapjai
- Markov döntési folyamatok (MDP)
- Állapot, művelet, jutalom, politika és értékfüggvények
- Felderítés vs. kihasználás kompromisszum
- Monte Carlo módszerek és Időbeli Különbség (TD) tanulás
3. Alapvető RL algoritmusok implementálása
- Táblázatos módszerek: Dinamikus programozás, Politikaértékelés és Iteráció
- Q-Learning és SARSA
- Epsilon-greedy felderítés és csökkenő stratégiák
- RL környezetek implementálása OpenAI Gymnasiummal
4. Áttérés a Mély Megerősítéses Tanulásra
- A táblázatos módszerek korlátai
- Neurális hálózatok használata függvényközelítéshez
- Deep Q-Network (DQN) architektúra és munkafolyamat
- Tapasztalati visszajátszás és célhálózatok
5. Fejlett DRL algoritmusok
- Double DQN, Dueling DQN és Prioritized Experience Replay
- Policy Gradient módszerek: REINFORCE algoritmus
- Actor-Critic architektúrák (A2C, A3C)
- Proximális Politika Optimalizálás (PPO)
- Soft Actor-Critic (SAC)
6. Folytonos műveleti terek kezelése
- Kihívások a folytonos irányításban
- DDPG (Deep Deterministic Policy Gradient) használata
- Twin Delayed DDPG (TD3)
7. Gyakorlati eszközök és keretrendszerek
- Stable-Baselines3 és Ray RLlib használata
- Naplózás és monitorozás TensorBoarddal
- Hiperparaméterek hangolása DRL modellekhez
8. Jutalomtervezés és környezet tervezés
- Jutalomformálás és büntetés kiegyenlítése
- Szimulációból valós környezetbe történő átviteli tanulás fogalmai
- Egyéni környezetek létrehozása Gymnasiumban
9. Részben megfigyelhető környezetek és általánosítás
- Hiányos állapotinformáció kezelése (POMDPs)
- Memóriaalapú megközelítések LSTMs és RNNs használatával
- Az ügynök robusztusságának és általánosításának javítása
10. Játékelmélet és Többügynökös Megerősítéses Tanulás
- Bevezetés a többügynökös környezetekbe
- Együttműködés vs. versengés
- Alkalmazások az ellenséges kiképzésben és a stratégiai optimalizálásban
11. Esettanulmányok és valós alkalmazások
- Önvezető járművek szimulációi
- Dinamikus árazás és pénzügyi kereskedési stratégiák
- Robotika és ipari automatizálás
12. Hibakeresés és optimalizálás
- Instabil betanítás diagnosztizálása
- Jutalomszegénység és túlilleszkedés kezelése
- DRL modellek skálázása GPU-kon és elosztott rendszereken
13. Összefoglalás és következő lépések
- A DRL architektúra és kulcsfontosságú algoritmusok összefoglalása
- Ipari trendek és kutatási irányok (pl. RLHF, hibrid modellek)
- További források és olvasmányanyagok
Követelmények
- Python programozási jártasság
- A kalkulus és a lineáris algebra ismerete
- Alapvető ismeretek a valószínűségszámítás és statisztika területén
- Tapasztalat gépi tanulási modellek építésében Python és NumPy vagy TensorFlow/PyTorch segítségével
Közönség
- Fejlesztők, akik érdeklődnek az AI és az intelligens rendszerek iránt
- Adattudósok, akik felfedezik a megerősítéses tanulási keretrendszereket
- Gépi tanulási mérnökök, akik autonóm rendszereken dolgoznak
Vélemények (5)
Hunter rendkívül túlmutató, nagyon megfogadó, kiválóan tudományos és személyes. Nagyon jól sikerült.
Rick Johnson - Laramie County Community College
Kurzus - Artificial Intelligence (AI) Overview
Gépi fordítás
Very flexible.
Frank Ueltzhoffer
Kurzus - Artificial Neural Networks, Machine Learning and Deep Thinking
Gépi fordítás
I liked the new insights in deep machine learning.
Josip Arneric
Kurzus - Neural Network in R
Gépi fordítás
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
Kurzus - Introduction to the use of neural networks
Gépi fordítás
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.
Jonathan Blease
Kurzus - Artificial Neural Networks, Machine Learning, Deep Thinking
Gépi fordítás