Kurzusleírás
Bevezetés a megerősítéses tanulásba és az agentikus AI-ba
- Döntéshozatal bizonytalanság mellett és szekvenciális tervezés
- Az RL kulcsfontosságú összetevői: ügynökök, környezetek, állapotok és jutalmak
- Az RL szerepe adaptív és agentikus AI rendszerekben
Markov döntési folyamatok (MDP-k)
- Az MDP-k formális definíciója és tulajdonságai
- Értékfüggvények, Bellman-egyenletek és dinamikus programozás
- Politikaértékelés, -javítás és -iteráció
Modellmentes megerősítéses tanulás
- Monte Carlo és időbeli különbségi (TD) tanulás
- Q-learning és SARSA
- Gyakorlat: táblázatos RL módszerek implementálása Pythonban
Mély megerősítéses tanulás
- Neurális hálózatok kombinálása RL-lel függvényközelítéshez
- Deep Q-Networks (DQN) és tapasztalati visszajátszás
- Színész-bíráló architektúrák és politikai gradiens módszerek
- Gyakorlat: ügynök betanítása DQN és PPO segítségével Stable-Baselines3-mal
Felfedezési stratégiák és jutalomformálás
- Egyensúly a felfedezés és a kihasználás között (ε-greedy, UCB, entrópia módszerek)
- Jutalomfüggvények tervezése és nem kívánt viselkedések elkerülése
- Jutalomformálás és tanítási tanterv
Haladó témák az RL-ben és a döntéshozatalban
- Több ügynökös megerősítéses tanulás és kooperatív stratégiák
- Hierarchikus megerősítéses tanulás és opciók keretrendszere
- Offline RL és utánzásos tanulás biztonságos üzembe helyezéshez
Szimulációs környezetek és értékelés
- OpenAI Gym és egyéni környezetek használata
- Folytonos vs. diszkrét cselekvési terek
- Metrikák az ügynök teljesítményére, stabilitására és mintahatékonyságára
RL integrálása agentikus AI rendszerekbe
- Érvelés és RL kombinálása hibrid ügynök architektúrákban
- Megerősítéses tanulás integrálása eszközhasználó ügynökökkel
- Működési szempontok a skálázás és üzembe helyezés során
Záróprojekt
- Tervezzen és implementáljon egy megerősítéses tanulási ügynököt egy szimulált feladathoz
- Elemezze a betanítási teljesítményt és optimalizálja a hiperparamétereket
- Mutassa be az adaptív viselkedést és döntéshozatalt egy agentikus kontextusban
Összefoglalás és következő lépések
Követelmények
- Erős Python programozási ismeretek
- Szilárd gépi tanulási és mélytanulási alapok
- Ismeret a lineáris algebra, valószínűségszámítás és alapvető optimalizálási módszerek terén
Közönség
- Megerősítéses tanulással foglalkozó mérnökök és alkalmazott AI kutatók
- Robotika és automatizálás fejlesztők
- Adaptív és agentikus AI rendszereken dolgozó mérnöki csapatok
Vélemények (3)
Jó ismeret- és gyakorlati keverék
Ion Mironescu - Facultatea S.A.I.A.P.M.
Kurzus - Agentic AI for Enterprise Applications
Gépi fordítás
A számítástudomány elméleti és gyakorlati, valamint magasabb és alacsonyabb szintű perspektívák keverékének bemutatása
Ion Mironescu - Facultatea S.A.I.A.P.M.
Kurzus - Autonomous Decision-Making with Agentic AI
Gépi fordítás
gyakorló feladatok
Daniel - Facultatea S.A.I.A.P.M.
Kurzus - Agentic AI in Multi-Agent Systems
Gépi fordítás