Kurzusleírás

Bevezetés a megerősítő tanulásba

  • Mi a megerősítő tanulás?
  • Kulcsfogalmak: ügynök, környezet, állapotok, műveletek és jutalmak
  • Kihívások a megerősítő tanulásban

Felfedezés és kihasználás

  • A felfedezés és a kihasználás egyensúlyozása RL modellekben
  • Felfedezési stratégiák: epsilon-greedy, softmax és egyebek

Q-Learning és Deep Q-Networks (DQNs)

  • Bevezetés a Q-learningbe
  • DQNs implementálása TensorFlow segítségével
  • Q-learning optimalizálása tapasztalati visszajátszással és célhálózatokkal

Policy-Based Methods

  • Policy gradient algoritmusok
  • REINFORCE algoritmus és annak implementációja
  • Actor-critic módszerek

Munka az OpenAI Gymmel

  • Környezetek beállítása az OpenAI Gymben
  • Ügynökök szimulálása dinamikus környezetekben
  • Ügynökök teljesítményének értékelése

Haladó megerősítő tanulási technikák

  • Több ügynökös megerősítő tanulás
  • Deep deterministic policy gradient (DDPG)
  • Proximal policy optimization (PPO)

Megerősítő tanulási modellek üzembe helyezése

  • A megerősítő tanulás valós alkalmazásai
  • RL modellek integrálása termelési környezetekbe

Összefoglalás és következő lépések

Követelmények

  • Tapasztalat Python programozásban
  • Alapvető ismeretek a mélytanulás és a gépi tanulás fogalmairól
  • Ismeretek a megerősítő tanulásban használt algoritmusokról és matematikai fogalmakról

Közönség

  • Adattudósok
  • Gépi tanulás gyakorlói
  • AI kutatók
 28 Órák

Résztvevők száma


Ár per résztvevő

Közelgő kurzusok

Rokon kategóriák