Kurzusleírás

Bevezetés az Emberi Visszajelzésen Alapuló Megerősítő Tanulásba (RLHF)

  • Mi az RLHF és miért fontos
  • Összehasonlítás a felügyelt finomhangolási módszerekkel
  • RLHF alkalmazások modern AI rendszerekben

Jutalommodellezés Emberi Visszajelzéssel

  • Emberi visszajelzések gyűjtése és strukturálása
  • Jutalommodellek felépítése és betanítása
  • Jutalommodell hatékonyságának értékelése

Tanulás Proximal Policy Optimization (PPO) segítségével

  • PPO algoritmusok áttekintése az RLHF-hez
  • PPO implementálása jutalommodellekkel
  • Modellek iteratív és biztonságos finomhangolása

Gyakorlati Finomhangolás Nyelvi Modelleken

  • Adathalmazok előkészítése RLHF munkafolyamatokhoz
  • Kis LLM finomhangolása RLHF segítségével gyakorlatban
  • Kihívások és enyhítési stratégiák

RLHF skálázása termelési rendszerekhez

  • Infrastruktúra és számítási szempontok
  • Minőségbiztosítás és folyamatos visszajelzési hurkok
  • Legjobb gyakorlatok üzembe helyezéshez és karbantartáshoz

Etikai Megfontolások és Elfogultság Csökkentése

  • Etikai kockázatok kezelése emberi visszajelzésekben
  • Elfogultság észlelése és korrekciós stratégiák
  • Összehangolás és biztonságos kimenetek biztosítása

Esettanulmányok és Valós Példák

  • Esettanulmány: ChatGPT finomhangolása RLHF segítségével
  • Egyéb sikeres RLHF üzembe helyezések
  • Tanulságok és ipari betekintések

Összefoglalás és Következő Lépések

Követelmények

  • A felügyelt és megerősítő tanulás alapjainak ismerete
  • Tapasztalat modell finomhangolásban és neurális hálózati architektúrákban
  • Ismeret a Python programozásban és mélytanulási keretrendszerekben (pl. TensorFlow, PyTorch)

Célközönség

  • Gépi tanulási mérnökök
  • AI kutatók
 14 Órák

Résztvevők száma


Ár per résztvevő

Közelgő kurzusok

Rokon kategóriák