Kurzusleírás

Bevezetés az erősítő tanulás emberi visszajelződésből (RLHF)

  • Mi a RLHF és miért fontos
  • Osszehasonlítás felügyelt finomhangolási módszerekkel
  • RLHF alkalmazásai a modern AI rendszereknél

Belsődiagramok kialakítása emberi visszajelződés alapján

  • Emberi visszajelződés gyűjtése és szerkeztetése
  • Belsődiagramok építése és betanítása
  • Belsődiagram hatékonyságának értékelése

Tanulás a közelítő szabályozási optimalizálással (PPO)

  • Áttekintés PPO algoritmusokról az RLHF-nél
  • PPO alkalmazása belsődiagramokkal
  • Modellek iteratív és biztonságos finomhangolása

Közelgő nyelvi modellek gyakorlati finomhangolása

  • Dátaszetszerkészítés az RLHF munkafolyamathoz
  • Egy kis LLM RLHF segítségével való gyakorlati finomhangolása
  • Kihívások és enyhítési stratégiák

Az RLHF teljes méretű rendszerekre történő kiterjesztése

  • Infrastruktúra és számítási erőforrások megfontolása
  • Mutatók biztosítása és folyamatos visszajelzőhurok
  • A legjobb gyakorlatok a telepítéshez és fenntartásra

Ethiszi kihívások és tendenciacsillapító stratégiák

  • Emberi visszajelződés etikai kockázatainak kezelése
  • Tendencia detektálás és korrekció stratégiái
  • Igazságosság és biztonságos kimenetek biztosítása

Esetszemélyek és valós életben talált példák

  • Esetszemély: ChatGPT finomhangolása RLHF segítségével
  • Más sikeres RLHF alkalmazások
  • Tanulás a gyakorlból és ipari nézőpontok

Összefoglalás és következő lépések

Követelmények

  • Mesterséges intelligencia alapjai, felügyelt és erősítő tanulás iránti ismeret
  • Tapasztalat modellek finomhangolásaival és neurális hálózati architektúrákkal
  • Mesterséges intelligencia programozási nyelvvel (pl., TensorFlow, PyTorch) való ismeret

Célcsoport

  • Gépi tanulási mérnökök
  • Mesterséges intelligencia kutatók
 14 Órák

Résztvevők száma


Ár résztvevőnként

Közelgő kurzusok

Rokon kategóriák