Kurzusleírás

Bevezetés a Multimodális MI-be

  • Mi a multimodális MI?
  • Kulcs kihívások és alkalmazások
  • A vezető multimodális modellek áttekintése

Szövegfeldolgozás és Természetes Nyelvfeldolgozás

  • LLM-ek használata szövegalapú MI-ügynökökben
  • Prompt mérnöki módszerek megértése multimodális feladatokhoz
  • Szövegmodellek finomhangolása területspecifikus alkalmazásokhoz

Képfelismerés és generálás

  • Képek feldolgozása MI-vel: osztályozás, képaláírás és objektumfelismerés
  • Képek generálása diffúziós modellekkel (Stable Diffusion, DALLE)
  • Képadatok integrálása szövegalapú modellekkel

Beszéd- és hangfeldolgozás

  • Beszédfelismerés Whisper ASR-rel
  • Szöveg-beszéd (TTS) szintézis technikák
  • Felhasználói interakció javítása hangalapú MI-vel

Multimodális bemenetek integrálása

  • MI-folyamatok építése több bemeneti típus feldolgozására
  • Szöveg, kép és beszéd adatok kombinálásának technikái
  • Multimodális MI-ügynökök valós alkalmazásai

Multimodális MI-ügynökök üzembe helyezése

  • API-alapú multimodális MI-megoldások építése
  • Modellek optimalizálása teljesítmény és skálázhatóság érdekében
  • Ajánlott eljárások a multimodális MI üzemi bevezetéséhez

Etikai megfontolások és jövőbeli trendek

  • Elfogultság és igazságosság a multimodális MI-ben
  • Adatvédelmi aggályok a multimodális adatokkal kapcsolatban
  • Jövőbeli fejlesztések a multimodális MI területén

Összefoglalás és következő lépések

Követelmények

  • A gépi tanulás alapjainak ismerete
  • Tapasztalat Python programozásban
  • Ismeret a mélytanulási keretrendszerekben (pl. TensorFlow, PyTorch)

Célközönség

  • MI-fejlesztők
  • Kutatók
  • Multimédia mérnökök
 21 Órák

Résztvevők száma


Ár per résztvevő

Közelgő kurzusok

Rokon kategóriák