Kurzusleírás

Különböző módú AI bevezetése

  • Mi az a különböző módú AI?
  • Fő kihívások és alkalmazások
  • Az előkelő különböző módú modellek áttekintése

Szövegfeldolgozás és természetes nyelvfelismerés

  • Nagyméretű nyelvmodellek (LLMs) kihasználása szövegalapú AI ügynökökhez
  • Szövegalkotás a különböző módú feladatokhoz
  • Szövegmodellek finomhangolása tartományspecifikus alkalmazásokhoz

Képfelismerés és képgenerálás

  • Képfeldolgozás AI-val: osztályozás, szövegkép, és tárgyfelismerés
  • Képgenerálás diffúziós modellekkel (Stable Diffusion, DALLE)
  • Képadatok integrálása szövegalapú modellekkel

Beszéd- és hangfeldolgozás

  • Beszédfelismerés Whisper ASR-rel
  • Szövegbeszéd-szintézis (TTS) technikák
  • Felhasználói interakció javítása hangalapú AI-val

Több módú bemenetek integrálása

  • AI pipeline építése több bemenet típus feldolgozásához
  • Összevonási technikák szöveg, kép, és beszéd adatok összevonásához
  • Több módú AI ügynökök valós életbeli alkalmazásai

Több módú AI ügynökök telepítése

  • API-alapú több módú AI megoldások építése
  • Modellek optimalizálása teljesítmény és skalázhatóság számára
  • Legjobb gyakorlatok több módú AI telepítéséhez a termelésben

Etikai szempontok és jövőbeli irányzatok

  • Elhajlás és igazságosság több módú AI-ben
  • Bizalmatlanságok több módú adatokkal
  • Jövőbeli fejlesztések több módú AI-ban

Összefoglalás és következő lépések

Követelmények

  • Gépek tanítása alapjaihoz való ismeret
  • Python programozási tapasztalat
  • Mélytanulási keretek ismerete (pl. TensorFlow, PyTorch)

Célközönség

  • AI-fejlesztők
  • Kutatók
  • Multimédia mérnökök
 21 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (1)

Közelgő kurzusok

Rokon kategóriák