Kurzusleírás

Multimodális AI Bevezetése

  • Multimodális AI áttekintése és valós életbeli alkalmazások
  • Szöveg, kép és hang adatok integrálásának kihívásai
  • Legújabb kutatások és fejlesztések

Adatfeldolgozás és Jelképkészítés

  • Szöveg, kép és hang adatbázisok kezelése
  • Multimodális tanulás előfeldolgozási technikái
  • Jelképkivonás és adatfúzió stratégiák

Multimodális Modellek Építése PyTorch-ral és Hugging Face-al

  • Bevezetés PyTorch használatába multimodális tanulásra
  • Hugging Face Transformers használata NLP és látásfeladatokhoz
  • Különböző módosságok egyesítése egy egységes AI modellbe

Szó, Látás és Szöveg Összekapcsolása

  • OpenAI Whisper integrálása beszédfelismerésre
  • DeepSeek-Vision alkalmazása képfeldolgozásra
  • Összekapcsolási technikák krossmodális tanulásra

Multimodális AI Modellek Kiképzése és Optimizálása

  • Modellkiképzési stratégiák multimodális AI-khoz
  • Optimizálási technikák és hiperparaméter beállítás
  • Bias kezelése és modell általánosításának javítása

Multimodális AI Valós Életbeli Alkalmazásokban

  • Modell exportálása termelési felhasználatra
  • AI modell telepítése felhőplatformokon
  • Teljesítményfigyelés és modell karbantartás

Haladó Témák és Jövőbeli Trendek

  • Zero-shot és few-shot tanulás multimodális AI-ben
  • Etikai szempontok és felelős AI fejlesztés
  • Multimodális AI kutatásban megjelenő trendek

Összegzés és Következő Lépések

Követelmények

  • Szilárd ismeret a machine learning és a deep learning koncepcióiról
  • Tapasztalat AI keretrendszerekkel, mint PyTorch vagy TensorFlow
  • Ismerőség a szöveg, kép és hangadatok feldolgozásával

Célközönség

  • AI fejlesztők
  • Machine learning mérnökök
  • Kutatók
 21 Órák

Résztvevők száma


Ár résztvevőnként

Közelgő kurzusok

Rokon kategóriák