Kurzusleírás

Bevezetés a multimodális modellekbe

  • A multimodális gépi tanulás áttekintése
  • Multimodális modellek alkalmazásai
  • Kihívások több adattípus kezelésében

Architektúrák multimodális modellekhez

  • Olyan modellek felfedezése, mint a CLIP, Flamingo és BLIP
  • A keresztmodális figyelemmechanizmusok megértése
  • A méretezhetőség és a hatékonyság építészeti szempontjai

Multimodális adatkészletek előkészítése

  • Adatgyűjtési és annotációs technikák
  • Szöveg, képek és videobemenetek előfeldolgozása
  • Adatkészletek kiegyensúlyozása multimodális feladatokhoz

Finomhangolási technikák multimodális modellekhez

  • Oktatási csővezetékek felállítása multimodális modellekhez
  • A memória és a számítási korlátok kezelése
  • A modalitások közötti összehangolás kezelése

Finomhangolt multimodális modellek alkalmazásai

  • Vizuális kérdésválasz
  • Kép és videó feliratozás
  • Tartalom létrehozása multimodális bemenetek segítségével

Teljesítményoptimalizálás és -értékelés

  • Multimodális feladatok értékelési mérőszámai
  • A késleltetés és az átviteli sebesség optimalizálása a termeléshez
  • A robusztusság és a konzisztencia biztosítása a módozatok között

Multimodális modellek bevezetése

  • Csomagolási modellek telepítéshez
  • Scalafelhőalapú platformokra vonatkozó következtetés
  • Valós idejű alkalmazások és integrációk

Esettanulmányok és gyakorlati laboratóriumok

  • A CLIP finomhangolása a tartalom alapú képlekéréshez
  • Multimodális chatbot betanítása szöveggel és videóval
  • A keresztmodális visszakereső rendszerek megvalósítása

Összegzés és a következő lépések

Követelmények

  • Jártasság a Python programozásban
  • A mélytanulási fogalmak megértése
  • Előképzett modellek finomhangolásában szerzett tapasztalat

Közönség

  • AI kutatók
  • Adattudósok
  • Gépi tanulással foglalkozó szakemberek
 28 Órák

Résztvevők száma


Ár résztvevőnként

Közelgő kurzusok

Rokon kategóriák