Kurzusleírás

Bevezetés a Vision-Language Modellekbe

  • A VLMs áttekintése és szerepe a multimodális AI-ban
  • Népszerű architektúrák: CLIP, Flamingo, BLIP stb.
  • Használati esetek: keresés, feliratozás, autonóm rendszerek, tartalomelemzés

A Finomhangolási Környezet Előkészítése

  • OpenCLIP és más VLM könyvtárak beállítása
  • Adatkészlet formátumok kép-szöveg párokhoz
  • Előfeldolgozó folyamatok a látás és nyelvi bemenetekhez

CLIP és Hasonló Modellek Finomhangolása

  • Kontrasztív veszteség és közös beágyazási terek
  • Gyakorlati rész: CLIP finomhangolása egyedi adatkészleteken
  • Tartományspecifikus és többnyelvű adatok kezelése

Haladó Finomhangolási Technikák

  • LoRA és adapter-alapú módszerek használata a hatékonyság érdekében
  • Prompt tuning és vizuális prompt injekció
  • Zero-shot vs. finomhangolt értékelési kompromisszumok

Értékelés és Teljesítménymérés

  • Metrikák VLMs-hez: visszakeresési pontosság, BLEU, CIDEr, recall
  • Vizuális-szöveges igazítás diagnosztika
  • Beágyazási terek és hibás osztályozások vizualizációja

Üzembe helyezés és Használat Valós Alkalmazásokban

  • Modellek exportálása következtetéshez (TorchScript, ONNX)
  • VLMs integrálása folyamatokba vagy API-kba
  • Erőforrás-megfontolások és modell skálázás

Esettanulmányok és Alkalmazott Forgatókönyvek

  • Médiaelemzés és tartalom moderálás
  • Keresés és visszakeresés e-kereskedelemben és digitális könyvtárakban
  • Multimodális interakció robotikában és autonóm rendszerekben

Összefoglalás és Következő Lépések

Követelmények

  • A látás és NLP területén történő mélytanulás ismerete
  • Tapasztalat PyTorch és transzformátor-alapú modellekkel
  • Ismeret a multimodális modell architektúrákról

Célközönség

  • Számítógépes látásmérnökök
  • AI fejlesztők
 14 Órák

Résztvevők száma


Ár per résztvevő

Közelgő kurzusok

Rokon kategóriák