Kurzusleírás

A látványnyelvi modellek bevezetése

  • Áttekintés a VLMaikról és szerepükről a multimodális AI-ben
  • Népszerű architektúrák: CLIP, Flamingo, BLIP, stb.
  • Alkalmazási területek: keresés, feliratkészítés, autonóm rendszerek, tartalom elemzése

A finomhangolás környezetének előkészítése

  • OpenCLIP és más VLM könyvtárak beállítása
  • Kép-szöveg pár formátumai
  • Előkészítő folyamatok a látvány- és nyelvbemenetekhez

CLIP és hasonló modellek finomhangolása

  • Kontasztív veszteség és közös befoglalóterek
  • Gyakorlatban: CLIP finomhangolása saját adatkészleteken
  • Tartományspecifikus és többnyelvű adatok kezelése

Haladó finomhangolási technikák

  • LoRA és adapter alapú módszerek hatékonyságáért
  • Prompt finomhangolás és vizuális prompt injekció
  • Nulla shot és finomhangolt értékelés kompromisszumai

Értékelési és benchmarkelés

  • VLM metrikák: lekeresési pontosság, BLEU, CIDEr, visszaemlékezés
  • Vizuális-szövegigazítás diagnosztikája
  • Befoglalóterek és hibás osztályozások vizualizálása

A telepítés és valós alkalmazásokban történő használat

  • Modellek exportálása előrejelzéshez (TorchScript, ONNX)
  • VLM integrálása folyamatokba vagy API-kba
  • Erőforrások és modell méretezés

Eseményanalízis és alkalmazási példák

  • Média elemzés és tartalom moderálás
  • Keresés és lekérés elektronikus kereskedelemben és digitális könyvtárakban
  • Multimodális interakció robotika és autonóm rendszerekben

Összegzés és következő lépések

Követelmények

  • A mélyszerű tanulás megértése a látás és az NLP számára
  • Tapasztalat PyTorch és transformer alapú modellekkel
  • Ismeret a multimodális modell architektúráival

Célközönség

  • Számítógépes látás mérnökök
  • AI fejlesztők
 14 Órák

Résztvevők száma


Ár résztvevőnként

Közelgő kurzusok

Rokon kategóriák