Kurzusleírás

Bevezetés a Gemini 3 multimodalitásába

  • Képességek szöveg, kép, hang és videó terén
  • Modellválasztás és végpont áttekintés
  • Kulcsfogalmak a multimodális értelmezésben

Szöveg és strukturált bemenetek kezelése

  • Szöveggenerálásra vonatkozó promptolási stratégiák
  • Metaadatok, kontextusablakok és beágyazások
  • Szövegalapú összehangolás multimodális feladatokban

Képértelmezés és vizuális munkafolyamatok

  • Képelemzés és értelmezés a Gemini 3-mal
  • Vizuális kereső és címkéző eszközök létrehozása
  • Kép-szöveg és szöveg-kép interakciók kialakítása

Hangbemenet feldolgozása

  • Beszédfelismerés és átírási munkafolyamatok
  • Hang események észlelése és értelmezése
  • Hang integrálása szöveggel és vizuális bemenetekkel

Videóintelligencia és jelenetelemzés

  • Képkockánkénti és folyamatos videóértelmezés
  • Összefoglaló és kiemelés kinyerő eszközök létrehozása
  • Videóalapú automatizálás és tartalomfolyamatok

Multimodális alkalmazásarchitektúrák tervezése

  • Több bemeneti típus kombinálása egyetlen folyamatban
  • Késleltetés, költség és számítási szempontok
  • Ajánlott eljárások skálázható multimodális rendszerekhez

Multimodális prototípusok készítése

  • Multimodális prototípusok gyakorlati létrehozása
  • Gyors iterációk promptmérnökséggel
  • Felhasználói élmény folyamatok tesztelése és finomítása

Multimodális megoldások üzembe helyezése

  • Üzembe helyezési stratégiák és környezet beállítása
  • Valós teljesítmény monitorozása
  • Biztonsági és megfelelőségi szempontok

Összefoglalás és következő lépések

Követelmények

  • Modern AI fogalmak ismerete
  • Tapasztalat Python vagy JavaScript nyelven
  • Ismeret a REST API-kkal

Célközönség

  • Tervezők
  • Tartalomkészítők
  • Technikai termékcsapatok
 14 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (1)

Közelgő kurzusok

Rokon kategóriák