Kurzusleírás

Bevezetés a Gemini 3 többmódos funkcióiba

  • Kép, hang, videó és szöveg területi képességek
  • Modell kiválasztás és végpont áttekintése
  • A többmódos értelmezés főbb elvei

Szöveg és szerkezett bemenetek kezelése

  • A szöveggeneráláshoz tartozó kéréselemzési stratégiák
  • Metaadatok, kontextusablakok és beágyazások
  • Szöveg alapú többmódos feladatok koordinálása

Képértelmezés és vizuális folyamatok

  • A képek elemzése és értelmezése a Gemini 3-mal
  • Vizuális keresési és címkéző eszközök létrehozása
  • Kép-szöveg és szöveg-kép interakciók építése

Hangbemenet feldolgozása

  • Beszédismétlési és feliratoló folyamatok
  • Hangesemények észlelése és értelmezése
  • Hang, szöveg és vizuális bemenetek integrálása

Videóintelligencia és történet elemzése

  • Kockánkénti és folyamatos videóelemzés
  • Összefoglaló- és kiemelőeszközök létrehozása
  • Videó-alapú automatizáció és tartalomfolyamatok

Többmódos alkalmazásarchitektúrák kialakítása

  • Több bemeneti típus kombinálása egy folyamatban
  • Késleltetés, költség és számítási erőforrások fontolása
  • Skálázható többmódos rendszerek legjobb gyakorlatai

Többmódos alkalmazások prototípuszának kialakítása

  • Interaktív prototípusok gyakorlati létrehozása
  • Gyors iteráció a kérelemtervezéssel
  • Felhasználói élményfolyamatok tesztelése és tökéletesítése

Többmódos megoldások telepítése

  • Telepítési stratégiák és környezet beállítása
  • Valós életbeli teljesítmény figyelése
  • Biztonság és megfelelőség szempontjainak fontolása

Összefoglaló és következő lépések

Követelmények

  • A modern mesterséges intelligencia fogalmainak megértése
  • Python vagy JavaScript programozási tapasztalatok
  • Ismeretek a REST API-k használatáról

Célcsoport

  • Tervezők
  • Tartalomszerkesztők
  • Technikai termékfejlesztési csapatok
 14 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (1)

Közelgő kurzusok

Rokon kategóriák