Lépjen kapcsolatba velünk

Kurzusleírás

Tencent Hunyuan termelési alapok

  • A Tencent Hunyuan modellek szolgáltatási forgatókönyveinek áttekintése
  • A nagy és MoE modellek termelési jellemzői
  • Gyakori késleltetési, átviteli sebességű és költségbeli szűk keresztmetszetek
  • Szolgáltatásszintű célok meghatározása következtetési terhelésekhez

Üzembe helyezési architektúra és szolgáltatási folyamat

  • Egy termelési következtetési verem alapvető összetevői
  • Választás konténeres, helyszíni és felhőbeli üzembe helyezési modellek között
  • Modell betöltés, kérések irányítása és GPU allokáció alapjai
  • Tervezés megbízhatóság és működési egyszerűség szempontjából

Késleltetés optimalizálása gyakorlatban

  • Optimalizált következtetési motorok, például a TensorRT használata, ahol alkalmazható
  • KV-cache fogalmak és gyakorlati cache hangolás
  • Indítási, felmelegedési és válaszidő csökkentése
  • Az első tokenhez szükséges idő és a token generálási sebesség mérése

Átviteli sebesség, kötegelés és GPU hatékonyság

  • Folyamatos kötegelés és kérések kötegelési stratégiái
  • Egyidejűség és sor viselkedés kezelése
  • GPU kihasználtság javítása a felhasználói élmény károsítása nélkül
  • Hosszú kontextusú és vegyes terhelésű kérések kezelése

Kvantálás és költségszabályozás

  • Miért fontos a kvantálás a termelési szolgáltatásban
  • Gyakorlati kompromisszumok FP16, INT8 és más gyakori pontossági opciók között
  • Modell minőség, késleltetés és infrastruktúra költségek egyensúlyba hozása
  • Egyszerű költségoptimalizálási ellenőrzőlista készítése

Műveletek, monitorozás és készültségi felülvizsgálat

  • Automatikus skálázási triggerek következtetési szolgáltatásokhoz
  • Késleltetés, átviteli sebesség, cache használat és GPU állapot monitorozása
  • Naplózás, riasztás és incidenskezelés alapjai
  • Egy referencia üzembe helyezés áttekintése és fejlesztési terv készítése

Követelmények

  • Alapvető ismeretek a nagy nyelvi modellek üzembe helyezéséről és következtetési munkafolyamatairól
  • Tapasztalat konténerek, felhő vagy helyszíni infrastruktúra és API-alapú szolgáltatások terén
  • Munkatapasztalat Pythonban vagy rendszermérnöki feladatokban

Közönség

  • ML mérnökök, akik LLM modelleket helyeznek üzembe éles környezetben
  • Platformmérnökök, akik GPU-alapú következtetési szolgáltatásokat felügyelnek
  • Megoldásarchitektusok, akik méretezhető AI szolgáltató platformokat terveznek
 14 Órák

Résztvevők száma


Ár per résztvevő

Közelgő kurzusok

Rokon kategóriák