Kurzusleírás

Bevezetés az Ollama skálázásába

  • Az Ollama architektúrája és skálázási szempontjai
  • Gyakori szűk keresztmetszetek többfelhasználós telepítésekben
  • Ajánlott eljárások az infrastruktúra előkészítéséhez

Erőforrás lefoglalás és GPU optimalizálás

  • Hatékony CPU/GPU kihasználási stratégiák
  • Memória és sávszélesség szempontjai
  • Konténer szintű erőforrás korlátok

Telepítés konténerekkel és Kubernetes-szel

  • Az Ollama konténerizálása Dockerrel
  • Az Ollama futtatása Kubernetes klaszterekben
  • Terheléselosztás és szolgáltatásfelderítés

Automatikus skálázás és kötegelés

  • Automatikus skálázási szabályzatok tervezése az Ollama számára
  • Kötegelt következtetési technikák az átviteli sebesség optimalizálásához
  • Késleltetés vs. átviteli sebesség kompromisszumok

Késleltetés optimalizálása

  • Következtetési teljesítmény profilozása
  • Gyorsítótárazási stratégiák és modell felmelegítés
  • I/O és kommunikációs terhelés csökkentése

Monitorozás és megfigyelhetőség

  • Prometheus integrálása metrikákhoz
  • Irányítópultok készítése Grafana-val
  • Riasztások és incidenskezelés az Ollama infrastruktúrához

Költségkezelés és skálázási stratégiák

  • Kölgytudatos GPU lefoglalás
  • Felhő vs. helyszíni telepítési szempontok
  • Fenntartható skálázási stratégiák

Összefoglalás és következő lépések

Követelmények

  • Tapasztalat Linux rendszeradminisztrációban
  • Ismeret a konténerizálás és az orchestráció területén
  • Ismeret a gépi tanulási modellek üzembe helyezéséről

Célközönség

  • DevOps mérnökök
  • ML infrastruktúra csapatok
  • Site reliability mérnökök
 21 Órák

Résztvevők száma


Ár per résztvevő

Közelgő kurzusok

Rokon kategóriák