Kurzusleírás

Bevezetés a multimodális MI-be és az Ollama-ba

  • A multimodális tanulás áttekintése
  • Kihívások a látás-nyelv integrációban
  • Az Ollama képességei és architektúrája

Az Ollama környezet beállítása

  • Az Ollama telepítése és konfigurálása
  • Helyi modell üzembe helyezésével való munka
  • Az Ollama integrálása Pythonnal és Jupyterrel

Multimodális bemenetekkel való munka

  • Szöveg és kép integráció
  • Hang és strukturált adatok bevonása
  • Előfeldolgozó folyamatok tervezése

Dokumentumértelmezési alkalmazások

  • Strukturált információk kinyerése PDF-ekből és képekből
  • OCR kombinálása nyelvi modellekkel
  • Intelligens dokumentumelemzési munkafolyamatok építése

Vizuális kérdés-válasz (VQA)

  • VQA adathalmazok és benchmarkok beállítása
  • Multimodális modellek betanítása és értékelése
  • Interaktív VQA alkalmazások építése

Multimodális ügynökök tervezése

  • Az ügynökök tervezésének alapjai multimodális következtetéssel
  • Érzékelés, nyelv és cselekvés kombinálása
  • Ügynökök üzembe helyezése valós felhasználási esetekhez

Haladó integráció és optimalizáció

  • Multimodális modellek finomhangolása az Ollama-val
  • Inferencia teljesítmény optimalizálása
  • Skálázhatóság és üzembe helyezési szempontok

Összefoglalás és következő lépések

Követelmények

  • Mély gépi tanulási ismeretek
  • Tapasztalat mélytanulási keretrendszerekben, mint a PyTorch vagy a TensorFlow
  • Ismeret a természetes nyelvfeldolgozás és a számítógépes látás területén

Célközönség

  • Gépi tanulási mérnökök
  • AI-kutatók
  • Termékfejlesztők, akik vizuális és szöveges munkafolyamatokat integrálnak
 21 Órák

Résztvevők száma


Ár per résztvevő

Közelgő kurzusok

Rokon kategóriák