Kurzusleírás

A Multimodális AI és az Ollama bevezetése

  • Multimodális tanulás áttekintése
  • A látás-nyelv integráció fő kihívásai
  • Az Ollama képességei és architektúrája

A környezet beállítása az Ollamához

  • Az Ollama telepítése és konfigurálása
  • Munkamenet helyi modell telepítésével
  • Az Ollama integrálása Pythonnal és Jupyterrel

A multimodális bemenetek használata

  • Szöveg és kép integrálása
  • A hang és struktúrált adatok bevonása
  • Előkészítő pipelinek tervezése

A dokumentumértés alkalmazásai

  • A PDF-ek és képekből struktúrált információk kivonása
  • OCR kombinálása nyelvmodellekkel
  • Intelligens dokumentum-analízis folyamatok kialakítása

Látvásos kérdésekre válaszadás (VQA)

  • A VQA adathalmazok és mérési értékek beállítása
  • Multimodális modellek edzése és kiértékelése
  • Interaktív VQA alkalmazások kialakítása

A multimodális ügynökök tervezése

  • Multimodális logikai ügynök tervezési elvek
  • A felfogás, nyelv és cselekvés kombinálása
  • Ügynökök telepítése valós világbeli alkalmazásokra

A továbbfejlesztett integráció és optimalizálás

  • Multimodális modellek finomhangolása az Ollamával
  • A következtetési teljesítmény optimalizálása
  • Mértékadó és telepítési megfontolások

A összegezés és a következő lépések

Követelmények

  • Alapvető ismeretek a gép tanulás koncepcióiról
  • Tapasztalat mély tanulási keretrendszerekkel, például PyTorch vagy TensorFlow
  • Ismeret természetes nyelvfeldolgozásból és számítógépes látásból

Célközönség

  • Gép tanulási mérnökök
  • Művészetes intelligencia kutatók
  • Termékfejlesztők, akik látás és szövegfolyamokat integrálnak
 21 Órák

Résztvevők száma


Ár résztvevőnként

Közelgő kurzusok

Rokon kategóriák