Köszönjük, hogy elküldte érdeklődését! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Köszönjük, hogy elküldte foglalását! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Kurzusleírás
A Multimodális AI és az Ollama bevezetése
- Multimodális tanulás áttekintése
- A látás-nyelv integráció fő kihívásai
- Az Ollama képességei és architektúrája
A környezet beállítása az Ollamához
- Az Ollama telepítése és konfigurálása
- Munkamenet helyi modell telepítésével
- Az Ollama integrálása Pythonnal és Jupyterrel
A multimodális bemenetek használata
- Szöveg és kép integrálása
- A hang és struktúrált adatok bevonása
- Előkészítő pipelinek tervezése
A dokumentumértés alkalmazásai
- A PDF-ek és képekből struktúrált információk kivonása
- OCR kombinálása nyelvmodellekkel
- Intelligens dokumentum-analízis folyamatok kialakítása
Látvásos kérdésekre válaszadás (VQA)
- A VQA adathalmazok és mérési értékek beállítása
- Multimodális modellek edzése és kiértékelése
- Interaktív VQA alkalmazások kialakítása
A multimodális ügynökök tervezése
- Multimodális logikai ügynök tervezési elvek
- A felfogás, nyelv és cselekvés kombinálása
- Ügynökök telepítése valós világbeli alkalmazásokra
A továbbfejlesztett integráció és optimalizálás
- Multimodális modellek finomhangolása az Ollamával
- A következtetési teljesítmény optimalizálása
- Mértékadó és telepítési megfontolások
A összegezés és a következő lépések
Követelmények
- Alapvető ismeretek a gép tanulás koncepcióiról
- Tapasztalat mély tanulási keretrendszerekkel, például PyTorch vagy TensorFlow
- Ismeret természetes nyelvfeldolgozásból és számítógépes látásból
Célközönség
- Gép tanulási mérnökök
- Művészetes intelligencia kutatók
- Termékfejlesztők, akik látás és szövegfolyamokat integrálnak
21 Órák