Kurzusleírás

Bemutatkozás a Mistral multimodális modelljeihez

  • Áttekintés a Mistral Medium és multimodális képességei
  • OCR/dokumentummodellek és használati esetek
  • Integráció nyílt forrású ekoszisztémákkal

OCR és vizuális folyamatok

  • OCR alapelvek a Mistral modelljeivel
  • Képek és beolvasott dokumentumok előfeldolgozása
  • Szervezett szöveg kinyerése képekből

Dokumentumfelismerés

  • NLP-folyamatok tervezése dokumentumokhoz
  • Entitásfelismerés, összefoglalás és osztályozás
  • Szöveg és vizuális adat közötti összekötés

Keresés és ismeretalapú alkalmazások

  • Vizuális-szóbelis keresőrendszerek
  • Szemináris keresés OCR-kimenetekkel
  • Vállalati dokumentumtárak

Segítő és interaktív alkalmazások

  • UI tervezés multimodális segítők számára
  • Hozamanyossági alkalmazások (pl. vizuális-szóbeli)
  • Valós életbeli termelékenységi eszközök

Teljesítmény és optimalizálás

  • Multimodális folyamatok méretezése
  • Folyamat optimalizálása
  • Pontosság és hatékonyság kompromisszumainak értékelése

Eseménytanulmányok és jövőbeli irányok

  • Multimodális AI ipari alkalmazások
  • Kutatási trendek az OCR-ben és a dokumentum AI-ban
  • Felelős AI szempontok a vizuális-szóbeli feladatokban

Összegzés és következő lépések

Követelmények

  • A természetes nyelvfeldolgozás fogalmai megértése
  • Python és ML keretrendszerek tapasztalata
  • Ismeret az alapvető számítógépes látásról

Célközönség

  • Termékcsapatok
  • ML kutatók
  • Alkalmazott ML mérnökök
 14 Órák

Résztvevők száma


Ár résztvevőnként

Közelgő kurzusok

Rokon kategóriák