Kurzusleírás

Speech Recognition technológiák áttekintése

  • A beszédfelismerés története és fejlődése
  • Akusztikus modellek, nyelvmodellek és dekódolás
  • Modern architektúrák: RNN-k, transformerek és Whisper

Hangelőfeldolgozás és átírás alapok

  • Hangformátumok és mintavételi gyakoriság kezelése
  • Hangtisztítás, vágás és szegmentálás
  • Szöveggenerálás hangból: valós idejű vs. tömeges feldolgozás

Gyakorlatok Whisperrel és más API-kkal

  • OpenAI Whisper telepítése és használata
  • Felhő API-k (Google, Azure) meghívása átíráshoz
  • Teljesítmény, késleltetés és költség összehasonlítása

Nyelv, akcentus és tartományi adaptáció

  • Többnyelvű és akcentusos hangfelismerés
  • Egyedi szójegyzékek és zajtűrő képesség
  • Jogi, orvosi vagy szakmai nyelvfeldolgozás

Kimeneti formázás és integráció

  • Időbélyegzés, interpunkció és beszélőjelölés hozzáadása
  • Exportálás szöveg, SRT vagy JSON formátumba
  • Átírások integrálása alkalmazásokba vagy adatbázisokba

Use Case Implementációs laborok

  • Találkozók, interjúk vagy podkasztok átírása
  • Szó-beszéd parancsrendszerek
  • Valós idejű feliratok videó/hangfolyamatokhoz

Értékelés, korlátok és etika

  • Pontossági mértékek és modell benchmarking
  • Elhárítás és igazságosság a beszédmodellekben
  • Adatvédelem és engedélyezési szempontok

Összegzés és következő lépések

Követelmények

  • Általános AI és gépi tanulás fogalmak megértése
  • Hang- vagy médiafájlformátumok és eszközök ismerete

Célközönség

  • Hangadatokkal dolgozó adat tudósok és AI mérnökök
  • Transzkripciós alkalmazásokat fejlesztő szoftverfejlesztők
  • Beszédfelismerést automatikusítás céljából vizsgáló szervezetek
 14 Órák

Résztvevők száma


Ár résztvevőnként

Közelgő kurzusok

Rokon kategóriák