Kurzusleírás

A beszédfelismerési technológiák áttekintése

  • A beszédfelismerés története és fejlődése
  • Akusztikai modellek, nyelvi modellek és dekódolás
  • Modern architektúrák: RNN-ek, transzformerek és Whisper

Hangfeldolgozás és átírás alapjai

  • Hangformátumok és mintavételezési sebességek kezelése
  • Hang tisztítása, vágása és szegmentálása
  • Szöveg generálása hangból: valós idejű vs kötegelt

Gyakorlati munka Whisperrel és egyéb API-kkal

  • OpenAI Whisper telepítése és használata
  • Felhő API-k (Google, Azure) hívása átíráshoz
  • Teljesítmény, késleltetés és költség összehasonlítása

Nyelv, akcentusok és szakterületi adaptáció

  • Többnyelvű és akcentusos hanganyagok kezelése
  • Egyéni szókészletek és zajtűrés
  • Jogi, orvosi vagy műszaki nyelv kezelése

Kimenet formázása és integráció

  • Időbélyegek, írásjelek és beszélőcímkék hozzáadása
  • Exportálás szöveg, SRT vagy JSON formátumba
  • Átírások integrálása alkalmazásokba vagy adatbázisokba

Felhasználási esetek gyakorlati laborok

  • Értekezletek, interjúk vagy podcastok átírása
  • Hangparancs-rendszerek
  • Valós idejű feliratozás video/audio streamekhez

Értékelés, korlátok és etika

  • Pontossági metrikák és modellösszehasonlítás
  • Elfogultság és igazságosság a beszédmodellekben
  • Adatvédelem és megfelelőségi szempontok

Összefoglalás és következő lépések

Követelmények

  • Általános AI és gépi tanulási fogalmak ismerete
  • Ismeret a hang- vagy médiafájlformátumok és eszközök terén

Célközönség

  • Adattudósok és AI mérnökök, akik hangadatokkal dolgoznak
  • Szoftverfejlesztők, akik átíráson alapuló alkalmazásokat készítenek
  • Szervezetek, amelyek a beszédfelismerést automatizálás céljából vizsgálják
 14 Órák

Résztvevők száma


Ár per résztvevő

Közelgő kurzusok

Rokon kategóriák