Kurzusleírás

A beszédfelismerés technológiái áttekintése

  • A beszédfelismerés története és fejlődése
  • Hangmodell, nyelvi modell és dekódolás
  • Modern architektúrák: RNNs, transformerok és Whisper

Audió előfeldolgozás és átírási alapok

  • Az audióformátumok és mintavételezési ráták kezelése
  • Audió tisztítása, vágása és szegmensenkénti feldolgozása
  • Szöveg előállítása audióból: valós idejű vs kötegelt mód

Gyakorlat a Whisper-rel és más API-kkal

  • Az OpenAI Whisper telepítése és használata
  • Felhő API-k (Google, Azure) meghívása az átíráshoz
  • Teljesítmény, késleltetés és költségek összehasonlítása

Nyelv, akcentus és témakör adaptáció

  • Többnyelvű és többakcentű adatok kezelése
  • Egyéni szótár és zajtolerancia
  • Jogászati, orvosi vagy technikai nyelv kezelése

Kimenet formázása és integráció

  • Időbélyegzés, írásjel és beszédcímkék hozzáadása
  • Exportálás szövegbe, SRT-be vagy JSON formátumba
  • Az átírások alkalmazásokba vagy adatbázisokba való integrálása

Használati esetek gyakorlatai

  • Találkozók, interjúk vagy podcastok átírása
  • Beszéd-szöveg parancsszisztémák
  • Valós idejű feliratok videó- és audióstreamingekhez

Kiértékelés, korlátozások és etika

  • Pontosság metrikák és modell benchmarking
  • Köny Venezettség és szórvány az esztfelismerő modellekben
  • Adatvédelem és megfelelőség két tekintetében

Összefoglalás és következő lépések

Követelmények

  • Általános AI és gépi tanulási fogalmak megértése
  • Ismeret az audió vagy médiafájl formátumokról és eszközökről

Célcsoport

  • Adattudósok és AI-mérnökök, akik hangadatokkal dolgoznak
  • Szoftverfejlesztők, akik átírási alkalmazásokat készítenek
  • Szervezetek, amelyek hangfelismerést használnak az automatizáláshoz
 14 Órák

Résztvevők száma


Ár per résztvevő

Közelgő kurzusok

Rokon kategóriák