Köszönjük, hogy elküldte érdeklődését! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Köszönjük, hogy elküldte foglalását! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Kurzusleírás
Speech Recognition technológiák áttekintése
- A beszédfelismerés története és fejlődése
- Akusztikus modellek, nyelvmodellek és dekódolás
- Modern architektúrák: RNN-k, transformerek és Whisper
Hangelőfeldolgozás és átírás alapok
- Hangformátumok és mintavételi gyakoriság kezelése
- Hangtisztítás, vágás és szegmentálás
- Szöveggenerálás hangból: valós idejű vs. tömeges feldolgozás
Gyakorlatok Whisperrel és más API-kkal
- OpenAI Whisper telepítése és használata
- Felhő API-k (Google, Azure) meghívása átíráshoz
- Teljesítmény, késleltetés és költség összehasonlítása
Nyelv, akcentus és tartományi adaptáció
- Többnyelvű és akcentusos hangfelismerés
- Egyedi szójegyzékek és zajtűrő képesség
- Jogi, orvosi vagy szakmai nyelvfeldolgozás
Kimeneti formázás és integráció
- Időbélyegzés, interpunkció és beszélőjelölés hozzáadása
- Exportálás szöveg, SRT vagy JSON formátumba
- Átírások integrálása alkalmazásokba vagy adatbázisokba
Use Case Implementációs laborok
- Találkozók, interjúk vagy podkasztok átírása
- Szó-beszéd parancsrendszerek
- Valós idejű feliratok videó/hangfolyamatokhoz
Értékelés, korlátok és etika
- Pontossági mértékek és modell benchmarking
- Elhárítás és igazságosság a beszédmodellekben
- Adatvédelem és engedélyezési szempontok
Összegzés és következő lépések
Követelmények
- Általános AI és gépi tanulás fogalmak megértése
- Hang- vagy médiafájlformátumok és eszközök ismerete
Célközönség
- Hangadatokkal dolgozó adat tudósok és AI mérnökök
- Transzkripciós alkalmazásokat fejlesztő szoftverfejlesztők
- Beszédfelismerést automatikusítás céljából vizsgáló szervezetek
14 Órák