Köszönjük, hogy elküldte érdeklődését! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Köszönjük, hogy elküldte foglalását! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Kurzusleírás
A beszédfelismerési technológiák áttekintése
- A beszédfelismerés története és fejlődése
- Akusztikai modellek, nyelvi modellek és dekódolás
- Modern architektúrák: RNN-ek, transzformerek és Whisper
Hangfeldolgozás és átírás alapjai
- Hangformátumok és mintavételezési sebességek kezelése
- Hang tisztítása, vágása és szegmentálása
- Szöveg generálása hangból: valós idejű vs kötegelt
Gyakorlati munka Whisperrel és egyéb API-kkal
- OpenAI Whisper telepítése és használata
- Felhő API-k (Google, Azure) hívása átíráshoz
- Teljesítmény, késleltetés és költség összehasonlítása
Nyelv, akcentusok és szakterületi adaptáció
- Többnyelvű és akcentusos hanganyagok kezelése
- Egyéni szókészletek és zajtűrés
- Jogi, orvosi vagy műszaki nyelv kezelése
Kimenet formázása és integráció
- Időbélyegek, írásjelek és beszélőcímkék hozzáadása
- Exportálás szöveg, SRT vagy JSON formátumba
- Átírások integrálása alkalmazásokba vagy adatbázisokba
Felhasználási esetek gyakorlati laborok
- Értekezletek, interjúk vagy podcastok átírása
- Hangparancs-rendszerek
- Valós idejű feliratozás video/audio streamekhez
Értékelés, korlátok és etika
- Pontossági metrikák és modellösszehasonlítás
- Elfogultság és igazságosság a beszédmodellekben
- Adatvédelem és megfelelőségi szempontok
Összefoglalás és következő lépések
Követelmények
- Általános AI és gépi tanulási fogalmak ismerete
- Ismeret a hang- vagy médiafájlformátumok és eszközök terén
Célközönség
- Adattudósok és AI mérnökök, akik hangadatokkal dolgoznak
- Szoftverfejlesztők, akik átíráson alapuló alkalmazásokat készítenek
- Szervezetek, amelyek a beszédfelismerést automatizálás céljából vizsgálják
14 Órák