Kurzusleírás
PySpark & gépi tanulás
1. modul: Big Data & Spark alapok
- Áttekintés a Big Data ökoszisztémáról és a Spark szerepéről a modern adatplatformokban
- A Spark architektúra megértése: driver, executors, cluster manager, lusta kiértékelés, DAG és végrehajtási tervezés
- Az RDD és DataFrame API-k közötti különbségek és mikor melyiket érdemes használni
- SparkSession létrehozása és konfigurálása, valamint az alkalmazás konfigurációs alapok megértése
2. modul: PySpark DataFrames
- Adatok olvasása és írása vállalati forrásokból és formátumokból (CSV, JSON, Parquet, Delta)
- Munka PySpark DataFrames-szel: transzformációk, műveletek, oszlopkifejezések, szűrés, illesztések és aggregációk
- Speciális műveletek implementálása, mint például ablakfüggvények, időbélyegek kezelése és beágyazott adatok kezelése
- Adatminőség-ellenőrzések alkalmazása és újrafelhasználható, karbantartható PySpark kód írása
3. modul: Nagy adathalmazok hatékony feldolgozása
- Teljesítményalapok megértése: particionálási stratégiák, shuffle viselkedés, gyorsítótárazás és perzisztencia
- Optimalizálási technikák használata, beleértve a broadcast join-okat és a végrehajtási terv elemzését
- Nagy adathalmazok hatékony feldolgozása és skálázható adatfolyamatokra vonatkozó ajánlott eljárások
- Sémafejlődés megértése és a vállalati környezetekben használt modern tárolási formátumok
4. modul: Jellemzőkészítés nagy léptékben
- Jellemzőkészítés a Spark MLlib segítségével: hiányzó értékek kezelése, kategorikus változók kódolása és jellemzőskálázás
- Újrafelhasználható előfeldolgozási lépések tervezése és adathalmazok előkészítése a gépi tanulási folyamatokhoz
- Bevezetés a jellemzőkiválasztásba és az egyenetlen adathalmazok kezelésébe
5. modul: Gépi tanulás Spark MLlib-vel
- Az MLlib architektúra és az Estimator/Transformer minta megértése
- Regressziós és osztályozási modellek betanítása nagy léptékben (Lineáris regresszió, Logisztikus regresszió, Döntési fák, Véletlen erdő)
- Modellek összehasonlítása és eredmények értelmezése elosztott gépi tanulási folyamatokban
6. modul: Teljes gépi tanulási folyamatok
- Teljes gépi tanulási folyamatok felépítése, amelyek kombinálják az előfeldolgozást, a jellemzőkészítést és a modellezést
- Tanítás/érvényesítés/tesztelés felosztási stratégiák alkalmazása
- Keresztvalidáció és hiperparaméter-hangolás végrehajtása grid search és random search segítségével
- Reprodukálható gépi tanulási kísérletek strukturálása
7. modul: Modellértékelés & gyakorlati gépi tanulási döntéshozatal
- Megfelelő értékelési metrikák alkalmazása regressziós és osztályozási problémákhoz
- Túlbizonyítás és alulbizonyítás azonosítása és gyakorlati modellválasztási döntések meghozatala
- Jellemzőfontosság értelmezése és a modell viselkedésének megértése
8. modul: Termelés & vállalati gyakorlatok
- Modellek mentése és betöltése Spark-ban
- Kötegelt következtetési folyamatok implementálása nagy adathalmazokon
- A gépi tanulási életciklus megértése vállalati környezetekben
- Bevezetés a verziókezelés, kísérletkövetés alapfogalmakba és alapvető tesztelési stratégiákba
Gyakorlati eredmény
- Képesség a PySpark önálló használatára
- Képesség nagy adathalmazok hatékony feldolgozására
- Képesség jellemzőkészítésre nagy léptékben
- Képesség skálázható gépi tanulási folyamatok felépítésére
Követelmények
A résztvevőknek a következő háttértudással kell rendelkezniük:
Alapvető Python programozási ismeretek, beleértve a függvények, adatszerkezetek és könyvtárak használatát
Alapvető ismeretek az adatelemzési fogalmakról, mint például adathalmazok, transzformációk és aggregációk
Alapvető SQL és relációs adatbázis ismeretek
Bevezető szintű ismeretek a gépi tanulás alapfogalmairól, mint például tanító adathalmazok, jellemzők és értékelési metrikák
Ismeretek a parancssori környezetekről és az alapvető szoftverfejlesztési gyakorlatokról ajánlott
Tapasztalat a Pandas, NumPy vagy hasonló adatfeldolgozó könyvtárakkal hasznos, de nem kötelező.
Vélemények (1)
Szerettek, hogy gyakorlati volt. Örültem annak, hogy a teóriai ismereteket gyakorlati példákkal alkalmazhattam.
Aurelia-Adriana - Allianz Services Romania
Kurzus - Python and Spark for Big Data (PySpark)
Gépi fordítás