Lépjen kapcsolatba velünk

Kurzusleírás

PySpark & gépi tanulás 

1. modul: Big Data & Spark alapok

  • Áttekintés a Big Data ökoszisztémáról és a Spark szerepéről a modern adatplatformokban
  • A Spark architektúra megértése: driver, executors, cluster manager, lusta kiértékelés, DAG és végrehajtási tervezés
  • Az RDD és DataFrame API-k közötti különbségek és mikor melyiket érdemes használni
  • SparkSession létrehozása és konfigurálása, valamint az alkalmazás konfigurációs alapok megértése

2. modul: PySpark DataFrames

  • Adatok olvasása és írása vállalati forrásokból és formátumokból (CSV, JSON, Parquet, Delta)
  • Munka PySpark DataFrames-szel: transzformációk, műveletek, oszlopkifejezések, szűrés, illesztések és aggregációk
  • Speciális műveletek implementálása, mint például ablakfüggvények, időbélyegek kezelése és beágyazott adatok kezelése
  • Adatminőség-ellenőrzések alkalmazása és újrafelhasználható, karbantartható PySpark kód írása

3. modul: Nagy adathalmazok hatékony feldolgozása

  • Teljesítményalapok megértése: particionálási stratégiák, shuffle viselkedés, gyorsítótárazás és perzisztencia
  • Optimalizálási technikák használata, beleértve a broadcast join-okat és a végrehajtási terv elemzését
  • Nagy adathalmazok hatékony feldolgozása és skálázható adatfolyamatokra vonatkozó ajánlott eljárások
  • Sémafejlődés megértése és a vállalati környezetekben használt modern tárolási formátumok

4. modul: Jellemzőkészítés nagy léptékben

  • Jellemzőkészítés a Spark MLlib segítségével: hiányzó értékek kezelése, kategorikus változók kódolása és jellemzőskálázás
  • Újrafelhasználható előfeldolgozási lépések tervezése és adathalmazok előkészítése a gépi tanulási folyamatokhoz
  • Bevezetés a jellemzőkiválasztásba és az egyenetlen adathalmazok kezelésébe

5. modul: Gépi tanulás Spark MLlib-vel

  • Az MLlib architektúra és az Estimator/Transformer minta megértése
  • Regressziós és osztályozási modellek betanítása nagy léptékben (Lineáris regresszió, Logisztikus regresszió, Döntési fák, Véletlen erdő)
  • Modellek összehasonlítása és eredmények értelmezése elosztott gépi tanulási folyamatokban

6. modul: Teljes gépi tanulási folyamatok

  • Teljes gépi tanulási folyamatok felépítése, amelyek kombinálják az előfeldolgozást, a jellemzőkészítést és a modellezést
  • Tanítás/érvényesítés/tesztelés felosztási stratégiák alkalmazása
  • Keresztvalidáció és hiperparaméter-hangolás végrehajtása grid search és random search segítségével
  • Reprodukálható gépi tanulási kísérletek strukturálása

7. modul: Modellértékelés & gyakorlati gépi tanulási döntéshozatal

  • Megfelelő értékelési metrikák alkalmazása regressziós és osztályozási problémákhoz
  • Túlbizonyítás és alulbizonyítás azonosítása és gyakorlati modellválasztási döntések meghozatala
  • Jellemzőfontosság értelmezése és a modell viselkedésének megértése

8. modul: Termelés & vállalati gyakorlatok

  • Modellek mentése és betöltése Spark-ban
  • Kötegelt következtetési folyamatok implementálása nagy adathalmazokon
  • A gépi tanulási életciklus megértése vállalati környezetekben
  • Bevezetés a verziókezelés, kísérletkövetés alapfogalmakba és alapvető tesztelési stratégiákba

 

Gyakorlati eredmény

  • Képesség a PySpark önálló használatára
  • Képesség nagy adathalmazok hatékony feldolgozására
  • Képesség jellemzőkészítésre nagy léptékben
  • Képesség skálázható gépi tanulási folyamatok felépítésére

Követelmények

A résztvevőknek a következő háttértudással kell rendelkezniük:

Alapvető Python programozási ismeretek, beleértve a függvények, adatszerkezetek és könyvtárak használatát
Alapvető ismeretek az adatelemzési fogalmakról, mint például adathalmazok, transzformációk és aggregációk
Alapvető SQL és relációs adatbázis ismeretek
Bevezető szintű ismeretek a gépi tanulás alapfogalmairól, mint például tanító adathalmazok, jellemzők és értékelési metrikák
Ismeretek a parancssori környezetekről és az alapvető szoftverfejlesztési gyakorlatokról ajánlott

Tapasztalat a Pandas, NumPy vagy hasonló adatfeldolgozó könyvtárakkal hasznos, de nem kötelező.

 21 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (1)

Közelgő kurzusok

Rokon kategóriák