Kurzusleírás

Bevezetés, Célok és Migrációs Stratégia

  • A képzés céljai, a résztvevő profil megfelelésének megállapítása és a siker kritériumai
  • Magas szintű migrációs lehetőségek és kockázatok áttekintése
  • Munkaterületek, tárolóhelyek és labor adathalmazok beállítása

1. nap — Migráció Alapjai és Architektúra

  • Lakehouse fogalmak, Delta Lake áttekintése és Databricks architektúra
  • SMP vs MPP különbségek és a migráció implikációi
  • Medallion (Bronze→Silver→Gold) tervezés és Unity Catalog áttekintése

1. nap Labor — Eljárás Fordítása

  • Kézi migráció egy mintaeljárásból jegyzetfüzetbe
  • Táblák és kurzorok leképezése DataFrame transzformációkkal
  • Eredeti kimenet validálása és összevetése

2. nap — Haladó Delta Lake és Fokozatos Bevitel

  • ACID tranzakciók, commit naplózás, verziókezelés és időutazás
  • Auto Loader, MERGE INTO minták, upserts és sémaevolúció
  • OPTIMIZE, VACUUM, Z-ORDER, partícionálás és tárterület finomítása

2. nap Labor — Fokozatos Bevitel és Optimalizálás

  • Auto Loader bevitel és MERGE munkafolyamatok megvalósítása
  • OPTIMIZE, Z-ORDER és VACUUM alkalmazása; eredmények validálása
  • Olvasás/írás teljesítmény javítása mérésével

3. nap — SQL a Databricks-ben, Teljesítmény és Hibaelhárítás

  • Analitikus SQL jellemzők: ablak függvények, magasabbrendű függvények, JSON/tömb kezelése
  • Spark UI olvasása, DAG-k, adatszórási jelenségek, szakaszok, feladatok és ütemezési hiba diagnosztizálása
  • Lekérdezés finomítási minták:.broadcast csatlakoztatás, hint-ek, gyorsítótár és memóriatér lecsökkentése

3. nap Labor — SQL Refaktorálás és Teljesítményfinomítás

  • Refaktorálás egy nagy SQL folyamat Spark SQL-ekké
  • Spark UI nyomon követése a súlytér és adatszórási problémák megoldásához
  • Benchmarking előtt/után, finomítási lépések dokumentálása

4. nap — Taktikai PySpark: Eljárások Logikájának Cseréje

  • Spark futtatási modell: vezető, végrehajtók, lassú értékelés és partíciós stratégiák
  • Ciklusok és kurzorok vektoros DataFrame műveletekké alakítása
  • Modularizálás, UDF-ek/pandas UDF-ek, widget-ek és újrafelhasználható könyvtárak

4. nap Labor — Eljárások Refaktorálása

  • Refaktorálás egy eljárásos ETL szkript moduláris PySpark jegyzetfüzetekké
  • Parametrizáció, egységtesztelési stílusú tesztek és újrafelhasználható függvények bevezetése
  • Kódismétlés és best-practice lista alkalmazása

5. nap — Folyamatvezérlés, End-to-End Pipeline és Best Practices

  • Databricks Workflows: feladat tervezése, feladattársviszonyok, indítók és hibakezelés
  • Fokozatos Medallion folyamatok tervezése minőségi szabályokkal és séma validálással
  • Git (GitHub/Azure DevOps), CI, és PySpark logika tesztelési stratégiák integrálása

5. nap Labor — End-to-End Pipeline Készítése

  • Bronze→Silver→Gold folyamat összeállítása Workflows segítségével
  • Naplózás, ellenőrzés, újrapróbálkozások és automatikus validációk implementálása
  • Teljes folyamat futtatása, kimenetek validálása és üzembeviteli dokumentumok előkészítése

Üzemeltetés, Vezérlés és Üzemkészség

  • Unity Catalog vezérlési gyakorlatok: vonatkozás, hozzáférés-ellenőrzés
  • Költségvetés, klóster méretezése, automatikus skálázás és feladat konkurencia minták
  • Üzembeviteli ellenőrzőlista, visszaállítási stratégiák és futtbók készítése

Záró áttekintés, Tudásátadás és Következő Lépések

  • Résztvevői bemutatások a migrációs munkáról és tanult leckékről
  • Hiányosságok elemzése, ajánlott következő lépések és képzési anyagok átadása
  • Hivatkozások, további tanulási lehetőségek és támogatási opciók

Követelmények

  • Az adatelemzési fogalmak megértése
  • Tapasztalat az SQL és eljárások (Synapse / SQL Server) használatával
  • Ismeret az ETL folyamatkezelési fogalmairól (ADF vagy hasonló)

Célcsoport

  • Technológiai vezetők, akik adatelemző háttérrel rendelkeznek
  • Adatelemző szakemberek, akik procedurális OLAP logikát Lakehouse mintákba alakítanak át
  • Platformmérnökök, akik a Databricks bevezetéséért felelősek
 35 Órák

Résztvevők száma


Ár résztvevőnként

Közelgő kurzusok

Rokon kategóriák