Köszönjük, hogy elküldte érdeklődését! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Köszönjük, hogy elküldte foglalását! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Kurzusleírás
Bevezetés, Célok és Migrációs Stratégia
- A képzés céljai, a résztvevő profil megfelelésének megállapítása és a siker kritériumai
- Magas szintű migrációs lehetőségek és kockázatok áttekintése
- Munkaterületek, tárolóhelyek és labor adathalmazok beállítása
1. nap — Migráció Alapjai és Architektúra
- Lakehouse fogalmak, Delta Lake áttekintése és Databricks architektúra
- SMP vs MPP különbségek és a migráció implikációi
- Medallion (Bronze→Silver→Gold) tervezés és Unity Catalog áttekintése
1. nap Labor — Eljárás Fordítása
- Kézi migráció egy mintaeljárásból jegyzetfüzetbe
- Táblák és kurzorok leképezése DataFrame transzformációkkal
- Eredeti kimenet validálása és összevetése
2. nap — Haladó Delta Lake és Fokozatos Bevitel
- ACID tranzakciók, commit naplózás, verziókezelés és időutazás
- Auto Loader, MERGE INTO minták, upserts és sémaevolúció
- OPTIMIZE, VACUUM, Z-ORDER, partícionálás és tárterület finomítása
2. nap Labor — Fokozatos Bevitel és Optimalizálás
- Auto Loader bevitel és MERGE munkafolyamatok megvalósítása
- OPTIMIZE, Z-ORDER és VACUUM alkalmazása; eredmények validálása
- Olvasás/írás teljesítmény javítása mérésével
3. nap — SQL a Databricks-ben, Teljesítmény és Hibaelhárítás
- Analitikus SQL jellemzők: ablak függvények, magasabbrendű függvények, JSON/tömb kezelése
- Spark UI olvasása, DAG-k, adatszórási jelenségek, szakaszok, feladatok és ütemezési hiba diagnosztizálása
- Lekérdezés finomítási minták:.broadcast csatlakoztatás, hint-ek, gyorsítótár és memóriatér lecsökkentése
3. nap Labor — SQL Refaktorálás és Teljesítményfinomítás
- Refaktorálás egy nagy SQL folyamat Spark SQL-ekké
- Spark UI nyomon követése a súlytér és adatszórási problémák megoldásához
- Benchmarking előtt/után, finomítási lépések dokumentálása
4. nap — Taktikai PySpark: Eljárások Logikájának Cseréje
- Spark futtatási modell: vezető, végrehajtók, lassú értékelés és partíciós stratégiák
- Ciklusok és kurzorok vektoros DataFrame műveletekké alakítása
- Modularizálás, UDF-ek/pandas UDF-ek, widget-ek és újrafelhasználható könyvtárak
4. nap Labor — Eljárások Refaktorálása
- Refaktorálás egy eljárásos ETL szkript moduláris PySpark jegyzetfüzetekké
- Parametrizáció, egységtesztelési stílusú tesztek és újrafelhasználható függvények bevezetése
- Kódismétlés és best-practice lista alkalmazása
5. nap — Folyamatvezérlés, End-to-End Pipeline és Best Practices
- Databricks Workflows: feladat tervezése, feladattársviszonyok, indítók és hibakezelés
- Fokozatos Medallion folyamatok tervezése minőségi szabályokkal és séma validálással
- Git (GitHub/Azure DevOps), CI, és PySpark logika tesztelési stratégiák integrálása
5. nap Labor — End-to-End Pipeline Készítése
- Bronze→Silver→Gold folyamat összeállítása Workflows segítségével
- Naplózás, ellenőrzés, újrapróbálkozások és automatikus validációk implementálása
- Teljes folyamat futtatása, kimenetek validálása és üzembeviteli dokumentumok előkészítése
Üzemeltetés, Vezérlés és Üzemkészség
- Unity Catalog vezérlési gyakorlatok: vonatkozás, hozzáférés-ellenőrzés
- Költségvetés, klóster méretezése, automatikus skálázás és feladat konkurencia minták
- Üzembeviteli ellenőrzőlista, visszaállítási stratégiák és futtbók készítése
Záró áttekintés, Tudásátadás és Következő Lépések
- Résztvevői bemutatások a migrációs munkáról és tanult leckékről
- Hiányosságok elemzése, ajánlott következő lépések és képzési anyagok átadása
- Hivatkozások, további tanulási lehetőségek és támogatási opciók
Követelmények
- Az adatelemzési fogalmak megértése
- Tapasztalat az SQL és eljárások (Synapse / SQL Server) használatával
- Ismeret az ETL folyamatkezelési fogalmairól (ADF vagy hasonló)
Célcsoport
- Technológiai vezetők, akik adatelemző háttérrel rendelkeznek
- Adatelemző szakemberek, akik procedurális OLAP logikát Lakehouse mintákba alakítanak át
- Platformmérnökök, akik a Databricks bevezetéséért felelősek
35 Órák