Kurzusleírás
Bevezetés, Célok és Migrációs Stratégia
- A képzés céljai, résztvevők profiljának összehangolása és sikerességi kritériumok
- Magas szintű migrációs megközelítések és kockázati megfontolások
- Munkaterületek, tárolók és laboratóriumi adathalmazok beállítása
1. Nap — Migrációs Alapok és Architektúra
- Lakehouse fogalmak, Delta Lake áttekintés és Databricks architektúra
- SMP és MPP különbségek és migrációs hatásaik
- Medallion (Bronze→Silver→Gold) tervezés és Unity Catalog áttekintés
1. Nap Labor — Tárolt Eljárás Átültetése
- Egy minta tárolt eljárás gyakorlati átültetése notebookba
- Ideiglenes táblák és kurzorok leképezése DataFrame transzformációkra
- Ellenőrzés és összehasonlítás az eredeti kimenettel
2. Nap — Haladó Delta Lake & Növekményes Betöltés
- ACID tranzakciók, commit naplók, verziókezelés és időutazás
- Auto Loader, MERGE INTO minták, upsert-ek és sémaváltozás
- OPTIMIZE, VACUUM, Z-ORDER, particionálás és tárolóhangolás
2. Nap Labor — Növekményes Betöltés & Optimalizálás
- Auto Loader betöltés és MERGE munkafolyamatok implementálása
- OPTIMIZE, Z-ORDER és VACUUM alkalmazása; eredmények ellenőrzése
- Olvasási/írási teljesítmény javítások mérése
3. Nap — SQL a Databricks-ben, Teljesítmény & Hibakeresés
- Analitikai SQL funkciók: ablakfüggvények, magasabb rendű függvények, JSON/tömb kezelés
- A Spark UI olvasása, DAG-ok, shuffle-ok, szakaszok, feladatok és szűk keresztmetszetek diagnosztizálása
- Lekérdezés-hangolási minták: broadcast join-ok, tippek, gyorsítótár és spill csökkentés
3. Nap Labor — SQL Átalakítás & Teljesítmény Hangolás
- Nehéz SQL folyamat átalakítása optimalizált Spark SQL-re
- Spark UI nyomok használata a skew és shuffle problémák azonosításához és javításához
- Előtte/utána benchmarkolás és hangolási lépések dokumentálása
4. Nap — Taktikai PySpark: Eljárásalapú Logika Cseréje
- Spark végrehajtási modell: driver, executors, lusta kiértékelés és particionálási stratégiák
- Ciklusok és kurzorok átalakítása vektorizált DataFrame műveletekké
- Modularizálás, UDF-ek/pandas UDF-ek, widgetek és újrafelhasználható könyvtárak
4. Nap Labor — Eljárásalapú Szkriptek Átalakítása
- Egy eljárásalapú ETL szkript átalakítása moduláris PySpark notebookokká
- Paraméterezés, egységstílusú tesztek és újrafelhasználható függvények bevezetése
- Kód áttekintés és ajánlott gyakorlatok ellenőrzése
5. Nap — Koordináció, Végpontok Közötti Folyamat & Ajánlott Gyakorlatok
- Databricks Workflows: feladattervezés, feladatfüggőségek, triggerek és hibakezelés
- Növekményes Medallion folyamatok tervezése minőségi szabályokkal és sémavizsgálattal
- Integráció Git-tel (GitHub/Azure DevOps), CI és tesztelési stratégiák PySpark logikához
5. Nap Labor — Teljes Végpontok Közötti Folyamat Építése
- Bronze→Silver→Gold folyamat összeállítása Workflows koordinációval
- Naplózás, auditálás, újrapróbálkozások és automatizált ellenőrzések implementálása
- Teljes folyamat futtatása, kimenetek ellenőrzése és üzembe helyezési jegyzetek készítése
Üzembehelyezés, Governancia és Éles Környezetre Való Felkészülés
- Unity Catalog governancia, leszármaztatás és hozzáférés-vezérlés ajánlott gyakorlatai
- Költségek, klaszter méretezés, autoszkálázás és feladatpárhuzamosítási minták
- Üzembe helyezési ellenőrzőlisták, visszaállítási stratégiák és runbook készítés
Végső Áttekintés, Tudásátadás és Következő Lépések
- Résztevők bemutatója a migrációs munkáról és a tanulságokról
- Hiányelemzés, ajánlott következő lépések és képzési anyagok átadása
- Referenciák, további tanulási útvonalak és támogatási lehetőségek
Követelmények
- Az adatmérnöki fogalmak ismerete
- Tapasztalat SQL és tárolt eljárások terén (Synapse / SQL Server)
- Ismeret az ETL koordinációs fogalmakban (ADF vagy hasonló)
Célközönség
- Adatmérnöki háttérrel rendelkező technológiai menedzserek
- Adatmérnökök, akik eljárásalapú OLAP logikát szeretnének áttelepíteni Lakehouse mintákra
- Platformmérnökök, akik a Databricks bevezetéséért felelősek