Kurzusleírás

Bevezetés az Apache Airflowba

  • Mi a munkafolyamat-koordináció
  • Az Apache Airflow legfontosabb jellemzői és előnyei
  • Az Airflow 2.x újdonságai és az ökoszisztéma áttekintése

Architektúra és alapfogalmak

  • Ütemező, web szerver és munkavégző folyamatok
  • DAG-ok, feladatok és operátorok
  • Executorok és háttérrendszerek (Local, Celery, Kubernetes)

Telepítés és beállítás

  • Az Airflow telepítése helyi és felhőbeli környezetekben
  • Az Airflow konfigurálása különböző executorokkal
  • Metaadatbázisok és kapcsolatok beállítása

Az Airflow UI és CLI használata

  • Az Airflow webes felületének felfedezése
  • DAG-ok, feladatok és naplók monitorozása
  • Az Airflow CLI használata adminisztrációs célokra

DAG-ok létrehozása és kezelése

  • DAG-ok készítése a TaskFlow API-val
  • Operátorok, szenzorok és hookok használata
  • Függőségek és ütemezési intervallumok kezelése

Az Airflow integrálása adat- és felhőszolgáltatásokkal

  • Csatlakozás adatbázisokhoz, API-khoz és üzenetsorokhoz
  • ETL folyamatok futtatása az Airflow-val
  • Felhő integrációk: AWS, GCP, Azure operátorok

Monitorozás és megfigyelhetőség

  • Feladatnaplók és valós idejű monitorozás
  • Metrikák Prometheus és Grafana segítségével
  • Értesítések e-mailen vagy Slack-en keresztül

Az Apache Airflow biztonságossá tétele

  • Szerepalapú hozzáférés-vezérlés (RBAC)
  • Hitelesítés LDAP, OAuth és SSO segítségével
  • Titkos kulcsok kezelése Vault és felhőbeli titkos tárolókkal

Az Apache Airflow skálázása

  • Párhuzamosság, konkurencia és feladatsorok
  • CeleryExecutor és KubernetesExecutor használata
  • Az Airflow telepítése Kubernetes-en Helm segítségével

Ajánlott eljárások éles környezetekben

  • Verziókövetés és CI/CD DAG-okhoz
  • DAG-ok tesztelése és hibakeresése
  • Megbízhatóság és teljesítmény fenntartása nagy léptékben

Hibaelhárítás és optimalizálás

  • Sikertelen DAG-ok és feladatok hibakeresése
  • DAG teljesítményének optimalizálása
  • Gyakori buktatók és azok elkerülése

Összefoglalás és következő lépések

Követelmények

  • Tapasztalat Python programozásban
  • Ismeret a data engineering vagy DevOps koncepciókban
  • Érdeklődés az ETL vagy munkafolyamat-koordináció iránt

Célközönség

  • Adattudósok
  • Adatmérnökök
  • DevOps és infrastruktúra mérnökök
  • Szoftverfejlesztők
 21 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (7)

Közelgő kurzusok

Rokon kategóriák