Kurzusleírás

Apache Airflow bevezetése

  • Miből áll a munkafolyamat koordinálás
  • Az Apache Airflow főbb tulajdonságai és előnyei
  • Az Airflow 2.x javításai és az ökoszisztéma áttekintése

Architektúra és alapelvek

  • Scheduler, webszerver, és munkamenet folyamatok
  • DAG-ok, feladatok, és operátorok
  • Executorok és háttérrendszerek (Local, Celery, Kubernetes)

Telepítés és konfigurálás

  • Az Airflow telepítése helyi és felhő környezetekben
  • Az Airflow konfigurálása különböző executorokkal
  • Metaadatbázisok és kapcsolatok beállítása

Az Airflow UI és CLI navigálása

  • Az Airflow webes felület felfedezése
  • DAG futások, feladatok, és naplók monitorozása
  • Az Airflow CLI használata az adminisztrációhoz

DAG-ok létrehozása és kezelése

  • DAG-ok létrehozása a TaskFlow API segítségével
  • Operátorok, szenzorok, és hookok használata
  • Függenységek és időzítési intervallumok kezelése

Az Airflow integrálása adat és felhő szolgáltatásokkal

  • Adatbázisok, API-k, és üzenősorok csatlakoztatása
  • ETL folyamatok futtatása Airflow-al
  • Felhő integrációk: AWS, GCP, Azure operátorok

Monitorozás és megfigyelhetőség

  • Feladat naplók és valós idejű monitorozás
  • Metrikák Prometheus és Grafana segítségével
  • Értesítések e-mail vagy Slack segítségével

Az Apache Airflow biztonságosítása

  • Szerep alapú hozzáférés irányítás (RBAC)
  • Hitelesítés LDAP, OAuth, és SSO segítségével
  • Titkosítás a Vault és felhő titkos tárolókkal

Az Apache Airflow skalálása

  • Párhuzamosítás, egyidejűség, és feladat sorok
  • CeleryExecutor és KubernetesExecutor használata
  • Airflow telepítése Kubernetes-en Helm segítségével

Best practices a termelési környezetben

  • Verziókontroll és CI/CD a DAG-okhoz
  • DAG-ok tesztelése és hibakeresése
  • Biztonság és teljesítmény fenntartása nagy méretben

Hibaelhárítás és optimalizálás

  • Sikló DAG-ok és feladatok hibakeresése
  • DAG teljesítmény optimalizálása
  • Gyakori hibaforrások és azok kerülése

Összegzés és következtetések

Követelmények

  • Python programozási tapasztalat
  • Ismeret a data engineering vagy DevOps fogalmakról
  • ETL vagy munkafolyamat-közvetítés megértése

Célközönség

  • Adat tudósok
  • Data engineers
  • DevOps és infrastruktúra mérnökök
  • Szoftverfejlesztők
 21 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (7)

Közelgő kurzusok

Rokon kategóriák