Kurzusleírás

Bevezetés:

  • Az Apache Spark a Hadoop ökoszisztémában
  • Rövid bevezetés a python és scala használatába

Alapok (elmélet):

  • Architektúra
  • RDD
  • Transzformációk és műveletek
  • Stádium, feladat, függőségek

A Databricks környezet használatával az alapok megértése (gyakorlati workshop):

  • Feladatok az RDD API használatával
  • Alapvető műveleti és transzformációs függvények
  • PairRDD
  • Join
  • Gyorsítótár stratégiák
  • Feladatok a DataFrame API használatával
  • SparkSQL
  • DataFrame: kiválasztás, szűrés, csoportosítás, rendezés
  • UDF (User Defined Function)
  • Bemutatkozás a DataSet API használatába
  • Streaming

Az AWS környezet használatával az üzembe helyezés megértése (gyakorlati workshop):

  • Az AWS Glue alapjai
  • Az AWS EMR és az AWS Glue közötti különbségek megértése
  • Példa feladatok mindkét környezetben
  • Az előnyök és hátrányok megértése

Extra:

  • Bevezetés az Apache Airflow orchestrációba

Követelmények

Programozási ismeretek (előnyösen python, scala)

SQL alapok

 21 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (3)

Közelgő kurzusok

Rokon kategóriák