Kurzusleírás

Bevezetés:

  • Apache Spark in Hadoop Ökoszisztéma
  • Rövid bevezető a python-hoz, scala-hoz

Alapok (elmélet):

  • Építészet
  • RDD
  • Átalakulás és cselekvések
  • Színpad, feladat, függőségek

A Databricks környezet használatával ismerje meg az alapokat (gyakorlati műhely):

  • Gyakorlatok RDD API használatával
  • Alapvető cselekvési és transzformációs függvények
  • PárRDD
  • Csatlakozik
  • Gyorsítótárazási stratégiák
  • Gyakorlatok a DataFrame API használatával
  • SparkSQL
  • DataFrame: kijelölés, szűrés, csoportosítás, rendezés
  • UDF (felhasználó által meghatározott függvény)
  • A DataSet API vizsgálata
  • Folyó

Az AWS környezet használatával ismerje meg a telepítést (gyakorlati műhely):

  • Az AWS ragasztó alapjai
  • Ismerje meg az AWS EMR és az AWS ragasztó közötti különbségeket
  • Példamunkák mindkét környezetben
  • Értse meg az előnyöket és hátrányokat

Külön:

  • Bevezetés a Apache Airflow hangszerelésbe

Követelmények

Programozási ismeretek (lehetőleg python, scala)

SQL alapok

 21 Hours

Résztvevők száma



Ár per résztvevő

Vélemények (3)

Rokon tanfolyam

Big Data Analytics in Health

21 Hours

Rokon kategóriák