Kurzusleírás

Bevezetés:

  • Apache Spark in Hadoop Ökoszisztéma
  • Rövid bevezető a python-hoz, scala-hoz

Alapok (elmélet):

  • Építészet
  • RDD
  • Átalakulás és cselekvések
  • Színpad, feladat, függőségek

A Databricks környezet használatával ismerje meg az alapokat (gyakorlati műhely):

  • Gyakorlatok RDD API használatával
  • Alapvető cselekvési és transzformációs függvények
  • PárRDD
  • Csatlakozik
  • Gyorsítótárazási stratégiák
  • Gyakorlatok a DataFrame API használatával
  • SparkSQL
  • DataFrame: kijelölés, szűrés, csoportosítás, rendezés
  • UDF (felhasználó által meghatározott függvény)
  • A DataSet API vizsgálata
  • Folyó

Az AWS környezet használatával ismerje meg a telepítést (gyakorlati műhely):

  • Az AWS ragasztó alapjai
  • Ismerje meg az AWS EMR és az AWS ragasztó közötti különbségeket
  • Példamunkák mindkét környezetben
  • Értse meg az előnyöket és hátrányokat

Külön:

  • Bevezetés a Apache Airflow hangszerelésbe

Követelmények

Programozási ismeretek (lehetőleg python, scala)

SQL alapok

  21 Hours
 

Résztvevők száma


Tanfolyam kezdete

Tanfolyam vége


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Vélemények (3)

Rokon tanfolyam

Big Data Analytics in Health

  21 Hours

Rokon kategóriák