Kurzusleírás

  1. Scala bemutatás

    • A Scala gyors bemutatása
    • Gyakorlati feladatok: Ismerkedés a Scalával
  2. Spark alapjai

    • Háttér és történelem
    • Spark és Hadoop
    • Spark fogalmai és architektúrája
    • Spark ökoszisztémája (core, spark sql, mlib, streaming)
    • Gyakorlati feladatok: Spark telepítése és futtatása
  3. Először ismerkedés a Sparkkal

    • Spark helyi módja futtatása
    • Spark web UI
    • Spark shell
    • Dataset elemzése – rész 1
    • RDD-k ellenőrzése
    • Gyakorlati feladatok: Spark shell ismerkedés
  4. RDD-k (Resilient Distributed Datasets)

    • RDD fogalmai
    • Részletek
    • RDD műveletek / transzformációk
    • RDD típusok
    • Kulcs-érték páros RDD-k
    • MapReduce a RDD-kon
    • Gyorsítótár és megmaradás
    • Gyakorlati feladatok: RDD-k létrehozása és ellenőrzése; Gyorsítótár RDD-k
  5. Spark API programozás

    • A Spark API / RDD API bemutatása
    • Első program elküldése a Spark felé
    • Hibaelhárítás / naplózás
    • Konfigurációs tulajdonságok
    • Gyakorlati feladatok: Programozás a Spark API-ban, feladatok beküldése
  6. Spark SQL

    • A Sparkban történő SQL támogatása
    • Dataframes
    • Táblák definiálása és datasetek importálása
    • SQL használatával data frame-ek lekérdezése
    • Tárolási formátumok: JSON / Parquet
    • Gyakorlati feladatok: Data frame-ek létrehozása és lekérdezése; adatformátumok értékelése
  7. MLlib (Machine Learning Library)

    • A MLlib bemutatása
    • MLlib algoritmusai
    • Gyakorlati feladatok: MLib alkalmazások írása
  8. GraphX (Gráffeldolgozó könyvtár)

    • A GraphX könyvtár áttekintése
    • GraphX API-k
    • Gyakorlati feladatok: Gráf adatelemzés a Spark segítségével
  9. Spark Streaming (Adatkinyűjtő)

    • Adatkinyűjtő áttekintése
    • Adatkinyűjtő platformok értékelése
    • Streaming műveletek
    • Eloszló ablakműveletek
    • Gyakorlati feladatok: Spark streaming alkalmazások írása
  10. Spark és Hadoop

    • Hadoop bemutatása (HDFS / YARN)
    • Hadoop + Spark architektúra
    • Spark futtatása a Hadoop YARN-on
    • HDFS fájlok feldolgozása a Spark segítségével
  11. Spark teljesítmény és optimalizálás

    • Küldési változók
    • Hozzáadósok (Accumulators)
    • Memóriakezelés és gyorsítótár
  12. Spark működés

    • A Spark éles környezetben üzembe helyezése
    • Mintasablonok üzembe helyezésére
    • Konfigurációk
    • Monitorozás
    • Hibaelhárítás

Követelmények

ELŐRETELEPÍTVEK:

Másodfokú ismeret az Java, Scala vagy Python programozási nyelv bármelyikéből (a gyakorlati feladatokban használjuk a Scalát és a Pythont)
Alapvető ismeret a Linux fejlesztési környezetről (parancssori navigáció, fájlok szerkesztése VI vagy nano programmal)

 21 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (6)

Közelgő kurzusok

Rokon kategóriák