Kurzusleírás
-
Scala bemutatás
- A Scala gyors bemutatása
- Gyakorlati feladatok: Ismerkedés a Scalával
-
Spark alapjai
- Háttér és történelem
- Spark és Hadoop
- Spark fogalmai és architektúrája
- Spark ökoszisztémája (core, spark sql, mlib, streaming)
- Gyakorlati feladatok: Spark telepítése és futtatása
-
Először ismerkedés a Sparkkal
- Spark helyi módja futtatása
- Spark web UI
- Spark shell
- Dataset elemzése – rész 1
- RDD-k ellenőrzése
- Gyakorlati feladatok: Spark shell ismerkedés
-
RDD-k (Resilient Distributed Datasets)
- RDD fogalmai
- Részletek
- RDD műveletek / transzformációk
- RDD típusok
- Kulcs-érték páros RDD-k
- MapReduce a RDD-kon
- Gyorsítótár és megmaradás
- Gyakorlati feladatok: RDD-k létrehozása és ellenőrzése; Gyorsítótár RDD-k
-
Spark API programozás
- A Spark API / RDD API bemutatása
- Első program elküldése a Spark felé
- Hibaelhárítás / naplózás
- Konfigurációs tulajdonságok
- Gyakorlati feladatok: Programozás a Spark API-ban, feladatok beküldése
-
Spark SQL
- A Sparkban történő SQL támogatása
- Dataframes
- Táblák definiálása és datasetek importálása
- SQL használatával data frame-ek lekérdezése
- Tárolási formátumok: JSON / Parquet
- Gyakorlati feladatok: Data frame-ek létrehozása és lekérdezése; adatformátumok értékelése
-
MLlib (Machine Learning Library)
- A MLlib bemutatása
- MLlib algoritmusai
- Gyakorlati feladatok: MLib alkalmazások írása
-
GraphX (Gráffeldolgozó könyvtár)
- A GraphX könyvtár áttekintése
- GraphX API-k
- Gyakorlati feladatok: Gráf adatelemzés a Spark segítségével
-
Spark Streaming (Adatkinyűjtő)
- Adatkinyűjtő áttekintése
- Adatkinyűjtő platformok értékelése
- Streaming műveletek
- Eloszló ablakműveletek
- Gyakorlati feladatok: Spark streaming alkalmazások írása
-
Spark és Hadoop
- Hadoop bemutatása (HDFS / YARN)
- Hadoop + Spark architektúra
- Spark futtatása a Hadoop YARN-on
- HDFS fájlok feldolgozása a Spark segítségével
-
Spark teljesítmény és optimalizálás
- Küldési változók
- Hozzáadósok (Accumulators)
- Memóriakezelés és gyorsítótár
-
Spark működés
- A Spark éles környezetben üzembe helyezése
- Mintasablonok üzembe helyezésére
- Konfigurációk
- Monitorozás
- Hibaelhárítás
Követelmények
ELŐRETELEPÍTVEK:
Másodfokú ismeret az Java, Scala vagy Python programozási nyelv bármelyikéből (a gyakorlati feladatokban használjuk a Scalát és a Pythont)
Alapvető ismeret a Linux fejlesztési környezetről (parancssori navigáció, fájlok szerkesztése VI vagy nano programmal)
Vélemények (6)
Egy adott összetevő (Hadoop/Spark, standalone/cluster) működését különböző módszerekkel végzett gyakorlatok valójában segítik az értetőmást, hogy egy-egy alkotóelemek külön és együtt milyen funkciókat láthatnak el. Ez ötleteket adott arra is, hogyan teszteljem az alkalmazásomat helyi gépemen a fejlesztés során vs. amikor egy clusteren van telepítve.
Thomas Carcaud - IT Frankfurt GmbH
Kurzus - Spark for Developers
Gépi fordítás
Ajay nagyon barátságos, segítőkész volt, és tudománytársa volt a tárgyalás tárgyával kapcsolatban.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Kurzus - Spark for Developers
Gépi fordítás
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Kurzus - Spark for Developers
Gépi fordítás
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Kurzus - Spark for Developers
Gépi fordítás
We know a lot more about the whole environment.
John Kidd
Kurzus - Spark for Developers
Gépi fordítás
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Kurzus - Spark for Developers
Gépi fordítás