Spark for Developers Képzés
CÉLKITŰZÉS:
Ez a tanfolyam bemutatja az Apache Spark . A hallgatók megtanulják, hogyan illeszkedik a Spark a Big Data ökoszisztémájához, és hogyan lehet a Sparkot használni az adatok elemzéséhez. A tanfolyam kiterjed a Spark shellre az interaktív adatelemzéshez, a Spark belső részei, a Spark API-k, a Spark SQL , a Spark streaming, valamint a gépi tanulás és a graphX számára.
ÖSSZETÉTEL:
Fejlesztők / adatelemzők
Kurzusleírás
- Scala primer A Scala Labs gyors bemutatása: A Scala Spark alapjainak megismerése Háttér és előzmények Spark és Hadoop Spark koncepciók és architektúra Spark ökorendszer (core, spark sql, mlib, streaming) Labs : A Spark First Look telepítése és futtatása a Spark Running Spark alkalmazásban helyi mód Spark web UI Spark shell Adatkészlet elemzése – 1. rész RDD-k vizsgálata Labs: Spark shell feltárása RDD-k RDD-koncepciói Partíciók RDD-műveletek / átalakítások RDD-típusok Kulcs-érték pár RDD-k MapReduce on RDD Gyorsítótárazás és perzisztencia Labs: RDD-k létrehozása és ellenőrzése; RDD-k gyorsítótárazása Spark API programozás Bevezetés a Spark API-ba / RDD API Az első program beküldése a Sparkba Hibakeresés/naplózás Konfigurációs tulajdonságok Laboratóriumok : Programozás Spark API-ban, Feladatok beküldése Spark SQL SQL támogatás Spark adatkeretekben Táblázatok meghatározása és adatkészletek importálása Adatok lekérdezése keretek SQL használatával Tárolási formátumok : JSON / Parquet Labs : Adatkeretek létrehozása és lekérdezése; adatformátumok kiértékelése MLlib MLlib intro MLlib algoritmusok Labs : MLib alkalmazások írása GraphX GraphX könyvtár áttekintése GraphX API-k Labs : Grafikonadatok feldolgozása Spark Spark Streaming segítségével Streaming áttekintés Streaming platformok értékelése Streamelési műveletek Csúszóablak műveletek Hadoopk Indoopk Labs : Alkalmazások írása Spark és spartro HDFS / YARN) Hadoop + Spark architektúra Spark futtatása Hadoop YARN-on HDFS-fájlok feldolgozása a Spark Spark teljesítmény és hangolás segítségével, a közvetítési változók Akkumulátorok Memóriakezelés és gyorsítótár Spark-műveletek A Spark üzembe helyezése az éles környezetben Minta telepítési sablonok Konfigurációk Figyelés Hibaelhárítás
Követelmények
ELŐFELTÉTELEK
Java / Scala / Python nyelv ismerete (laboratóriumaink a Scala és Python nyelveken) a Linux fejlesztői környezet alapvető ismerete (parancssori navigáció / fájlok szerkesztése VI vagy nano használatával)
A nyílt képzésekhez 5+ résztvevő szükséges.
Spark for Developers Képzés - Booking
Spark for Developers Képzés - Enquiry
Spark for Developers - Érdeklődjön a vezetői tanácsadásról!
Érdeklődjön a vezetői tanácsadásról!
Vélemények (6)
Egy adott összetevő (Hadoop/Spark, standalone/cluster) működését különböző módszerekkel végzett gyakorlatok valójában segítik az értetőmást, hogy egy-egy alkotóelemek külön és együtt milyen funkciókat láthatnak el. Ez ötleteket adott arra is, hogyan teszteljem az alkalmazásomat helyi gépemen a fejlesztés során vs. amikor egy clusteren van telepítve.
Thomas Carcaud - IT Frankfurt GmbH
Kurzus - Spark for Developers
Gépi fordítás
Ajay nagyon barátságos, segítőkész volt, és tudománytársa volt a tárgyalás tárgyával kapcsolatban.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Kurzus - Spark for Developers
Gépi fordítás
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Kurzus - Spark for Developers
Gépi fordítás
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Kurzus - Spark for Developers
Gépi fordítás
We know a lot more about the whole environment.
John Kidd
Kurzus - Spark for Developers
Gépi fordítás
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Kurzus - Spark for Developers
Gépi fordítás
Közelgő kurzusok
Rokon tanfolyam
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 ÓrákEz a kurzus azoknak a fejlesztőknek és adattudósoknak szól, akik szeretnék megérteni és megvalósítani a mesterséges intelligenciát alkalmazásaikban. Különös hangsúlyt kap az adatelemzés, az elosztott mesterséges intelligencia és a természetes nyelvi feldolgozás.
Big Data Analytics in Health
21 ÓrákA nagy adatelemzés magában foglalja a nagy mennyiségű, változatos adatkészlet vizsgálatát a korrelációk, rejtett minták és egyéb hasznos betekintések feltárása érdekében.
Az egészségügyi ágazat hatalmas mennyiségű komplex, heterogén orvosi és klinikai adatot tartalmaz. A nagy adatelemzés alkalmazása az egészségügyi adatokra hatalmas potenciállal jár ahhoz, hogy betekintést szerezzen az egészségügyi ellátás javításában. Ezen adatkészletek hatalmassága azonban nagy kihívást jelent az elemzésekben és a klinikai környezetben történő gyakorlati alkalmazásokban.
Ebben az oktató által vezetett, élő (távoli) képzésen a résztvevők megtanulják, hogyan végezzen nagy adatelemzést az egészségben, miközben gyakorlati élő laboratóriumi gyakorlatokat végeznek.
A képzés végére a résztvevők képesek lesznek:
- Telepítse és konfigurálja a nagy adatelemző eszközöket, például a Hadoop MapReduce és a Spark
- Megérteni az orvosi adatok jellemzőit
- Nagyméretű technikák alkalmazása az orvosi adatok kezelésére
- Tanulmányozza a nagy adatrendszereket és algoritmusokat az egészségügyi alkalmazások összefüggésében
Közönség
- Fejlesztők
- Adattudósok
A tantárgy formátuma
- Részleges előadás, részleges beszélgetés, gyakorlatok és nehéz gyakorlati gyakorlat.
jegyzet
- Ahhoz, hogy igényeljen személyre szabott képzést erre a kurzusra, kérjük, vegye fel velünk a kapcsolatot, hogy megbeszéljünk.
Introduction to Graph Computing
28 ÓrákEzen az oktató által vezetett, élő képzésen a Magyarország-ban a résztvevők megismerkedhetnek a technológiai kínálatokkal és a grafikonadatok feldolgozásának megvalósítási módszereivel. A cél a valós objektumok, jellemzőik és kapcsolataik azonosítása, majd a kapcsolatok modellezése és adatként való feldolgozása Graph Computing (más néven Graph Analytics) megközelítéssel. Kezdjük egy átfogó áttekintéssel, és leszűkítjük a konkrét eszközöket, miközben esettanulmányok, gyakorlati gyakorlatok és élő telepítések sorozatán lépkedünk végig.
A képzés végére a résztvevők képesek lesznek:
- Ismerje meg a grafikonadatok megőrzését és bejárását.
- Válassza ki a legjobb keretrendszert egy adott feladathoz (a gráfadatbázisoktól a kötegelt feldolgozási keretrendszerekig).
- A Hadoop, a Spark, GraphX és a Pregel megvalósítása számos gépen párhuzamosan végezhet gráfszámítást.
- Tekintse meg a valós világban felmerülő big data problémákat grafikonok, folyamatok és bejárások formájában.
Hadoop and Spark for Administrators
35 ÓrákEz az oktató által vezetett, élő képzés a Magyarország-ban (online vagy helyszíni) azoknak a rendszergazdáknak szól, akik szeretnék megtanulni, hogyan állíthatnak be, telepíthetnek és kezelhetnek Hadoop fürtöket szervezetükön belül.
A képzés végére a résztvevők képesek lesznek:
- Telepítse és konfigurálja az Apache Hadoop-ot.
- Ismerje meg a Hadoop ökoszisztéma négy fő összetevőjét: HDFS, MapReduce, YARN és Hadoop Common.
- A Hadoop Distributed File System (HDFS) segítségével a fürt több száz vagy több ezer csomópontra méretezhető.
- Állítsa be a HDFS-t, hogy tárolómotorként működjön a helyszíni Spark-telepítésekhez.
- Állítsa be a Sparkot az olyan alternatív tárolási megoldások eléréséhez, mint az Amazon S3 és a NoSQL adatbázisrendszerek, például a Redis, az Elasticsearch, a Couchbase, az Aerospike stb.
- Adminisztratív feladatok végrehajtása, például egy Apache Hadoop-fürt létrehozása, kezelése, figyelése és biztonsága.
Hortonworks Data Platform (HDP) for Administrators
21 ÓrákEz az oktató által vezetett, élő képzés a Magyarország-ban (online vagy helyszíni) bemutatja Hortonworks Data Platform (HDP)-et, és végigvezeti a résztvevőket a Spark + Hadoop megoldás bevezetésén.
A képzés végére a résztvevők képesek lesznek:
- A Hortonworks segítségével megbízhatóan futtathatja a Hadoop-t nagy léptékben.
- Egyesítse a Hadoop biztonsági, irányítási és működési képességeit a Spark agilis analitikai munkafolyamataival.
- A Hortonworks segítségével vizsgálja meg, érvényesítse, hitelesítse és támogassa a Spark-projekt egyes összetevőit.
- Különböző típusú adatokat dolgozhat fel, beleértve a strukturált, strukturálatlan, mozgásban lévő és nyugalmi adatokat.
A Practical Introduction to Stream Processing
21 ÓrákEzen az oktató által vezetett, élő képzésen a Magyarország-ban (helyszíni vagy távoli) a résztvevők megtanulják, hogyan állíthatnak be és integrálhatnak különböző Stream Processing keretrendszereket a meglévő nagy adattároló rendszerekkel, valamint a kapcsolódó szoftveralkalmazásokkal és mikroszolgáltatásokkal.
A képzés végére a résztvevők képesek lesznek:
- Telepítsen és konfiguráljon különböző Stream Processing keretrendszereket, mint például a Spark Streaming és a Kafka Streaming.
- Ismerje meg és válassza ki a legmegfelelőbb keretet a munkához.
- Adatfeldolgozás folyamatosan, párhuzamosan és rekordonként.
- Integrálja Stream Processing megoldásait meglévő adatbázisokkal, adattárházakkal, adattókkal stb.
- Integrálja a legmegfelelőbb adatfolyam-feldolgozási könyvtárat a vállalati alkalmazásokkal és mikroszolgáltatásokkal.
SMACK Stack for Data Science
14 ÓrákEz az oktató által vezetett, élő képzés a Magyarország-ban (online vagy helyszíni) azoknak az adattudósoknak szól, akik a SMACK verem segítségével adatfeldolgozási platformokat szeretnének felépíteni big data megoldásokhoz.
A képzés végére a résztvevők képesek lesznek:
- Valósítson meg egy adatfolyam-architektúrát a nagy adatok feldolgozásához.
- Fürt infrastruktúra fejlesztése Apache Mesos és Docker segítségével.
- Elemezze az adatokat a Spark és a Scala segítségével.
- Kezelje a strukturálatlan adatokat az Apache Cassandra segítségével.
Apache Spark Fundamentals
21 ÓrákEz az oktató által vezetett, élő képzés a Magyarország-ban (online vagy helyszíni) azoknak a mérnököknek szól, akik Apache Spark rendszert szeretnének felállítani és telepíteni nagyon nagy mennyiségű adat feldolgozására.
A képzés végére a résztvevők képesek lesznek:
- Telepítse és konfigurálja az Apache Sparkot.
- Nagyon nagy adatkészletek gyors feldolgozása és elemzése.
- Ismerje meg az Apache Spark és az Hadoop MapReduce közötti különbséget, és hogy mikor melyiket használja.
- Integrálja az Apache Sparkot más gépi tanulási eszközökkel.
Apache Spark in the Cloud
21 ÓrákApache Spark tanulási görbéje eleinte lassan növekszik, sok erőfeszítésre van szükség az első visszatéréshez. Ez a tanfolyam célja az első nehéz rész átlépése. A tanfolyam elvégzése után a résztvevők megértik az Apache Spark alapjait, egyértelműen megkülönböztetik az RDD-t a DataFrame-től, megtanulják a Python és a Scala API-kat, megértik a végrehajtókat és a feladatokat, stb. A bevált gyakorlatokat követve ez a kurzus erősen a következőkre koncentrál: felhő telepítése, Databricks és AWS. A hallgatók megértik az AWS EMR és az AWS Glue, az AWS egyik legújabb Spark szolgáltatásának különbségeit is.
KÖZÖNSÉG:
DevOps , DevOps , Data Scientist
Scaling Data Pipelines with Spark NLP
14 ÓrákEz az oktató által vezetett, élő képzés a Magyarország-ban (online vagy helyszíni) azoknak az adattudósoknak és fejlesztőknek szól, akik a Apache Spark-ra épülő Spark NLP-et szeretnék használni természetes nyelvi szövegfeldolgozás fejlesztésére, megvalósítására és méretezésére. modellek és csővezetékek.
A képzés végére a résztvevők képesek lesznek:
- Állítsa be a szükséges fejlesztői környezetet az NLP-folyamatok építésének megkezdéséhez az Spark NLP segítségével.
- Ismerje meg a Spark NLP használatának jellemzőit, architektúráját és előnyeit.
- A szövegfeldolgozás megvalósításához használja az Spark NLP-ben elérhető előre betanított modelleket.
- Tanulja meg, hogyan készíthet, taníthat és méretezhet Spark NLP modelleket gyártási szintű projektekhez.
- Alkalmazzon osztályozást, következtetést és hangulatelemzést a valós használati esetekre (klinikai adatok, vásárlói viselkedési betekintések stb.).
Python and Spark for Big Data (PySpark)
21 ÓrákEzen az oktató által vezetett, élő képzésen a Magyarország-ban a résztvevők megtanulják, hogyan használhatják a Python-t és a Spark-ot a nagy adatok elemzésére, miközben gyakorlati gyakorlatokon dolgoznak.
A képzés végére a résztvevők képesek lesznek:
- Ismerje meg, hogyan használja a Sparkot a Python-val a Big Data elemzéséhez.
- Dolgozz olyan gyakorlatokon, amelyek a valós eseteket utánozzák.
- Használjon különféle eszközöket és technikákat a nagy adatelemzéshez az PySpark segítségével.
Python, Spark, and Hadoop for Big Data
21 ÓrákEz az oktató által vezetett, élő képzés a Magyarország-ban (online vagy helyszíni) azoknak a fejlesztőknek szól, akik szeretnék használni és integrálni a Sparkot, Hadoop és Python nagy és összetett adatkészletek feldolgozására, elemzésére és átalakítására.
A képzés végére a résztvevők képesek lesznek:
- Állítsa be a szükséges környezetet a nagy adatfeldolgozás megkezdéséhez a Spark, Hadoop és Python segítségével.
- Ismerje meg a Spark és Hadoop szolgáltatásait, alapvető összetevőit és architektúráját.
- Ismerje meg, hogyan integrálhatja a Sparkot, Hadoop és Python-et a nagy adatfeldolgozáshoz.
- Fedezze fel a Spark ökoszisztéma eszközeit (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka és Flume).
- A Netflix, a YouTube, az Amazon, a Spotify és az Google rendszeréhez hasonló együttműködésen alapuló szűrési ajánlórendszerek létrehozása.
- Használja Apache Mahout-ot a gépi tanulási algoritmusok méretezéséhez.
Apache Spark SQL
7 Órák A Spark SQL az Apache Spark modulja strukturált és nem strukturált adatok kezelésére. A Spark SQL információkat nyújt az adatok felépítéséről és a végrehajtott számításról. Ez az információ felhasználható optimalizáláshoz. A Spark SQL két általános használata:
- SQL lekérdezések végrehajtása.
- a meglévő Hive telepítés adatainak olvasása.
Ebben az oktató által vezetett, élő (helyszíni vagy távoli) képzésen a résztvevők megtanulják, hogyan kell különféle típusú adatkészleteket elemezni a Spark SQL .
A képzés végére a résztvevők képesek lesznek:
- Telepítse és konfigurálja a Spark SQL .
- Végezzen adatelemzést a Spark SQL .
- Lekérdezés adatkészletek különböző formátumokban.
- Vizualizálja az adatokat és a lekérdezés eredményeit.
A tantárgy formátuma
- Interaktív előadás és beszélgetés.
- Sok gyakorlat és gyakorlat.
- Gyakorlati megvalósítás élő laboratóriumi környezetben.
Tanfolyam testreszabási lehetőségek
- Ahhoz, hogy igényeljen személyre szabott képzést erre a kurzusra, kérjük, vegye fel velünk a kapcsolatot, hogy megbeszéljünk.
Apache Spark MLlib
35 ÓrákAz MLlib a Spark gépi tanulási (ML) könyvtára. Célja, hogy a gyakorlati gépi tanulás méretezhető és egyszerű legyen. Közös tanulási algoritmusokból és segédprogramokból áll, beleértve a besorolást, a regressziót, a klaszterezést, az együttműködő szűrést, a dimenziócsökkentést, valamint az alacsonyabb szintű optimalizálási primitíveket és a magasabb szintű csővezeték API-kat.
Ez két csomagra oszlik:
A spark.mllib tartalmazza az RDD-re épített eredeti API-t.
A spark.ml magasabb szintű API-t kínál, amely a DataFrames tetején épült ML-csővezetékek építéséhez.
Közönség
Ez a tanfolyam olyan mérnökökre és fejlesztőkre irányul, akik egy beépített gépkönyvtárat kívánnak használni az Apache Spark
Stratio: Rocket and Intelligence Modules with PySpark
14 ÓrákStratio egy adatokra összpontosító platform, amely nagy adatok, mesterséges intelligencia (AI) és kormányzati funkciókat integrál egy egyetlen megoldásba. Az Rocket és Intelligence modullai lehetővé teszik a gyors adatfelfedezést, átalakítást és előrehaladott analitikai feladatok végrehajtását vállalati környezetekben.
Ez az oktatóvezetett élő tanfolyam (online vagy helyszínen) középszerű szintű adatszakembereknek szól, akik hatékonyan szeretnék használni az Stratio Rocket és Intelligence modullait PySpark-al, a ciklusok, felhasználódefiniált függvények és előrehaladott adatlogika hangsúlyozásával.
E tanfolyam végére a résztvevők képesek lesznek:
- Navigálni és dolgozni az Stratio platformon az Rocket és Intelligence modullal.
- Alkalmazni PySpark-t az adatbefogadás, átalakítás és elemzés kontextusában.
- Ciklusokat és feltételes logikát használni az adatfolyamok és a jellemzők generálásának ellenőrzéséhez.
- Létrehozni és kezelni felhasználódefiniált függvényeket (UDF) ismételten felhasználható adatműveletekhez PySpark-ban.
A tanfolyam formátuma
- Interaktív előadás és beszélgetés.
- Sokat gyakorolunk és gyakorolunk.
- Kézbesített implementáció élő laboratóriumi környezetben.
A tanfolyam testreszabási lehetőségei
- Egy testreszabott tanfolyam kéréséhez kérjük, lépjen kapcsolatba velünk.