Scaling Data Pipelines with Spark NLP Képzés
A Spark NLP egy nyílt forráskódú könyvtár, amely Apache Spark-ra épül, természetes nyelvi feldolgozásra a Python, Java és Scala segítségével. Széles körben használják a vállalati és iparági vertikumokban, mint például az egészségügy, a pénzügy, az élettudomány és a toborzás.
Ez az oktató által vezetett, élő (online vagy helyszíni) képzés azoknak az adattudósoknak és fejlesztőknek szól, akik a Apache Spark-ra épülő Spark NLP-et szeretnék használni természetes nyelvi szövegfeldolgozási modellek és folyamatok fejlesztésére, megvalósítására és méretezésére.
A képzés végére a résztvevők képesek lesznek:
- Állítsa be a szükséges fejlesztői környezetet az NLP-folyamatok építésének megkezdéséhez a Spark NLP segítségével.
- Ismerje meg a Spark NLP használatának jellemzőit, architektúráját és előnyeit.
- A szövegfeldolgozás megvalósításához használja a Spark NLP-ben elérhető előre betanított modelleket.
- Tanulja meg, hogyan építhet, taníthat és méretezhet Spark NLP modelleket gyártási szintű projektekhez.
- Alkalmazzon osztályozást, következtetést és hangulatelemzést a valós használati esetekre (klinikai adatok, vásárlói magatartásra vonatkozó betekintések stb.).
A tanfolyam formátuma
- Interaktív előadás és beszélgetés.
- Sok gyakorlat és gyakorlat.
- Gyakorlati megvalósítás élő labor környezetben.
Tanfolyam testreszabási lehetőségek
- Ha személyre szabott képzést szeretne kérni ehhez a tanfolyamhoz, kérjük, vegye fel velünk a kapcsolatot, hogy megbeszéljük.
Kurzusleírás
Bevezetés
- Spark NLP vs NLTK vs spaCy
- A Spark NLP jellemzők és architektúra áttekintése
Kezdő lépések
- Beállítási követelmények
- Telepítés Spark NLP
- Általános fogalmak
Előre betanított csővezetékek használata
- A szükséges modulok importálása
- Alapértelmezett annotátorok
- Csővezeték-modell betöltése
- Szövegek átalakítása
NLP csővezetékek építése
- A folyamat API megértése
- NER modellek megvalósítása
- A beágyazások kiválasztása
- Szó, mondat és univerzális beágyazás használata
Osztályozás és következtetés
- Dokumentumosztályozás használati esetei
- Érzelemelemzési modellek
- Iratosztályozó oktatása
- Más gépi tanulási keretrendszerek használata
- NLP modellek kezelése
- Modellek optimalizálása alacsony késleltetésű következtetésekhez
Hibaelhárítás
Összegzés és a következő lépések
Követelmények
- Ismerkedés a következővel: Apache Spark
- Python programozási tapasztalat
Közönség
- Adattudósok
- Fejlesztők
A nyílt képzésekhez 5+ résztvevő szükséges.
Scaling Data Pipelines with Spark NLP Képzés - Booking
Scaling Data Pipelines with Spark NLP Képzés - Enquiry
Scaling Data Pipelines with Spark NLP - Érdeklődjön a vezetői tanácsadásról!
Érdeklődjön a vezetői tanácsadásról!
Vélemények (5)
Sok gyakorlati példa, különböző módok ugyanannak a problémának a megközelítésére, és néha nem túl nyilvánvaló trükkök a jelenlegi megoldás javítására
Rafal - Nordea
Kurzus - Apache Spark MLlib
Gépi fordítás
Az élők példái
Ahmet Bolat - Accenture Industrial SS
Kurzus - Python, Spark, and Hadoop for Big Data
Gépi fordítás
nagyon interaktív...
Richard Langford
Kurzus - SMACK Stack for Data Science
Gépi fordítás
Elég gyakorlati tapasztalatra van lehetőség, a tanár szakértelemmel rendelkezik
Chris Tan
Kurzus - A Practical Introduction to Stream Processing
Gépi fordítás
Ismerkedj el a Spark Streaming, Databricks és AWS Redshift technológiákkal
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurzus - Apache Spark in the Cloud
Gépi fordítás
Közelgő kurzusok
Rokon tanfolyam
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 ÓrákEz a kurzus azoknak a fejlesztőknek és adattudósoknak szól, akik szeretnék megérteni és megvalósítani a mesterséges intelligenciát alkalmazásaikban. Különös hangsúlyt kap az adatelemzés, az elosztott mesterséges intelligencia és a természetes nyelvi feldolgozás.
Big Data Analytics in Health
21 ÓrákA nagy adatelemzés magában foglalja a nagy mennyiségű, változatos adatkészlet vizsgálatát a korrelációk, rejtett minták és egyéb hasznos betekintések feltárása érdekében.
Az egészségügyi ágazat hatalmas mennyiségű komplex, heterogén orvosi és klinikai adatot tartalmaz. A nagy adatelemzés alkalmazása az egészségügyi adatokra hatalmas potenciállal jár ahhoz, hogy betekintést szerezzen az egészségügyi ellátás javításában. Ezen adatkészletek hatalmassága azonban nagy kihívást jelent az elemzésekben és a klinikai környezetben történő gyakorlati alkalmazásokban.
Ebben az oktató által vezetett, élő (távoli) képzésen a résztvevők megtanulják, hogyan végezzen nagy adatelemzést az egészségben, miközben gyakorlati élő laboratóriumi gyakorlatokat végeznek.
A képzés végére a résztvevők képesek lesznek:
- Telepítse és konfigurálja a nagy adatelemző eszközöket, például a Hadoop MapReduce és a Spark
- Megérteni az orvosi adatok jellemzőit
- Nagyméretű technikák alkalmazása az orvosi adatok kezelésére
- Tanulmányozza a nagy adatrendszereket és algoritmusokat az egészségügyi alkalmazások összefüggésében
Közönség
- Fejlesztők
- Adattudósok
A tantárgy formátuma
- Részleges előadás, részleges beszélgetés, gyakorlatok és nehéz gyakorlati gyakorlat.
jegyzet
- Ahhoz, hogy igényeljen személyre szabott képzést erre a kurzusra, kérjük, vegye fel velünk a kapcsolatot, hogy megbeszéljünk.
Introduction to Graph Computing
28 ÓrákEzen az oktató által vezetett, élő képzésen a Magyarország-ban a résztvevők megismerkedhetnek a technológiai kínálatokkal és a grafikonadatok feldolgozásának megvalósítási módszereivel. A cél a valós objektumok, jellemzőik és kapcsolataik azonosítása, majd a kapcsolatok modellezése és adatként való feldolgozása Graph Computing (más néven Graph Analytics) megközelítéssel. Kezdjük egy átfogó áttekintéssel, és leszűkítjük a konkrét eszközöket, miközben esettanulmányok, gyakorlati gyakorlatok és élő telepítések sorozatán lépkedünk végig.
A képzés végére a résztvevők képesek lesznek:
- Ismerje meg a grafikonadatok megőrzését és bejárását.
- Válassza ki a legjobb keretrendszert egy adott feladathoz (a gráfadatbázisoktól a kötegelt feldolgozási keretrendszerekig).
- A Hadoop, a Spark, GraphX és a Pregel megvalósítása számos gépen párhuzamosan végezhet gráfszámítást.
- Tekintse meg a valós világban felmerülő big data problémákat grafikonok, folyamatok és bejárások formájában.
Hadoop and Spark for Administrators
35 ÓrákEz az oktató által vezetett, élő képzés a Magyarország-ban (online vagy helyszíni) azoknak a rendszergazdáknak szól, akik szeretnék megtanulni, hogyan állíthatnak be, telepíthetnek és kezelhetnek Hadoop fürtöket szervezetükön belül.
A képzés végére a résztvevők képesek lesznek:
- Telepítse és konfigurálja az Apache Hadoop-ot.
- Ismerje meg a Hadoop ökoszisztéma négy fő összetevőjét: HDFS, MapReduce, YARN és Hadoop Common.
- A Hadoop Distributed File System (HDFS) segítségével a fürt több száz vagy több ezer csomópontra méretezhető.
- Állítsa be a HDFS-t, hogy tárolómotorként működjön a helyszíni Spark-telepítésekhez.
- Állítsa be a Sparkot az olyan alternatív tárolási megoldások eléréséhez, mint az Amazon S3 és a NoSQL adatbázisrendszerek, például a Redis, az Elasticsearch, a Couchbase, az Aerospike stb.
- Adminisztratív feladatok végrehajtása, például egy Apache Hadoop-fürt létrehozása, kezelése, figyelése és biztonsága.
Hortonworks Data Platform (HDP) for Administrators
21 ÓrákEz az oktató által vezetett, élő képzés a Magyarország-ban (online vagy helyszíni) bemutatja Hortonworks Data Platform (HDP)-et, és végigvezeti a résztvevőket a Spark + Hadoop megoldás bevezetésén.
A képzés végére a résztvevők képesek lesznek:
- A Hortonworks segítségével megbízhatóan futtathatja a Hadoop-t nagy léptékben.
- Egyesítse a Hadoop biztonsági, irányítási és működési képességeit a Spark agilis analitikai munkafolyamataival.
- A Hortonworks segítségével vizsgálja meg, érvényesítse, hitelesítse és támogassa a Spark-projekt egyes összetevőit.
- Különböző típusú adatokat dolgozhat fel, beleértve a strukturált, strukturálatlan, mozgásban lévő és nyugalmi adatokat.
A Practical Introduction to Stream Processing
21 ÓrákEzen az oktató által vezetett, élő képzésen a Magyarország-ban (helyszíni vagy távoli) a résztvevők megtanulják, hogyan állíthatnak be és integrálhatnak különböző Stream Processing keretrendszereket a meglévő nagy adattároló rendszerekkel, valamint a kapcsolódó szoftveralkalmazásokkal és mikroszolgáltatásokkal.
A képzés végére a résztvevők képesek lesznek:
- Telepítsen és konfiguráljon különböző Stream Processing keretrendszereket, mint például a Spark Streaming és a Kafka Streaming.
- Ismerje meg és válassza ki a legmegfelelőbb keretet a munkához.
- Adatfeldolgozás folyamatosan, párhuzamosan és rekordonként.
- Integrálja Stream Processing megoldásait meglévő adatbázisokkal, adattárházakkal, adattókkal stb.
- Integrálja a legmegfelelőbb adatfolyam-feldolgozási könyvtárat a vállalati alkalmazásokkal és mikroszolgáltatásokkal.
SMACK Stack for Data Science
14 ÓrákEz az oktató által vezetett, élő képzés a Magyarország-ban (online vagy helyszíni) azoknak az adattudósoknak szól, akik a SMACK verem segítségével adatfeldolgozási platformokat szeretnének felépíteni big data megoldásokhoz.
A képzés végére a résztvevők képesek lesznek:
- Valósítson meg egy adatfolyam-architektúrát a nagy adatok feldolgozásához.
- Fürt infrastruktúra fejlesztése Apache Mesos és Docker segítségével.
- Elemezze az adatokat a Spark és a Scala segítségével.
- Kezelje a strukturálatlan adatokat az Apache Cassandra segítségével.
Apache Spark Fundamentals
21 ÓrákEz az oktató által vezetett, élő képzés a Magyarország-ban (online vagy helyszíni) azoknak a mérnököknek szól, akik Apache Spark rendszert szeretnének felállítani és telepíteni nagyon nagy mennyiségű adat feldolgozására.
A képzés végére a résztvevők képesek lesznek:
- Telepítse és konfigurálja az Apache Sparkot.
- Nagyon nagy adatkészletek gyors feldolgozása és elemzése.
- Ismerje meg az Apache Spark és az Hadoop MapReduce közötti különbséget, és hogy mikor melyiket használja.
- Integrálja az Apache Sparkot más gépi tanulási eszközökkel.
Apache Spark in the Cloud
21 ÓrákApache Spark tanulási görbéje eleinte lassan növekszik, sok erőfeszítésre van szükség az első visszatéréshez. Ez a tanfolyam célja az első nehéz rész átlépése. A tanfolyam elvégzése után a résztvevők megértik az Apache Spark alapjait, egyértelműen megkülönböztetik az RDD-t a DataFrame-től, megtanulják a Python és a Scala API-kat, megértik a végrehajtókat és a feladatokat, stb. A bevált gyakorlatokat követve ez a kurzus erősen a következőkre koncentrál: felhő telepítése, Databricks és AWS. A hallgatók megértik az AWS EMR és az AWS Glue, az AWS egyik legújabb Spark szolgáltatásának különbségeit is.
KÖZÖNSÉG:
DevOps , DevOps , Data Scientist
Spark for Developers
21 ÓrákCÉLKITŰZÉS:
Ez a tanfolyam bemutatja az Apache Spark . A hallgatók megtanulják, hogyan illeszkedik a Spark a Big Data ökoszisztémájához, és hogyan lehet a Sparkot használni az adatok elemzéséhez. A tanfolyam kiterjed a Spark shellre az interaktív adatelemzéshez, a Spark belső részei, a Spark API-k, a Spark SQL , a Spark streaming, valamint a gépi tanulás és a graphX számára.
ÖSSZETÉTEL:
Fejlesztők / adatelemzők
Python and Spark for Big Data (PySpark)
21 ÓrákEzen az oktató által vezetett, élő képzésen a Magyarország-ban a résztvevők megtanulják, hogyan használhatják a Python-t és a Spark-ot a nagy adatok elemzésére, miközben gyakorlati gyakorlatokon dolgoznak.
A képzés végére a résztvevők képesek lesznek:
- Ismerje meg, hogyan használja a Sparkot a Python-val a Big Data elemzéséhez.
- Dolgozz olyan gyakorlatokon, amelyek a valós eseteket utánozzák.
- Használjon különféle eszközöket és technikákat a nagy adatelemzéshez az PySpark segítségével.
Python, Spark, and Hadoop for Big Data
21 ÓrákEz az oktató által vezetett, élő képzés a Magyarország-ban (online vagy helyszíni) azoknak a fejlesztőknek szól, akik szeretnék használni és integrálni a Sparkot, Hadoop és Python nagy és összetett adatkészletek feldolgozására, elemzésére és átalakítására.
A képzés végére a résztvevők képesek lesznek:
- Állítsa be a szükséges környezetet a nagy adatfeldolgozás megkezdéséhez a Spark, Hadoop és Python segítségével.
- Ismerje meg a Spark és Hadoop szolgáltatásait, alapvető összetevőit és architektúráját.
- Ismerje meg, hogyan integrálhatja a Sparkot, Hadoop és Python-et a nagy adatfeldolgozáshoz.
- Fedezze fel a Spark ökoszisztéma eszközeit (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka és Flume).
- A Netflix, a YouTube, az Amazon, a Spotify és az Google rendszeréhez hasonló együttműködésen alapuló szűrési ajánlórendszerek létrehozása.
- Használja Apache Mahout-ot a gépi tanulási algoritmusok méretezéséhez.
Apache Spark SQL
7 Órák A Spark SQL az Apache Spark modulja strukturált és nem strukturált adatok kezelésére. A Spark SQL információkat nyújt az adatok felépítéséről és a végrehajtott számításról. Ez az információ felhasználható optimalizáláshoz. A Spark SQL két általános használata:
- SQL lekérdezések végrehajtása.
- a meglévő Hive telepítés adatainak olvasása.
Ebben az oktató által vezetett, élő (helyszíni vagy távoli) képzésen a résztvevők megtanulják, hogyan kell különféle típusú adatkészleteket elemezni a Spark SQL .
A képzés végére a résztvevők képesek lesznek:
- Telepítse és konfigurálja a Spark SQL .
- Végezzen adatelemzést a Spark SQL .
- Lekérdezés adatkészletek különböző formátumokban.
- Vizualizálja az adatokat és a lekérdezés eredményeit.
A tantárgy formátuma
- Interaktív előadás és beszélgetés.
- Sok gyakorlat és gyakorlat.
- Gyakorlati megvalósítás élő laboratóriumi környezetben.
Tanfolyam testreszabási lehetőségek
- Ahhoz, hogy igényeljen személyre szabott képzést erre a kurzusra, kérjük, vegye fel velünk a kapcsolatot, hogy megbeszéljünk.
Apache Spark MLlib
35 ÓrákAz MLlib a Spark gépi tanulási (ML) könyvtára. Célja, hogy a gyakorlati gépi tanulás méretezhető és egyszerű legyen. Közös tanulási algoritmusokból és segédprogramokból áll, beleértve a besorolást, a regressziót, a klaszterezést, az együttműködő szűrést, a dimenziócsökkentést, valamint az alacsonyabb szintű optimalizálási primitíveket és a magasabb szintű csővezeték API-kat.
Ez két csomagra oszlik:
A spark.mllib tartalmazza az RDD-re épített eredeti API-t.
A spark.ml magasabb szintű API-t kínál, amely a DataFrames tetején épült ML-csővezetékek építéséhez.
Közönség
Ez a tanfolyam olyan mérnökökre és fejlesztőkre irányul, akik egy beépített gépkönyvtárat kívánnak használni az Apache Spark
Stratio: Rocket and Intelligence Modules with PySpark
14 ÓrákStratio egy adatokra összpontosító platform, amely nagy adatok, mesterséges intelligencia (AI) és kormányzati funkciókat integrál egy egyetlen megoldásba. Az Rocket és Intelligence modullai lehetővé teszik a gyors adatfelfedezést, átalakítást és előrehaladott analitikai feladatok végrehajtását vállalati környezetekben.
Ez az oktatóvezetett élő tanfolyam (online vagy helyszínen) középszerű szintű adatszakembereknek szól, akik hatékonyan szeretnék használni az Stratio Rocket és Intelligence modullait PySpark-al, a ciklusok, felhasználódefiniált függvények és előrehaladott adatlogika hangsúlyozásával.
E tanfolyam végére a résztvevők képesek lesznek:
- Navigálni és dolgozni az Stratio platformon az Rocket és Intelligence modullal.
- Alkalmazni PySpark-t az adatbefogadás, átalakítás és elemzés kontextusában.
- Ciklusokat és feltételes logikát használni az adatfolyamok és a jellemzők generálásának ellenőrzéséhez.
- Létrehozni és kezelni felhasználódefiniált függvényeket (UDF) ismételten felhasználható adatműveletekhez PySpark-ban.
A tanfolyam formátuma
- Interaktív előadás és beszélgetés.
- Sokat gyakorolunk és gyakorolunk.
- Kézbesített implementáció élő laboratóriumi környezetben.
A tanfolyam testreszabási lehetőségei
- Egy testreszabott tanfolyam kéréséhez kérjük, lépjen kapcsolatba velünk.