Apache Iceberg alapok Képzés
Az Apache Iceberg egy nyílt forráskódú táblaformátum nagyméretű adathalmazokhoz, amely a SQL táblák megbízhatóságát és egyszerűségét hozza a big data területére. Kifejezetten arra tervezték, hogy megoldja a big data kezelésének kihívásait az adattavakban, amelyek gyakran magukban foglalják az összetett sémák, nagy fájlok és különféle adatforrások kezelését.
Ez az oktató által vezetett, élő képzés (online vagy helyszíni) kezdő szintű adatszakembereknek szól, akik szeretnék megszerezni a szükséges ismereteket és készségeket ahhoz, hogy hatékonyan használhassák az Apache Iceberg-et nagyméretű adathalmazok kezelésére, az adatok integritásának biztosítására és az adatfeldolgozási munkafolyamatok optimalizálására.
A képzés végére a résztvevők képesek lesznek:
- Mélyrehatóan megismerni az Apache Iceberg architektúráját, funkcióit és előnyeit.
- Megismerkedni a táblaformátumokkal, particionálással, sémaváltozással és az időutazás képességeivel.
- Telepíteni és konfigurálni az Apache Iceberg-et különböző környezetekben.
- Iceberg táblákat létrehozni, kezelni és manipulálni.
- Megérteni az adatok migrálásának folyamatát más táblaformátumokból az Iceberg-be.
A képzés formátuma
- Interaktív előadás és vita.
- Sok gyakorlat és gyakorlás.
- Gyakorlati implementáció élő laboratóriumi környezetben.
Képzés testreszabási lehetőségek
- Ha testreszabott képzést szeretne kérni ehhez a kurzushoz, kérjük, lépjen kapcsolatba velünk.
Kurzusleírás
Bevezetés az Apache Iceberg-be
- Az Apache Iceberg áttekintése
- Fontosság és használati esetek a modern adatarchitektúrában
- Kulcsfontosságú funkciók és előnyök
Alapfogalmak
- Iceberg táblaformátum és architektúra
- Összehasonlítás más táblaformátumokkal
- Particionálás és sémaváltozás
- Időutazás és adatverziókezelés
Az Apache Iceberg beállítása
- Telepítés és konfigurálás
- Iceberg integrálása különböző adatfeldolgozó motorokkal
- Iceberg környezet beállítása helyi gépen
Alapműveletek
- Iceberg táblák létrehozása és kezelése
- Írás és olvasás Iceberg táblákból
- Alapvető CRUD műveletek
Adatmigráció és integráció
- Adatok migrálása Hive és más rendszerekből az Iceberg-be
- Integráció BI eszközökkel
- Mintaadatkészlet migrálása az Iceberg-be
Teljesítményoptimalizálás
- Teljesítményfinomítási technikák
- Lekérdezések és adatvizsgálatok optimalizálása
- Teljesítményoptimalizálás az Iceberg-ben
Speciális funkciók áttekintése
- Particionálás fejlődése és rejtett particionálás
- Táblafejlődés és sémaváltozások
- Időutazás és visszaállítási funkciók
- Speciális funkciók implementálása az Iceberg-ben
Összefoglalás és következő lépések
Követelmények
- Ismeret a táblák, sémák, particionálás és adatbetöltés fogalmairól
- Alapvető SQL ismeretek
Célközönség
- Adatmérnökök
- Adatarchitektusok
- Adatelemzők
- Szoftverfejlesztők
A nyílt képzésekhez 5+ résztvevő szükséges.
Apache Iceberg alapok Képzés - Foglalás
Apache Iceberg alapok Képzés - Érdeklődés
Apache Iceberg alapok - Érdeklődjön a vezetői tanácsadásról!
Vélemények (1)
GYAKORLÓ FELADATOK. A tanfolyam eredetileg 5 naposnak kellett volna lennie, de a három nap is sok kérdést válaszolt az eddigi NiFi használatomból fakadóan.
James - BHG Financial
Kurzus - Apache NiFi for Administrators
Gépi fordítás
Közelgő kurzusok
Rokon tanfolyam
Haladó Apache Iceberg
21 ÓrákEz az oktató által vezetett, élő képzés Magyarország (online vagy helyszíni) haladó szintű adatszakembereknek szól, akik optimalizálni szeretnék az adatfeldolgozási munkafolyamatokat, biztosítani szeretnék az adatok integritását, és robusztus adattárház-megoldásokat szeretnének implementálni, amelyek kezelni tudják a modern big data alkalmazások összetettségét.
A képzés végére a résztvevők képesek lesznek:
- Mélyrehatóan megérteni az Iceberg architektúráját, beleértve a metaadatkezelést és a fájlelrendezést.
- Az Iceberg konfigurálása optimális teljesítmény érdekében különböző környezetekben és integrálása több adatfeldolgozó motorral.
- Nagy léptékű Iceberg táblák kezelése, összetett sémaváltoztatások végrehajtása és partíciófejlődés kezelése.
- Lekérdezési teljesítmény és adatvizsgálati hatékonyság optimalizálásának technikáinak elsajátítása nagy adathalmazok esetén.
- Mechanizmusok implementálása az adatkonzisztencia biztosítására, tranzakciós garanciák kezelésére és hibák kezelésére elosztott környezetekben.
Big Data Analytics Google Colab és Apache Spark segítségével
14 ÓrákEz az oktató által vezetett, élő képzés Magyarország-ben (online vagy helyszíni) középhaladó szintű adattudósok és mérnökök számára készült, akik a Google Colab és Apache Spark használatával szeretnék feldolgozni és elemezni a nagy adatokat.
A képzés végére a résztvevők képesek lesznek:
- Big Data környezet beállítása a Google Colab és Spark segítségével.
- Nagy adathalmazok hatékony feldolgozása és elemzése Apache Spark segítségével.
- Big Data vizualizáció együttműködő környezetben.
- Apache Spark integrálása felhőalapú eszközökkel.
Big Data Üzleti Intelligencia Kormányzati Szervezeteknek
35 ÓrákA technológiai fejlődés és az információmennyiség növekedése átalakítja a vállalkozások működését számos iparágban, beleértve a kormányzati szektort is. A kormányzati adatgenerálás és digitális archiválás mértéke növekszik a mobil eszközök és alkalmazások, az intelligens érzékelők és eszközök, a felhőalapú számítástechnikai megoldások és az állampolgároknak szánt portálok gyors fejlődése miatt. Ahogy a digitális információ bővül és egyre összetettebbé válik, az információkezelés, feldolgozás, tárolás, biztonság és kezelés is egyre bonyolultabbá válik. Az új adatgyűjtési, keresési, felfedezési és elemzési eszközök segítenek a szervezeteknek betekintést nyerni strukturálatlan adataikba. A kormányzati piac fordulóponton van, felismerve, hogy az információ stratégiai érték, és a kormányzatnak védelmeznie kell, ki kell használnia és elemeznie kell mind a strukturált, mind a strukturálatlan információkat, hogy jobban szolgálhasson és teljesíthesse küldetési követelményeit. Ahogy a kormányzati vezetők törekednek az adatvezérelt szervezetek fejlesztésére a küldetések sikeres teljesítése érdekében, alapokat fektetnek le az események, emberek, folyamatok és információk közötti függőségek összefüggéseinek megértéséhez.
A magas értékű kormányzati megoldások a leginkább diszruptív technológiák keverékéből születnek:
- Mobil eszközök és alkalmazások
- Felhőszolgáltatások
- Szociális üzleti technológiák és hálózatok
- Big Data és elemzés
A Big Data az intelligens ipari megoldások egyike, és lehetővé teszi a kormányzat számára, hogy jobb döntéseket hozzon, ha a nagy mennyiségű adat elemzése alapján felfedezett mintázatokra alapozva cselekedjen – függetlenül attól, hogy az adatok kapcsolódnak-e egymáshoz vagy sem, strukturáltak vagy strukturálatlanok.
De ezeket a eredményeket elérni sokkal többet igényel, mint egyszerűen hatalmas mennyiségű adat felhalmozását. „Ezeknek a Big Data-mennyiségeknek az értelmezése korszerű eszközöket és technológiákat igényel, amelyek képesek elemzeni és hasznos ismereteket kinyerni a hatalmas és változatos információáradatból” – írta Tom Kalil és Fen Zhao a Fehér Ház Tudományos és Technológiai Politikai Hivatala (OSTP) blogján.
A Fehér Ház lépést tett az ügynökségek segítése felé, amikor 2012-ben létrehozta a Nemzeti Big Data Kutatási és Fejlesztési Kezdeményezést. A kezdeményezés több mint 200 millió dollárt tartalmazott a Big Data robbanás kihasználására és az elemzéshez szükséges eszközök fejlesztésére.
A Big Data által felvetett kihívások szinte olyan ijesztőek, mint amilyen biztató az ígérete. Az adatok hatékony tárolása az egyik ilyen kihívás. Mint mindig, a költségvetések szűkösek, így az ügynökségeknek minimalizálniuk kell a tárolás megabájtjának árát, és az adatokat könnyen hozzáférhető helyen kell tartaniuk, hogy a felhasználók bármikor hozzáférhessenek hozzájuk, ahogy szükségük van rá. A hatalmas mennyiségű adat biztonsági mentése tovább növeli a kihívást.
Az adatok hatékony elemzése egy másik jelentős kihívás. Sok ügynökség kereskedelmi eszközöket használ, amelyek lehetővé teszik számukra, hogy átvizsgálják az adatokat, és trendeket fedezzenek fel, amelyek segíthetnek hatékonyabban működni. (Egy friss MeriTalk tanulmány szerint a szövetségi IT vezetők úgy vélik, hogy a Big Data segíthet az ügynökségeknek több mint 500 milliárd dollárt megtakarítani, miközben teljesítik küldetési céljaikat.).
Egyedi fejlesztésű Big Data eszközök is lehetővé teszik az ügynökségek számára, hogy elemezzék adataikat. Például az Oak Ridge Nemzeti Laboratórium Számítástechnikai Adatelemzési Csoportja más ügynökségek számára is hozzáférhetővé tette Piranha adatelemzési rendszerét. A rendszer segített az orvosi kutatóknak egy kapcsolat felfedezésében, amely figyelmeztetheti az orvosokat az aortális aneurizmákra, mielőtt azok fellépnek. Emellett hétköznapi feladatokhoz is használják, például önéletrajzok átnézéséhez, hogy összekössék az álláskeresőket a felvételi vezetőkkel.
Hadoop rendszergazdáknak
21 ÓrákAz Apache Hadoop a legnépszerűbb keretrendszer a Big Data feldolgozására szerverklasztereken. Ezen a három (opcionálisan négy) napos tanfolyamon a résztvevők megismerik a Hadoop és az ökoszisztémája üzleti előnyeit és használati eseteit, hogyan tervezhetik meg a klaszter üzembe helyezését és bővítését, valamint hogyan telepíthetik, karbantarthatják, monitorozhatják, hibaelháríthatják és optimalizálhatják a Hadoopot. Gyakorolni fogják a klaszter tömeges adatbetöltését, megismerkednek a különböző Hadoop disztribúciókkal, valamint gyakorolni fogják a Hadoop ökoszisztéma eszközeinek telepítését és kezelését. A tanfolyam a klaszter biztonságossá tételéről szóló vitával zárul, amelyben a Kerberos kerül bemutatásra.
“…Az anyagok nagyon jól elkészítettek és alaposak voltak. A laborok nagyon hasznosak és jól szervezettek voltak.”
— Andrew Nguyen, Főbb integrációs DW mérnök, Microsoft Online Advertising
Célközönség
Hadoop rendszergazdák
Formátum
Előadások és gyakorlati laborok, megközelítőleg 60% előadás, 40% labor.
Apache NiFi rendszergazdáknak
21 ÓrákAz Apache NiFi egy nyílt forráskódú, folyamalapú adatintegrációs és eseményfeldolgozó platform. Lehetővé teszi az automatizált, valós idejű adatirányítást, átalakítást és rendszerközvetítést különböző rendszerek között, webalapú felhasználói felülettel és részletes ellenőrzéssel.
Ez az oktató által vezetett, élő képzés (helyszíni vagy távoli) középszintű rendszergazdáknak és mérnököknek szól, akik szeretnék üzembe helyezni, kezelni, biztosítani és optimalizálni a NiFi adatfolyamokat éles környezetekben.
A képzés végére a résztvevők képesek lesznek:
- Apache NiFi klaszterek telepítése, konfigurálása és karbantartása.
- Adatfolyamok tervezése és kezelése különböző forrásokból és célokból.
- Folyamat automatizálás, irányítás és átalakítási logika implementálása.
- Teljesítmény optimalizálása, műveletek monitorozása és hibák elhárítása.
A képzés formátuma
- Interaktív előadás valós világi architektúrák megvitatásával.
- Gyakorlati laborok: folyamok építése, üzembe helyezése és kezelése.
- Forgatókönyv alapú gyakorlatok élő labor környezetben.
Kurzus testreszabási lehetőségek
- Ha testreszabott képzést szeretne kérni ehhez a kurzushoz, kérjük, lépjen kapcsolatba velünk.
Apache NiFi fejlesztőknek
7 ÓrákEzen oktatóvezetésű, élő képzés során Magyarország a résztvevők megismerik a folyamatalapú programozás alapjait, miközben számos demó kiterjesztést, komponenst és processzort fejlesztenek az Apache NiFi segítségével.
A képzés végére a résztvevők képesek lesznek:
- Megérteni a NiFi architektúráját és az adatfolyam koncepcióit.
- Kiterjesztéseket fejleszteni a NiFi és harmadik féltől származó API-k használatával.
- Saját Apache NiFi processzort fejleszteni.
- Valós idejű adatokat betölteni és feldolgozni különböző és szokatlan fájlformátumokból és adatforrásokból.
PySpark és gépi tanulás
21 ÓrákEz a képzés gyakorlati bevezetést nyújt a skálázható adatfeldolgozó és gépi tanulási munkafolyamatok felépítéséhez PySpark segítségével. A résztvevők megismerik, hogyan működik az Apache Spark a modern Big Data ökoszisztémákban, és hogyan dolgozzák hatékonyan fel a nagy adathalmazokat a elosztott számítási elvek alapján.
Apache Spark alapok
21 ÓrákEz az oktató által vezetett, élő képzés Magyarország-ben (online vagy helyszíni) azoknak a mérnököknek szól, akik szeretnék beállítani és üzembe helyezni az Apache Spark rendszert nagyon nagy mennyiségű adat feldolgozására.
A képzés végén a résztvevők képesek lesznek:
- Az Apache Spark telepítésére és konfigurálására.
- Gyorsan feldolgozni és elemezni nagyon nagy adathalmazokat.
- Megérteni az Apache Spark és a Hadoop MapReduce közötti különbséget, és eldönteni, mikor melyiket használják.
- Integrálni az Apache Sparkot más gépi tanulási eszközökkel.
Az Apache Spark adminisztrációja
35 ÓrákEz az oktató által vezetett, élő képzés Magyarország-ben (online vagy helyszíni) kezdő és középhaladó szintű rendszergazdáknak szól, akik Spark klaszterek üzembe helyezését, karbantartását és optimalizálását szeretnék elsajátítani.
A képzés végére a résztvevők képesek lesznek:
- Az Apache Spark telepítésére és konfigurálására különböző környezetekben.
- Klaszter erőforrások kezelésére és Spark alkalmazások monitorozására.
- Spark klaszterek teljesítményének optimalizálására.
- Biztonsági intézkedések bevezetésére és magas rendelkezésre állás biztosítására.
- Gyakori Spark hibák elhárítására és hibakeresésére.
Apache Spark a felhőben
21 ÓrákAz Apache Spark tanulási görbéje kezdetben lassan emelkedik, sok erőfeszítés szükséges az első eredmények eléréséhez. Ez a kurzus célja, hogy átugorja a kezdeti nehézségeket. A kurzus elvégzése után a résztvevők megértik az Apache Spark alapjait, tisztán megkülönböztetik az RDD-t a DataFrame-től, elsajátítják a Python és Scala API-k használatát, megértik az executorokat és feladatokat stb. Továbbá, a legjobb gyakorlatok követésével, ez a kurzus erősen fókuszál a felhőbeli üzembe helyezésre, a Databricks-re és az AWS-re. A hallgatók megértik az AWS EMR és az AWS Glue közötti különbségeket, amely az AWS legújabb Spark szolgáltatása.
KÖZÖNSÉG:
Adatmérnök, DevOps, Adattudós
Python és Spark a Big Data-hez (PySpark)
21 ÓrákEbben az oktató által vezetett, élő képzésben Magyarország, a résztvevők megtanulják, hogyan használhatják a Pythont és a Sparkot együtt nagy adatok elemzéséhez, miközben gyakorlati feladatokon dolgoznak.
A képzés végére a résztvevők képesek lesznek:
- Megtanulják, hogyan használhatják a Sparkot Pythonnal nagy adatok elemzéséhez.
- Valós eseteket utánzó gyakorlatokon dolgoznak.
- Különböző eszközöket és technikákat használnak nagy adatok elemzéséhez a PySpark segítségével.
Python, Spark és Hadoop a Big Data-hez
21 ÓrákEz az oktató által vezetett, élőben zajló képzés Magyarország-ben (online vagy helyszíni) azoknak a fejlesztőknek szól, akik szeretnék használni és integrálni a Sparkot, Hadoopot és Pythont nagy és összetett adathalmazok feldolgozására, elemzésére és átalakítására.
A képzés végén a résztvevők képesek lesznek:
- Beállítani a szükséges környezetet a big data feldolgozásának megkezdéséhez Spark, Hadoop és Python segítségével.
- Megérteni a Spark és Hadoop jellemzőit, alapvető összetevőit és architektúráját.
- Megtanulni, hogyan integrálható a Spark, Hadoop és Python a big data feldolgozásához.
- Felfedezni a Spark ökoszisztéma eszközeit (Spark MLlib, Spark Streaming, Kafka, Sqoop, Kafka és Flume).
- Kollaboratív szűrésű ajánlórendszereket építeni, hasonlóan a Netflix, YouTube, Amazon, Spotify és Google rendszereihez.
- Az Apache Mahout használata gépi tanulási algoritmusok skálázására.
Apache Spark SQL
7 ÓrákA Spark SQL az Apache Spark modulja a strukturált és strukturálatlan adatok kezelésére. A Spark SQL információt nyújt az adatok szerkezetéről és a végrehajtott számításokról. Ez az információ felhasználható optimalizálások végrehajtására. A Spark SQL két gyakori használati módja:
- SQL lekérdezések végrehajtása.
- adatok olvasása egy meglévő Hive telepítésből.
Ebben az oktató által vezetett, élő képzésben (személyesen vagy távolról) a résztvevők megtanulják, hogyan elemezhetnek különböző típusú adathalmazokat a Spark SQL segítségével.
A képzés végére a résztvevők képesek lesznek:
- A Spark SQL telepítése és konfigurálása.
- Adatelemzés végrehajtása a Spark SQL segítségével.
- Különböző formátumú adathalmazok lekérdezése.
- Adatok és lekérdezési eredmények vizualizálása.
A képzés formátuma
- Interaktív előadás és vita.
- Számos gyakorlat és gyakorlati feladat.
- Gyakorlati implementáció élő laboratóriumi környezetben.
Kurzus testreszabási lehetőségek
- Ha testreszabott képzést szeretne kérni erre a kurzusra, kérjük, lépjen kapcsolatba velünk a megbeszélés érdekében.
Stratio: Rocket és Intelligence modulok PySparkkal
14 ÓrákA Stratio egy adatközpontú platform, amely a big data, az AI és a governance integrációját kínálja egyetlen megoldásban. A Rocket és Intelligence moduljai lehetővé teszik a gyors adatfeltárást, átalakítást és haladó elemzéseket vállalati környezetekben.
Ez az oktató által vezetett, élő képzés (online vagy helyszíni) középhaladó szintű adatszakembereknek szól, akik hatékonyan szeretnék használni a Rocket és Intelligence modulokat a Stratio-ban PySparkkal, különös tekintettel a ciklusstruktúrákra, felhasználó által definiált függvényekre és haladó adatlogikára.
A képzés végére a résztvevők képesek lesznek:
- Navigálni és dolgozni a Stratio platformon a Rocket és Intelligence modulok segítségével.
- PySpark alkalmazása adatbetöltés, átalakítás és elemzés során.
- Ciklusok és feltételes logika használata az adatmunkafolyamatok és a jellemzőmérnöki feladatok szabályozására.
- Felhasználó által definiált függvények (UDF) létrehozása és kezelése újrafelhasználható adatműveletekhez PySparkban.
A képzés formátuma
- Interaktív előadás és megbeszélés.
- Számos gyakorlat és gyakorlati feladat.
- Gyakorlati implementáció élő laboratóriumi környezetben.
Képzés testreszabási lehetőségei
- Ha testreszabott képzést szeretne kérni ehhez a kurzushoz, kérjük, lépjen kapcsolatba velünk.