Kurzusleírás
-
Bevezetés
- Hadoop története, alapfogalmak
- Ökoszisztéma
- Disztribúciók
- Magas szintű architektúra
- Hadoop mítoszok
- Hadoop kihívások (hardver / szoftver)
- Laborok: viták a Big Data projektekről és problémákról
-
Tervezés és telepítés
- Szoftver kiválasztása, Hadoop disztribúciók
- A klaszter méretezése, tervezés a bővítésre
- Hardver és hálózat kiválasztása
- Rack topológia
- Telepítés
- Több-bérlős működés
- Könyvtárstruktúra, naplók
- Teljesítménymérés
- Laborok: klaszter telepítés, teljesítménymérések futtatása
-
HDFS műveletek
- Alapfogalmak (horizontális skálázás, replikáció, adatelhelyezés, rack tudatosság)
- Csomópontok és démonok (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Állapotmonitorozás
- Parancssoros és böngészőalapú adminisztráció
- Tárterület bővítése, hibás meghajtók cseréje
- Laborok: HDFS parancssorok megismerése
-
Adatbetöltés
- Flume használata naplók és egyéb adatok HDFS-be történő betöltéséhez
- Sqoop használata SQL adatbázisokból HDFS-be történő importáláshoz, valamint visszaexportáláshoz SQL-be
- Hadoop adatraktározás Hive segítségével
- Adatok másolása klaszterek között (distcp)
- S3 használata HDFS kiegészítéseként
- Adatbetöltési ajánlott eljárások és architektúrák
- Laborok: Flume beállítása és használata, ugyanez Sqoop esetében
-
MapReduce műveletek és adminisztráció
- Párhuzamos számítás mapreduce előtt: HPC és Hadoop adminisztráció összehasonlítása
- MapReduce klaszter terhelések
- Csomópontok és démonok (JobTracker, TaskTracker)
- MapReduce felhasználói felület bemutatása
- Mapreduce konfiguráció
- Feladatkonfiguráció
- MapReduce optimalizálása
- Hibabiztos MR: mit mondjunk a programozóknak
- Laborok: MapReduce példák futtatása
-
YARN: új architektúra és új képességek
- YARN tervezési célok és megvalósítási architektúra
- Új szereplők: ResourceManager, NodeManager, Application Master
- YARN telepítése
- Feladatütemezés YARN alatt
- Laborok: feladatütemezés vizsgálata
-
Haladó témák
- Hardver monitorozás
- Klaszter monitorozás
- Szerverek hozzáadása és eltávolítása, Hadoop frissítése
- Biztonsági mentés, helyreállítás és üzletmenet-folytonossági tervezés
- Oozie feladat munkafolyamatok
- Hadoop magas rendelkezésre állás (HA)
- Hadoop Föderáció
- Klaszter biztonságossá tétele Kerberos segítségével
- Laborok: monitorozás beállítása
-
Opcionális sávok
- Cloudera Manager klaszter adminisztrációhoz, monitorozáshoz és rutin feladatokhoz; telepítés, használat. Ebben a sávban minden gyakorlat és labor a Cloudera disztribúciós környezetben (CDH5) kerül végrehajtásra.
- Ambari klaszter adminisztrációhoz, monitorozáshoz és rutin feladatokhoz; telepítés, használat. Ebben a sávban minden gyakorlat és labor az Ambari klaszter kezelő és a Hortonworks Data Platform (HDP 2.0) környezetében kerül végrehajtásra.
Követelmények
- alapvető Linux rendszergazdai ismeretek
- alapvető szkriptelési készségek
A Hadoop és a elosztott számítások ismerete nem szükséges, de a tanfolyamon bemutatásra és magyarázatra kerül.
Labor környezet
Zero Install: Nincs szükség Hadoop szoftver telepítésére a tanulók gépeire! Egy működő Hadoop klaszter lesz biztosítva a tanulók számára.
A tanulóknak a következőkre lesz szükségük:
- SSH kliens (Linux és Mac rendszereken már van SSH kliens, Windows esetén a Putty ajánlott)
- böngésző a klaszter eléréséhez. A Firefox böngészőt ajánljuk a FoxyProxy kiterjesztéssel
Vélemények (5)
A élő példák
Ahmet Bolat - Accenture Industrial SS
Kurzus - Python, Spark, and Hadoop for Big Data
Gépi fordítás
A gyakorlatok során James minden lépésről részletesebben elmagyarázta nekem ahol is elakadtam. Teljesen új terület volt számomra a NIFI. Elmagyarázta a NIFI valódi célját, még az alapokat is, mint például az nyílt forráskódú szoftvereket. Minden fogalmat lefutattunk Nifi-vel, kezdőtől fejlesztőig.
Firdous Hashim Ali - MOD A BLOCK
Kurzus - Apache NiFi for Administrators
Gépi fordítás
Mint ahogy azt eleinte is tudtam.
Peter Scales - CACI Ltd
Kurzus - Apache NiFi for Developers
Gépi fordítás
gyakorlati dolgokat is elvégezhetett, sőt Ajay jóképpen elméletet is tartott
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurzus - Hadoop Administration on MapR
Gépi fordítás
Nagyon tetszett a virtuális gép. A tanár nagyon tudatos volt a téma kapcsán és más témákra is, szíves és barátságos volt. Dubaiban lévő helyszínt is nagyon tetszett.
Safar Alqahtani - Elm Information Security
Kurzus - Big Data Analytics in Health
Gépi fordítás