Kurzusleírás

  • Bevezetés
    • Hadoop története, alapfogalmak
    • Ökoszisztéma
    • Disztribúciók
    • Magas szintű architektúra
    • Hadoop mítoszok
    • Hadoop kihívások (hardver / szoftver)
    • Laborok: viták a Big Data projektekről és problémákról
  • Tervezés és telepítés
    • Szoftver kiválasztása, Hadoop disztribúciók
    • A klaszter méretezése, tervezés a bővítésre
    • Hardver és hálózat kiválasztása
    • Rack topológia
    • Telepítés
    • Több-bérlős működés
    • Könyvtárstruktúra, naplók
    • Teljesítménymérés
    • Laborok: klaszter telepítés, teljesítménymérések futtatása
  • HDFS műveletek
    • Alapfogalmak (horizontális skálázás, replikáció, adatelhelyezés, rack tudatosság)
    • Csomópontok és démonok (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Állapotmonitorozás
    • Parancssoros és böngészőalapú adminisztráció
    • Tárterület bővítése, hibás meghajtók cseréje
    • Laborok: HDFS parancssorok megismerése
  • Adatbetöltés
    • Flume használata naplók és egyéb adatok HDFS-be történő betöltéséhez
    • Sqoop használata SQL adatbázisokból HDFS-be történő importáláshoz, valamint visszaexportáláshoz SQL-be
    • Hadoop adatraktározás Hive segítségével
    • Adatok másolása klaszterek között (distcp)
    • S3 használata HDFS kiegészítéseként
    • Adatbetöltési ajánlott eljárások és architektúrák
    • Laborok: Flume beállítása és használata, ugyanez Sqoop esetében
  • MapReduce műveletek és adminisztráció
    • Párhuzamos számítás mapreduce előtt: HPC és Hadoop adminisztráció összehasonlítása
    • MapReduce klaszter terhelések
    • Csomópontok és démonok (JobTracker, TaskTracker)
    • MapReduce felhasználói felület bemutatása
    • Mapreduce konfiguráció
    • Feladatkonfiguráció
    • MapReduce optimalizálása
    • Hibabiztos MR: mit mondjunk a programozóknak
    • Laborok: MapReduce példák futtatása
  • YARN: új architektúra és új képességek
    • YARN tervezési célok és megvalósítási architektúra
    • Új szereplők: ResourceManager, NodeManager, Application Master
    • YARN telepítése
    • Feladatütemezés YARN alatt
    • Laborok: feladatütemezés vizsgálata
  • Haladó témák
    • Hardver monitorozás
    • Klaszter monitorozás
    • Szerverek hozzáadása és eltávolítása, Hadoop frissítése
    • Biztonsági mentés, helyreállítás és üzletmenet-folytonossági tervezés
    • Oozie feladat munkafolyamatok
    • Hadoop magas rendelkezésre állás (HA)
    • Hadoop Föderáció
    • Klaszter biztonságossá tétele Kerberos segítségével
    • Laborok: monitorozás beállítása
  • Opcionális sávok
    • Cloudera Manager klaszter adminisztrációhoz, monitorozáshoz és rutin feladatokhoz; telepítés, használat. Ebben a sávban minden gyakorlat és labor a Cloudera disztribúciós környezetben (CDH5) kerül végrehajtásra.
    • Ambari klaszter adminisztrációhoz, monitorozáshoz és rutin feladatokhoz; telepítés, használat. Ebben a sávban minden gyakorlat és labor az Ambari klaszter kezelő és a Hortonworks Data Platform (HDP 2.0) környezetében kerül végrehajtásra.

Követelmények

  • alapvető Linux rendszergazdai ismeretek
  • alapvető szkriptelési készségek

A Hadoop és a elosztott számítások ismerete nem szükséges, de a tanfolyamon bemutatásra és magyarázatra kerül.

Labor környezet

Zero Install: Nincs szükség Hadoop szoftver telepítésére a tanulók gépeire! Egy működő Hadoop klaszter lesz biztosítva a tanulók számára.

A tanulóknak a következőkre lesz szükségük:

  • SSH kliens (Linux és Mac rendszereken már van SSH kliens, Windows esetén a Putty ajánlott)
  • böngésző a klaszter eléréséhez. A Firefox böngészőt ajánljuk a FoxyProxy kiterjesztéssel
 21 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (5)

Közelgő kurzusok

Rokon kategóriák