Kurzusleírás

  • Bevezetés
    • Hadoop története, fogalmai
    • Ökológia
    • Elosztások
    • Magas szintű architektúra
    • Hadoop mítoszok
    • Hadoop kihívások (hardware / software)
    • Laborok: Big Data projekteid és problémáid megvitatása
  • Tervezés és telepítés
    • Szoftver, Hadoop elosztások kiválasztása
    • Csoportméret határozza meg a növekedést
    • Hardver és hálózat kiválasztása
    • Rack topológia
    • Telepítés
    • Többszöri használat
    • Katalogstruktúra, naplók
    • Teljesítményvizsgálat
    • Laborok: csoporttelepítés, teljesítményvizsgálati futtatás
  • HDFS műveletek
    • Fogalmak (horizontális méretezhetőség, másolás, adathelyesség, rack-érzékelés)
    • Csomópontok és démonok (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Egészségmegőrző
    • Parancssori és böngésző alapú adminisztráció
    • Tárhely hozzáadása, hibás meghajtók cseréje
    • Laborok: HDFS parancssorok megismerése
  • Adatbevitel
    • Flume logok és egyéb adatok bevitelihez HDFS-be
    • Sqoop importálás SQL adatbázisokból HDFS-be, és exportálás vissza SQL-be
    • Hadoop adatárház-kezelés Hive-vel
    • Adatmásolás csoportok között (distcp)
    • S3 használata HDFS kiegészítésének
    • Adatbevitel legjobb gyakorlatok és architektúrák
    • Laborok: Flume és Sqoop beállítása és használata
  • MapReduce műveletek és adminisztráció
    • Mapreduce előtt párhuzamos számítás: HPC vs Hadoop adminisztráció összehasonlítása
    • MapReduce csoportterhelés
    • Csomópontok és démonok (JobTracker, TaskTracker)
    • MapReduce UI áttekintése
    • Mapreduce konfiguráció
    • Munka konfiguráció
    • MapReduce optimalizálása
    • MR biztonsága: mi van megmondva a programozóidnak
    • Laborok: MapReduce példák futtatása
  • YARN: új architektúra és új képességek
    • YARN tervezési célok és implementációs architektúra
    • Új szereplők: ResourceManager, NodeManager, Application Master
    • YARN telepítése
    • Munkaidőzítés YARN alatt
    • Laborok: munkaidőzítés vizsgálata
  • Haladó témák
    • Hardver monitorozása
    • Csoport monitorozása
    • Szerver hozzáadása és eltávolítása, Hadoop frissítése
    • Biztonsági mentés, helyreállítás és üzleti folyamatfolyamattervezés
    • Oozie munkafolyamatok
    • Hadoop magas elérhetőség (HA)
    • Hadoop Szövetség
    • Csoportod biztonságosítása Kerberos-sal
    • Laborok: monitorozási beállítása
  • Opciós útvonalak
    • Cloudera Manager csoportadminisztrációra, monitorozásra és rutinszerű feladatokra; telepítés, használat. Ebben az útvonalban az összes gyakorlat és labor a Cloudera elosztó környezetében (CDH5) történik.
    • Ambari csoportadminisztrációra, monitorozásra és rutinszerű feladatokra; telepítés, használat. Ebben az útvonalban az összes gyakorlat és labor az Ambari csoportkezelő és a Hortonworks Data Platform (HDP 2.0) környezetében történik.

Követelmények

  • alap Linux rendszeradminisztrációval ismerkedik
  • alap szintű scriptelési készségek

A Hadoop és a szétvitt számítás ismerete nem kötelező, de a kurzus során bevezetjük és magyarázzuk.

Laboratóriumi környezet

Zero Install: Nem kell a diákok gépeire telepíteni a hadoop szoftvert! A diákoknak működő hadoop cluster lesz rendelkezésükre.

A diákoknak a következőkre lesz szükségük

  • SSH kliens (Linux és Mac már rendelkezik ssh klienssel, Windows esetében Putty ajánlott)
  • böngésző a cluster hozzáférése érdekében. Ajánlott a Firefox böngésző FoxyProxy kiterjesztéssel.
 21 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (5)

Közelgő kurzusok

Rokon kategóriák