Kurzusleírás

  • Bevezetés
    • Hadoop történelem, fogalmak
    • Ökoszisztéma
    • Elosztások
    • Magas szintű architektúra
    • Hadoop mítoszok
    • Hadoop kihívások (hardver/szoftver)
    • Labs: beszélje meg Big Data projektjeit és problémáit
  • Tervezés és telepítés
    • Szoftver kiválasztása, Hadoop disztribúciók
    • A klaszter méretezése, a növekedés tervezése
    • Hardver és hálózat kiválasztása
    • Rack topológia
    • Telepítés
    • Több bérlés
    • Címtárszerkezet, naplók
    • Benchmarking
    • Labs: fürttelepítés, teljesítmény-benchmarkok futtatása
  • HDFS műveletek
    • Fogalmak (vízszintes méretezés, replikáció, adatok lokalitása, rack tudatosság)
    • Csomópontok és démonok (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Egészségügyi megfigyelés
    • Parancssori és böngésző alapú adminisztráció
    • Tárhely hozzáadása, hibás meghajtók cseréje
    • Labs: a HDFS parancssorok megismerése
  • Adatbevitel
    • Flume naplók és egyéb adatok HDFS-be történő beviteléhez
    • Sqoop SQL adatbázisból HDFS-be történő importáláshoz, valamint SQL-ba való exportáláshoz
    • Hadoop adattárház a következővel: Hive
    • Adatok másolása fürtök között (distcp)
    • Az S3 használata a HDFS kiegészítőjeként
    • Az adatfeldolgozás legjobb gyakorlatai és architektúrák
    • Labs: a Flume beállítása és használata, ugyanaz a Sqoop esetében
  • MapReduce műveletek és adminisztráció
    • Párhuzamos számítástechnika a mapreduce előtt: hasonlítsa össze a HPC és Hadoop adminisztrációt
    • MapCsökkentse a fürtterhelést
    • Csomópontok és démonok (JobTracker, TaskTracker)
    • A MapReduce UI séta
    • Mapreduce konfiguráció
    • Munka konfigurációja
    • A MapReduce optimalizálása
    • Bolondbiztos MR: mit mondjon a programozóinak
    • Labs: MapReduce példák futtatása
  • YARN: új architektúra és új képességek
    • A YARN tervezési céljai és megvalósítási architektúrája
    • Új szereplők: ResourceManager, NodeManager, Application Master
    • A YARN telepítése
    • Munkabeosztás a YARN alatt
    • Labs: vizsgálja meg a munkaütemezést
  • Haladó témák
    • Hardver megfigyelés
    • Klaszter megfigyelés
    • Szerverek hozzáadása és eltávolítása, frissítés Hadoop
    • Biztonsági mentés, helyreállítás és üzletmenet-folytonosság tervezése
    • Oozie munkafolyamatok
    • Hadoop magas rendelkezésre állás (HA)
    • Hadoop Szövetség
    • A fürt biztosítása Kerberos segítségével
    • Labs: felügyelet beállítása
  • Választható pályák
    • Cloudera Manager fürt adminisztrációhoz, figyeléshez és rutinfeladatokhoz; telepítés, használat. Ezen a pályán az összes gyakorlatot és labort a Cloudera disztribúciós környezetben (CDH5) hajtják végre.
    • Ambari fürt adminisztrációhoz, figyeléshez és rutinfeladatokhoz; telepítés, használat. Ezen a pályán minden gyakorlatot és labort az Ambari cluster manageren és a Hortonworks Data Platformon (HDP 2.0) hajtanak végre.

Követelmények

  • kényelmes az alapvető Linux rendszeradminisztrációval
  • alapvető szkriptelési ismeretek

A Hadoop és az elosztott számítástechnika ismerete nem kötelező, de a kurzus során bemutatásra kerül és elmagyarázzuk.

Labor környezet

Nulla telepítés : Nem kell hadoop szoftvert telepíteni a hallgatók gépére! Működő hadoop klasztert biztosítunk a diákok számára.

A tanulóknak a következőkre lesz szükségük

  • SSH-kliens (Linux és Mac már rendelkeznek ssh-kliensekkel, Windowshoz a Putty ajánlott)
  • egy böngésző a fürt eléréséhez. Javasoljuk a Firefox böngészőt telepített FoxyProxy kiterjesztéssel
  21 Hours
 

Résztvevők száma


Tanfolyam kezdete

Tanfolyam vége


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Vélemények (3)

Rokon tanfolyam

Rokon kategóriák