Kurzusleírás

1. szakasz: Bevezetés a Hadoopba

  • Hadoop története, fogalmak
  • ökoszisztéma
  • disztribúciók
  • magas szintű architektúra
  • Hadoop mítoszok
  • Hadoop kihívások
  • hardver / szoftver
  • labor: első pillantás a Hadoopra

2. szakasz: HDFS

  • Tervezés és architektúra
  • fogalmak (horizontális skálázás, replikáció, adat lokalitás, rack awareness)
  • Daemonok: Namenode, Secondary namenode, Data node
  • kommunikáció / szívverések
  • adatintegritás
  • olvasási / írási út
  • Namenode magas rendelkezésre állás (HA), Föderáció
  • labor: Kommunikáció a HDFS-sel

3. szakasz: Map Reduce

  • fogalmak és architektúra
  • daemonok (MRV1): jobtracker / tasktracker
  • fázisok: driver, mapper, shuffle/sort, reducer
  • Map Reduce 1. és 2. verzió (YARN)
  • A Map Reduce belső működése
  • Bevezetés a Java Map Reduce programozásba
  • labor: Egy MapReduce program futtatása

4. szakasz: Pig

  • pig vs java map reduce
  • pig munkafolyamat
  • pig latin nyelv
  • ETL a Pig segítségével
  • Transzformációk és joinok
  • Felhasználó által definiált függvények (UDF)
  • labor: Pig szkriptek írása adatelemzéshez

5. szakasz: Hive

  • architektúra és tervezés
  • adattípusok
  • SQL támogatás a Hive-ban
  • Hive táblák létrehozása és lekérdezése
  • partíciók
  • joinok
  • szövegfeldolgozás
  • labor: Különböző laborok adatfeldolgozással a Hive segítségével

6. szakasz: HBase

  • fogalmak és architektúra
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Idősoros adatok a HBase-ban
  • séma tervezés
  • labor: Kommunikáció a HBase-al a shell segítségével; programozás a HBase Java API-val; Séma tervezési gyakorlat

Követelmények

  • otthonosnak kell lenni a Java programozási nyelvben (a legtöbb programozási feladat Java nyelven történik)
  • otthonosnak kell lenni a Linux környezetben (képesnek kell lenni a Linux parancssor használatára, fájlok szerkesztésére vi vagy nano segítségével)

Laboratóriumi környezet

Nulla telepítés : Nincs szükség a Hadoop szoftver telepítésére a diákok gépeire! Egy működő Hadoop klaszter áll a diákok rendelkezésére.

A diákoknak a következőkre lesz szükségük

  • egy SSH kliens (Linux és Mac rendszereken már rendelkezésre áll SSH kliens, Windows rendszerhez a Putty ajánlott)
  • egy böngésző a klaszter eléréséhez, a Firefox ajánlott
 28 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (5)

Közelgő kurzusok

Rokon kategóriák