Kurzusleírás

1. szakasz: Bevezetés a Hadoop-ba

  • Hadoop története, fogalmai
  • ökoszisztémája
  • distribúciók
  • magas szintű architektúra
  • Hadoop mítoszai
  • Hadoop kihívásai
  • hardver/szoftver
  • gyakorlat : első ismerkedés a Hadoop-val

2. szakasz: HDFS

  • tervezése és architektúrája
  • fogalmak (vízszintes skálázás, replikáció, adat helyi elérése, hordozókészlet tisztázása)
  • démonok : Namenode, Secondary namenode, Data node
  • kapcsolatok / élethüvelyek (heartbeat)
  • adat integritás
  • olvasási/írási útvonalak
  • Namenode High Availability (HA), Federation
  • gyakorlat : HDFS működésének vizsgálata

3. szakasz: Map Reduce

  • fogalmak és architektúra
  • démonok (MRV1) : jobtracker, tasktracker
  • szakaszok : vezető, mapelőkészítő, rendezés/összeállítás, csökkentő
  • Map Reduce verzió 1 és verzió 2 (YARN)
  • Map Reduce belső működése
  • Bevezetés a Java Map Reduce programba
  • gyakorlat : minta MapReduce program futtatása

4. szakasz: Pig

  • pig vs java map reduce
  • Pig munkafolyamatai
  • Pig Latin nyelv
  • ETL a Piggel
  • Átalakítások és csatlakoztatások
  • Felhasználó által definiált függvények (UDF)
  • gyakorlat : Pig szkriptek írása az adat elemzéséhez

5. szakasz: Hive

  • architektúra és tervezése
  • adattípusok
  • SQL támogatás a Hive-ban
  • Hive táblák létrehozása és lekérdezése
  • partíciók
  • csatlakoztatások
  • szövegfeldolgozás
  • gyakorlat : különböző gyakorlatok az adatfeldolgozásra a Hive-ban

6. szakasz: HBase

  • fogalmak és architektúra
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • IDőbeli adatok a HBase-ben
  • sématervezés
  • gyakorlat : interakciók a HBase shell-lel; programozás a HBase Java API-vel; sématervezés gyakorlása

Követelmények

  • megbízható a Java programozási nyelvben (a legtöbb programozási gyakorlat java-ban van)
  • megbízható Linux környezetben (képes Linux parancssori navigálásra, fájlok szerkesztésére vi vagy nano használatával)

Labor környezet

Nulla telepítés : Nincs szükség a Hadoop szoftver telepítésére az osztályozók gépeire! Egy működő Hadoop klaszter lesz rendelkezésre a tanulók számára.

A tanulóknak a következőkre lesz szükségük:

  • egy SSH klienst (Linux és Mac már rendelkezik ssh kliensekkel, Windows esetén a Putty ajánlott)
  • egy böngészőt a klaszter eléréséhez, Firefox ajánlott
 28 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (5)

Közelgő kurzusok

Rokon kategóriák