Kurzusleírás

1. szakasz: Adattárgyalás az HDFS-ben

  • Egyéb adatformátok (JSON / Avro / Parquet)
  • Tömörítési séma
  • Adatmaszkolódás
  • Gyakorlat: különböző adatformátumok elemzése; tömörítés engedélyezése

2. szakasz: Fejlett Pig

  • Felhasználói függvények
  • Egy bevezetés a Pig könyvtárakba (ElephantBird / Data-Fu)
  • Összetett strukturált adatok betöltése Pig segítségével
  • Pig hangolása
  • Gyakorlat: fejlett Pig szkriptek írása, összetett adattípusok elemzése

3. szakasz: Fejlett Hive

  • Felhasználói függvények
  • Tömörített táblák
  • Hive teljesítményhangolása
  • Gyakorlat: tömörített táblák létrehozása, táblatípusok és konfiguráció értékelése

4. szakasz: Fejlett HBase

  • Fejlett séma modellezés
  • Tömörítés
  • Tömeges adatbevitel
  • Széles-táblázatok és magas-táblázatok összevetése
  • HBase és Pig
  • HBase és Hive
  • HBase teljesítményhangolása
  • Gyakorlat: HBase hangolása; HBase adatok elérésének megvalósítása Pig és Hive segítségével; Phoenix használata az adatmodellezéshez

Követelmények

  • kényelmes a Java programozási nyelv használatában (a legtöbb programozási gyakorlat java-ban van)
  • kényelmes a Linux környezetben (képesség Linux parancssori navigálásra, fájlok szerkesztésére vi vagy nano használatával)
  • működőképes ismeret a Hadoop-ról.

Labor környezet

Nulla telepítés: Nem szükséges hadoop-szoftverek telepítése a tanulók gépeire! A tanulóknak működő Hadoop-klaszter lesz nyújtva.

A tanulóknak a következőkre van szükségük

 21 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (5)

Közelgő kurzusok

Rokon kategóriák