Kurzusleírás

1. szakasz: Adatkezelés a HDFS-ben

  • Különböző adatformátumok (JSON / Avro / Parquet)
  • Tömörítési sémák
  • Adatmaszkolás
  • Laborok: Különböző adatformátumok elemzése; tömörítés engedélyezése

2. szakasz: Haladó Pig

  • Felhasználó által definiált függvények
  • Bevezetés a Pig könyvtárakba (ElephantBird / Data-Fu)
  • Komplex strukturált adatok betöltése Pig segítségével
  • Pig finomhangolása
  • Laborok: haladó Pig szkriptelés, komplex adattípusok elemzése

3. szakasz: Haladó Hive

  • Felhasználó által definiált függvények
  • Tömörített táblák
  • Hive teljesítményfinomítás
  • Laborok: tömörített táblák létrehozása, táblaformátumok és konfigurációk értékelése

4. szakasz: Haladó HBase

  • Haladó sémamodellezés
  • Tömörítés
  • Tömeges adatbetöltés
  • Széles tábla / magas tábla összehasonlítás
  • HBase és Pig
  • HBase és Hive
  • HBase teljesítményfinomítás
  • Laborok: HBase finomhangolása; HBase adatok elérése Pig és Hive segítségével; Phoenix használata adatmodellezéshez

Követelmények

  • kényelmes Java programozási nyelv használata (a legtöbb programozási gyakorlat Java nyelven történik)
  • kényelmes Linux környezetben való működés (képes navigálni a Linux parancssorban, szerkeszteni fájlokat vi / nano használatával)
  • alapvető Hadoop ismeretek.

Laboratóriumi környezet

Nulla telepítés: Nincs szükség Hadoop szoftver telepítésére a hallgatók gépeire! Egy működő Hadoop klaszter áll a hallgatók rendelkezésére.

A hallgatóknak a következőkre lesz szükségük

 21 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (5)

Közelgő kurzusok

Rokon kategóriák