Kurzusleírás

1.1Hadoop Fogalmak

1.1.1 HDFS

    A HDFS parancssori interfész tervezése Hadoop fájlrendszer

1.1.2 Klaszterek

    A fürt anatómiája Mater Node / Slave csomópont Név Csomópont / Adatcsomópont

1.2 Adatkezelés

1.2.1 MapReduce részletes

    Térképfázis Fázis csökkentése Keverés

1.2.2Analytics a Map Reduce funkcióval

    Csoportosítás a MapReduce segítségével Gyakorisági eloszlások és rendezés a MapReduce segítségével. Nyomtatási eredmények (GNU Plot) Hisztogramok MapReduce segítségével Scatter diagramok MapReduce segítségével Összetett adatkészletek elemzése Számlálás MapReduce és Combiner segítségével Jelentések készítése

 

1.2.3 Adattisztítás

    Dokumentumtisztítás Fuzzy karakterlánc-keresés Rögzítési hivatkozás / adatduplikáció megszüntetése Eseménydátumok átalakítása és rendezése Forrás megbízhatóságának ellenőrzése Kiugró értékek kivágása

1.2.4 Adatok kinyerése és átalakítása

    Naplók átalakítása Apache Pig használatával a szűréshez Apache Pig használata a rendezéshez Apache Pig használatával a munkamenetek létrehozásához

1.2.5 Speciális csatlakozások

    Adatok egyesítése a Mapperben a MapReduce segítségével Adatok összekapcsolása Apache Pig replikált csatlakozással Rendezett adatok összekapcsolása Apache Pig egyesítési csatlakozással Ferde adatok összekapcsolása Apache Pig ferde csatlakozással Térképoldali csatlakozás használata Apache-ban Hive Optimalizált teljes külső illesztések használata Apache-ban Hive ] Adatok összekapcsolása külső kulcsérték-tároló használatával

1.3 Teljesítménydiagnosztika és optimalizálási technikák

    Térkép A bemeneti adatok tüskéinek vizsgálata A térképoldali adatok torzítási problémáinak azonosítása Térképfeladat átviteli sebesség Kis fájlok Feloszthatatlan fájlok
Csökkentse Túl kevés vagy túl sok reduktor
  • Csökkentse az oldalsó adattorzítási problémákat
  • Csökkentse a feladatok átviteli sebességét
  • Lassú keverés és rendezés
  • Versengő munkák és ütemező szabályozás
  • Stack dumpok és nem optimalizált kód
  • Hardver hibák
  • CPU-verseny
  • Feladatok Feladatvégrehajtási idők kibontása és megjelenítése
  • A térkép profilozása és a feladatok csökkentése
  • Kerülje a reduktort
  • Szűrés és projekt
  • A kombináló használata
  • Gyors válogatás összehasonlítókkal
  • Ferde adatok gyűjtése
  • Csökkentse a ferdeség csökkentését
  • Követelmények

    A résztvevőktől nem szükséges semmilyen speciális készség, mivel a képzés a végfelhasználói készségekre összpontosít, mind az adminisztrációhoz, mind az adatok Apache alatti kezeléséhez Hadoop

     21 Hours

    Résztvevők száma



    Ár per résztvevő

    Vélemények (3)

    Rokon tanfolyam

    Rokon kategóriák