Kurzusleírás

1.1Hadoop Fogalmak

1.1.1 HDFS

    A HDFS parancssori interfész tervezése Hadoop fájlrendszer

1.1.2 Klaszterek

    A fürt anatómiája Mater Node / Slave csomópont Név Csomópont / Adatcsomópont

1.2 Adatkezelés

1.2.1 MapReduce részletes

    Térképfázis Fázis csökkentése Keverés

1.2.2Analytics a Map Reduce funkcióval

    Csoportosítás a MapReduce segítségével Gyakorisági eloszlások és rendezés a MapReduce segítségével. Nyomtatási eredmények (GNU Plot) Hisztogramok MapReduce segítségével Scatter diagramok MapReduce segítségével Összetett adatkészletek elemzése Számlálás MapReduce és Combiner segítségével Jelentések készítése

 

1.2.3 Adattisztítás

    Dokumentumtisztítás Fuzzy karakterlánc-keresés Rögzítési hivatkozás / adatduplikáció megszüntetése Eseménydátumok átalakítása és rendezése Forrás megbízhatóságának ellenőrzése Kiugró értékek kivágása

1.2.4 Adatok kinyerése és átalakítása

    Naplók átalakítása Apache Pig használatával a szűréshez Apache Pig használata a rendezéshez Apache Pig használatával a munkamenetek létrehozásához

1.2.5 Speciális csatlakozások

    Adatok egyesítése a Mapperben a MapReduce segítségével Adatok összekapcsolása Apache Pig replikált csatlakozással Rendezett adatok összekapcsolása Apache Pig egyesítési csatlakozással Ferde adatok összekapcsolása Apache Pig ferde csatlakozással Térképoldali csatlakozás használata Apache-ban Hive Optimalizált teljes külső illesztések használata Apache-ban Hive ] Adatok összekapcsolása külső kulcsérték-tároló használatával

1.3 Teljesítménydiagnosztika és optimalizálási technikák

    Térkép A bemeneti adatok tüskéinek vizsgálata A térképoldali adatok torzítási problémáinak azonosítása Térképfeladat átviteli sebesség Kis fájlok Feloszthatatlan fájlok
Csökkentse Túl kevés vagy túl sok reduktor
  • Csökkentse az oldalsó adattorzítási problémákat
  • Csökkentse a feladatok átviteli sebességét
  • Lassú keverés és rendezés
  • Versengő munkák és ütemező szabályozás
  • Stack dumpok és nem optimalizált kód
  • Hardver hibák
  • CPU-verseny
  • Feladatok Feladatvégrehajtási idők kibontása és megjelenítése
  • A térkép profilozása és a feladatok csökkentése
  • Kerülje a reduktort
  • Szűrés és projekt
  • A kombináló használata
  • Gyors válogatás összehasonlítókkal
  • Ferde adatok gyűjtése
  • Csökkentse a ferdeség csökkentését
  • Követelmények

    A résztvevőktől nem szükséges semmilyen speciális készség, mivel a képzés a végfelhasználói készségekre összpontosít, mind az adminisztrációhoz, mind az adatok Apache alatti kezeléséhez Hadoop

     21 Hours

    Résztvevők száma



    Ár per résztvevő

    Vélemények (6)

    Rokon tanfolyam

    Big Data Analytics in Health

    21 Hours

    Rokon kategóriák