Kurzusleírás

1.1Hadoop Fogalmak

1.1.1 HDFS

    A HDFS parancssori interfész tervezése Hadoop fájlrendszer

1.1.2 Klaszterek

    A fürt anatómiája Mater Node / Slave csomópont Név Csomópont / Adatcsomópont

1.2 Adatkezelés

1.2.1 MapReduce részletes

    Térképfázis Fázis csökkentése Keverés

1.2.2Analytics a Map Reduce funkcióval

    Csoportosítás a MapReduce segítségével Gyakorisági eloszlások és rendezés a MapReduce segítségével. Nyomtatási eredmények (GNU Plot) Hisztogramok MapReduce segítségével Scatter diagramok MapReduce segítségével Összetett adatkészletek elemzése Számlálás MapReduce és Combiner segítségével Jelentések készítése

 

1.2.3 Adattisztítás

    Dokumentumtisztítás Fuzzy karakterlánc-keresés Rögzítési hivatkozás / adatduplikáció megszüntetése Eseménydátumok átalakítása és rendezése Forrás megbízhatóságának ellenőrzése Kiugró értékek kivágása

1.2.4 Adatok kinyerése és átalakítása

    Naplók átalakítása Apache Pig használatával a szűréshez Apache Pig használata a rendezéshez Apache Pig használatával a munkamenetek létrehozásához

1.2.5 Speciális csatlakozások

    Adatok egyesítése a Mapperben a MapReduce segítségével Adatok összekapcsolása Apache Pig replikált csatlakozással Rendezett adatok összekapcsolása Apache Pig egyesítési csatlakozással Ferde adatok összekapcsolása Apache Pig ferde csatlakozással Térképoldali csatlakozás használata Apache-ban Hive Optimalizált teljes külső illesztések használata Apache-ban Hive ] Adatok összekapcsolása külső kulcsérték-tároló használatával

1.3 Teljesítménydiagnosztika és optimalizálási technikák

    Térkép A bemeneti adatok tüskéinek vizsgálata A térképoldali adatok torzítási problémáinak azonosítása Térképfeladat átviteli sebesség Kis fájlok Feloszthatatlan fájlok
Csökkentse Túl kevés vagy túl sok reduktor
  • Csökkentse az oldalsó adattorzítási problémákat
  • Csökkentse a feladatok átviteli sebességét
  • Lassú keverés és rendezés
  • Versengő munkák és ütemező szabályozás
  • Stack dumpok és nem optimalizált kód
  • Hardver hibák
  • CPU-verseny
  • Feladatok Feladatvégrehajtási idők kibontása és megjelenítése
  • A térkép profilozása és a feladatok csökkentése
  • Kerülje a reduktort
  • Szűrés és projekt
  • A kombináló használata
  • Gyors válogatás összehasonlítókkal
  • Ferde adatok gyűjtése
  • Csökkentse a ferdeség csökkentését
  • Követelmények

    A résztvevőktől nem szükséges semmilyen speciális készség, mivel a képzés a végfelhasználói készségekre összpontosít, mind az adminisztrációhoz, mind az adatok Apache alatti kezeléséhez Hadoop

      21 Hours
     

    Résztvevők száma


    Tanfolyam kezdete

    Tanfolyam vége


    Dates are subject to availability and take place between 09:30 and 16:30.
    Open Training Courses require 5+ participants.

    Vélemények (3)

    Rokon tanfolyam

    Rokon kategóriák