Kurzusleírás

Az adatelemzés és a Big Adat bevezetése

  • Mit tesz nagynak a Big Adatot?
    • Sebesség, Mennyiség, Képzett, Hitelesség (SSSS)
  • A hagyományos adatfeldolgozási határok
  • Decentralizált feldolgozás
  • Statisztikai elemzés
  • Gépi tanulás típusai
  • Adategyértelmítés

A Big Adat szerepkörei és feladatai

  • Rendszergazdák
  • Fejlesztők
  • Adatanalitikusok

Az adatelemzésben használt programozási nyelvek

  • R nyelv
    • Miért a R nyelvet kell használni az adatelemzéshez?
    • Adatmanipuláció, kalkuláció és grafikus megjelenítés
  • Python
    • Miért a Pythonot kell használni az adatelemzéshez?
    • Adatmanipuláció, feldolgozás, tisztítás és elemzés

Az adatelemzés megközelítései

  • Statisztikai elemzés
    • Idősoros elemzés
    • Korrelációs és regressziós modell alapú előrejelzés
    • Inferenciális statisztika (becslés)
    • Nagy adathalmazok leíró statisztikája (pl. átlag számítása)
  • Gépi tanulás
    • Ütemezett vs. nem ütemezett tanulás
    • Klasszifikáció és csoportosítás
    • Adott módszerek költségainak becslése
    • Szűrés
  • Nyelvi elemzés
    • Szövegfeldolgozás
    • Szöveg jelentésének megértése
    • Automatikus szöveg generálás
    • Hangulat és téma analízis
  • Képfeldolgozás
    • Képek beszerzése, feldolgozása, elemzése és értelmezése
    • Háromdimenziós jelenetek rekonstrukciója, értelmezése és megértése
    • Döntéshozatal képadatok alapján

A Big Adat infrastruktúrája

  • Adattárolás
    • Közvetlen adatbázisok (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Nem közvetlen adatbázisok (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4j
    • A különbségek megértése
      • Rendszertani adatbázisok
      • Objektumorientált adatbázisok
      • Dokumentumorientált adatbázisok
      • Gráforientált adatbázisok
      • Egyéb
  • Decentralizált feldolgozás
    • Hadoop
      • A HDFS decentralizált fájlrendszer
      • A MapReduce decentralizált feldolgozó rendszersémája
    • Spark
      • Egységes, memória-alapú nagymértékű adatfeldolgozási környezet
      • Strukturális streaming
      • Spark SQL
      • Gépi tanulás könyvtárak: MLlib
      • Gráf feldolgozás a GraphX segítségével
  • Skálázhatóság
    • Közvetlen felhő
      • AWS, Google, Aliyun stb.
    • Egyéni felhő
      • OpenStack, Cloud Foundry stb.
    • Automatikus skálázás

A megfelelő megoldás kiválasztása a problémához

A Big Adat jövője

Összefoglaló és következő lépések

Követelmények

  • Általános matematikai ismeretek
  • Általános programozási ismeretek
  • Általános adatbázis-kezelési ismeretek

Célcsoport

  • Fejlesztők / programozók
  • IT konzultánsok
 35 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (7)

Közelgő kurzusok

Rokon kategóriák