Kurzusleírás

Bevezetés a nagyadatok analitikájához használt adatkutatásba

  • Áttekintés az adatkutatásról
  • Áttekintés a nagyadatokról
  • Adatszerkezetek
  • A nagyadatok okai és bonyolultságai
  • A nagyadatok ökoszisztémája és az analitika új megközelítése
  • A nagyadatok kulcsfontosságú technológiái
  • Az adattárképzés folyamat és problémái
    • Associációs mintázat-kutatás
    • Adatcsoportosítás
    • Kilógó értékek felismerése
    • Adat osztályozása

A nagyadat-Analitika élettartamának bevezetése

  • Felfedezés
  • Adat előkészítés
  • Modell tervezése
  • Modell építése
  • Eredmények bemutatása/kommunikálása
  • Operacionalizálás
  • Gyakorlat: Eset tanulmány

Ezen a ponton a legtöbb képzési idő (80%) példák és gyakorlatok teljesítésére fog kerülni R-ben és kapcsolódó nagyadat technológiákban.

Elindulás R-vel

  • R és RStudio telepítése
  • R nyelv jellemzői
  • Objektumok R-ben
  • Adatok R-ben
  • Adatmanipuláció
  • Nagyadat-problémák
  • Gyakorlatok

Elindulás Hadoop-jel

  • Hadoop telepítése
  • A Hadoop módok megértése
  • HDFS
  • A MapReduce architektúra
  • A Hadoophoz kapcsolódó projektek áttekintése
  • Programozás Hadoop MapReduce-ben
  • Gyakorlatok

R és Hadoop integrálása RHadoop-jel

  • A RHadoop komponensei
  • RHadoop telepítése és csatlakoztatása Hadoop-hoz
  • A RHadoop architektúra
  • Hadoop streaming R-ben
  • Adat-analitika problémamegoldás RHadoop-jel
  • Gyakorlatok

Adat előkészítés és előkészítés

  • Adat előkészítés lépései
  • Jellemző kivonás
  • Adat tisztítás
  • Adat integrálás és átalakítás
  • Adat redukció – mintavételezés, jellemzők alválogatása
  • Dimenzionalitás-redukció
  • Diszkretizáció és oszlopozás
  • Gyakorlatok és eset tanulmány

R-ben alkalmazott kutatási adatanalitikai módszerek

  • Descriptív statisztika
  • Kutatási adatanalitika
  • Visualizáció – előkészítő lépések
  • Egy változó visualizálása
  • Több változó vizsgálata
  • A kutatáshoz szükséges statisztikai módszerek
  • Hipotézis tesztelés
  • Gyakorlatok és eset tanulmány

Adatvizualizációk

  • Alapvizualizációk R-ben
  • Adatvizualizációhoz használt csomagok: ggplot2, lattice, plotly, lattice
  • A grafikonok formázása R-ben
  • Fejlett grafikonok
  • Gyakorlatok

Regresszió (Jövő értékbecslés)

  • Lineáris regresszió
  • Felhasználási esetek
  • Modell leírása
  • Diagnosztika
  • A lineáris regresszió problémái
  • Shrinkage módszerek, ridge regresszió, a lasso
  • Általánosítások és nemlineáris módok
  • Regressziós spline-ek
  • Lokális polinom regresszió
  • Általánosított additív modellek
  • Regresszió RHadoop-jel
  • Gyakorlatok és eset tanulmány

Osztályozás

  • Osztályozással kapcsolatos problémák
  • Bayesian frissítés
  • Naïve Bayes
  • Logisztikus regresszió
  • Legközelebbi k-vicciny
  • Döntési fa algoritmus
  • Neural hálózatok
  • Support vector machines
  • Osztályozók diagnosztikája
  • Osztályozási módszerek összehasonlítása
  • Méretezett osztályozási algoritmusok
  • Gyakorlatok és eset tanulmány

A modell teljesítményének értékelése és kiválasztása

  • Hozam, variancia és modellbonyolultság
  • Pontosság vs. Interpretálhatóság
  • Osztályozók értékelése
  • A modell/algoritmus teljesítményének mérései
  • A tartalékvalidációs módszer
  • Keresztvalidáció
  • A caret csomaggal történő gép tanulási algoritmusok finomítása
  • A modell teljesítményének visualizálása Profit ROC és Lift görbékkel

Ensemble módszerek

  • Bagging
  • Random Forests
  • Boosting
  • Graduális boosting
  • Gyakorlatok és eset tanulmány

Support vector machines osztályozásra és regresszióra

  • Maximum Margin osztályozók
    • Support vector osztályozók
    • Support vector machines
    • SVM-ek osztályozási problémákra
    • SVM-ek regressziós problémákra
  • Gyakorlatok és eset tanulmány

A dataseten belül ismeretlen csoportok azonosítása

  • Jellemzők kiválasztása a csoportosításhoz
  • Representatív alapú algoritmusok: k-means, k-medoids
  • Hierarchikus algoritmusok: agglomeratív és osztó módszerek
  • Probabilisztikus alapú algoritmusok: EM
  • Sűrűség alapú algoritmusok: DBSCAN, DENCLUE
  • Csoportosítás érvényesítése
  • Fejlett csoportosítási koncepciók
  • Csoportosítás RHadoop-jel
  • Gyakorlatok és eset tanulmány

A kapcsolatok feltárása a Link Analizisszel

  • Link analitika koncepciók
  • Hálózatok elemzéséhez használt mutatók
  • A Pagerank algoritmus
  • Hyperlink-Induced Topic Search
  • Link előrejelzés
  • Gyakorlatok és eset tanulmány

Associációs mintázat-kutatás

  • A gyakori mintázat-kutatási modell
  • A gyakori mintázat-kutatás skalázhatósági problémái
  • Brute Force algoritmusok
  • Apriori algoritmus
  • A FP growth megközelítés
  • A jelöltek szabályainak értékelése
  • Associációs szabályok alkalmazása
  • Érvényesítés és tesztelés
  • Diagnosztika
  • Associációs szabályok R-ben és Hadoop-jel
  • Gyakorlatok és eset tanulmány

A javaslat motorok létrehozása

  • A javaslatrendszerek megértése
  • A javaslatrendszerekben használt adattárképzési technikák
  • A javaslatrendszerek a recommenderlab csomaggal
  • A javaslatrendszerek értékelése
  • Javaslatok RHadoop-jel
  • Gyakorlat: Javaslatmotor építése

Szöveg elemzés

  • A szöveg elemzés lépései
  • A nyers szöveg gyűjtése
  • A szavak táska
  • A szógyakoriság–dokumentumfrekvencia
  • A hangulat meghatározása
  • Gyakorlatok és eset tanulmány
 35 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (2)

Közelgő kurzusok

Rokon kategóriák