Kurzusleírás

Bevezetés az adatelemzésbe a Big Data Analyticshez

  • Adatelemzés áttekintése
  • Big Data áttekintése
  • Adatszerkezetek
  • A Big Data hajtóerői és összetettsége
  • A Big Data ökoszisztéma és az elemzés új megközelítése
  • Kulcstechnológiák a Big Data területén
  • Adatbányászat folyamatai és problémái
    • Asszociációs mintázatok bányászata
    • Adatcsoportosítás
    • Különálló adatok felismerése
    • Adatbesorolás

Bevezetés az adatelemzési életciklusba

  • Felfedezés
  • Adatelőkészítés
  • Modelltervezés
  • Modellépítés
  • Eredmények bemutatása/kommunikációja
  • Működtetés
  • Gyakorlat: Esettanulmány

Ettől a ponttól kezdve a képzés időtartamának nagy részét (80%) az R és a kapcsolódó big data technológiák példáinak és gyakorlatainak szenteljük.

Bevezetés az R használatába

  • R és Rstudio telepítése
  • Az R nyelv jellemzői
  • Objektumok az R-ben
  • Adatok az R-ben
  • Adatmanipuláció
  • Big Data problémák
  • Gyakorlatok

Bevezetés a Hadoop használatába

  • Hadoop telepítése
  • A Hadoop módok megértése
  • HDFS
  • MapReduce architektúra
  • Hadoop kapcsolódó projektek áttekintése
  • Programok írása Hadoop MapReduce-ban
  • Gyakorlatok

R és Hadoop integrálása RHadoop segítségével

  • Az RHadoop összetevői
  • RHadoop telepítése és csatlakoztatása a Hadoophoz
  • Az RHadoop architektúrája
  • Hadoop streaming R-rel
  • Adatelemzési problémák megoldása RHadoop segítségével
  • Gyakorlatok

Adatok előkészítése és feldolgozása

  • Adatelőkészítés lépései
  • Jellemző kinyerése
  • Adattisztítás
  • Adatintegráció és -transzformáció
  • Adatredukció – mintavételezés, jellemzők kiválasztása
  • Dimenziócsökkentés
  • Diszkretizálás és binelrendezés
  • Gyakorlatok és esettanulmány

Felfedező adatelemzési módszerek az R-ben

  • Deskriptív statisztika
  • Felfedező adatelemzés
  • Vizualizáció – előkészítő lépések
  • Egyváltozós vizualizáció
  • Többváltozós vizsgálat
  • Statisztikai módszerek az értékeléshez
  • Hipotézisvizsgálat
  • Gyakorlatok és esettanulmány

Adatvizualizációk

  • Alapvető vizualizációk az R-ben
  • Adatvizualizációs csomagok: ggplot2, lattice, plotly, lattice
  • Grafikonok formázása az R-ben
  • Haladó grafikonok
  • Gyakorlatok

Regresszió (jövőbeli értékek becslése)

  • Lineáris regresszió
  • Használati esetek
  • Modellleírás
  • Diagnosztika
  • Problémák a lineáris regresszióval
  • Zsugorítási módszerek, ridge regresszió, lasso
  • Általánosítások és nemlinearitás
  • Regressziós spline-ok
  • Helyi polinomiális regresszió
  • Általánosított additív modellek
  • Regresszió RHadoop segítségével
  • Gyakorlatok és esettanulmány

Osztályozás

  • Az osztályozással kapcsolatos problémák
  • Bayes-i ismétlés
  • Naiv Bayes
  • Logisztikus regresszió
  • K-legközelebbi szomszéd
  • Döntési fák algoritmusa
  • Neurális hálózatok
  • Támogató vektor gépek
  • Osztályozók diagnosztikája
  • Osztályozási módszerek összehasonlítása
  • Skálázható osztályozási algoritmusok
  • Gyakorlatok és esettanulmány

Modell teljesítményének és kiválasztásának értékelése

  • Torzítás, variancia és modell összetettség
  • Pontosság vs. értelmezhetőség
  • Osztályozók értékelése
  • Modell/algoritmus teljesítményének mérése
  • Hold-out módszer a validálásra
  • Keresztvalidálás
  • Gépi tanulási algoritmusok finomhangolása a caret csomaggal
  • Modell teljesítményének vizualizálása Profit ROC és Lift görbékkel

Együttes módszerek

  • Bagging
  • Random Forests
  • Boosting
  • Gradiens boosting
  • Gyakorlatok és esettanulmány

Támogató vektor gépek osztályozásra és regresszióra

  • Maximális margó osztályozók
    • Támogató vektor osztályozók
    • Támogató vektor gépek
    • SVM-ek osztályozási problémákra
    • SVM-ek regressziós problémákra
  • Gyakorlatok és esettanulmány

Ismeretlen csoportok azonosítása egy adathalmazban

  • Jellemző kiválasztás csoportosításhoz
  • Reprezentatív alapú algoritmusok: k-means, k-medoids
  • Hierarchikus algoritmusok: agglomeratív és diviszív módszerek
  • Valószínűségi alapú algoritmusok: EM
  • Sűrűség alapú algoritmusok: DBSCAN, DENCLUE
  • Csoportosítás validálása
  • Haladó csoportosítási fogalmak
  • Csoportosítás RHadoop segítségével
  • Gyakorlatok és esettanulmány

Kapcsolatok felfedezése linkelemzéssel

  • Linkelemzés fogalmai
  • Metrikák hálózatok elemzéséhez
  • A Pagerank algoritmus
  • Hyperlink-Induced Topic Search
  • Link előrejelzés
  • Gyakorlatok és esettanulmány

Asszociációs mintázatok bányászata

  • Gyakori mintázatok bányászati modellje
  • Skálázhatósági kérdések a gyakori mintázatok bányászatában
  • Brute Force algoritmusok
  • Apriori algoritmus
  • Az FP growth megközelítés
  • Jelölt szabályok értékelése
  • Asszociációs szabályok alkalmazásai
  • Validálás és tesztelés
  • Diagnosztika
  • Asszociációs szabályok R és Hadoop segítségével
  • Gyakorlatok és esettanulmány

Ajánlórendszerek készítése

  • Az ajánlórendszerek megértése
  • Adatbányászat technikák az ajánlórendszerekben
  • Ajánlórendszerek a recommenderlab csomaggal
  • Az ajánlórendszerek értékelése
  • Ajánlások RHadoop segítségével
  • Gyakorlat: Ajánlórendszer készítése

Szövegelemzés

  • Szövegelemzés lépései
  • Nyers szöveg gyűjtése
  • Szavak halmaza
  • Term Frequency – Inverse Document Frequency
  • Érzelemmeghatározás
  • Gyakorlatok és esettanulmány
 35 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (2)

Közelgő kurzusok

Rokon kategóriák