Kurzusleírás

Bevezetés a Data Science for Big Data Analytics-be

    Data Science Áttekintés Big Data Áttekintés Adatstruktúrák A Big Data ökoszisztéma mozgatórugói és összetettségei, valamint az analitika új megközelítése Kulcstechnológiák a Big Data adatbányászati folyamatokban és problémákban Asszociációs minta Bányászat Adatklaszterezés Outlier Detektálás Adatok osztályozása

Bevezetés a Data Analytics életciklusába

    Feltárás Adat-előkészítés Modell tervezés Modellépítés Eredmények bemutatása/Communication Operacionalizálási gyakorlat: Esettanulmány

Ettől kezdve a képzési idő nagy részét (80%-át) az R és a kapcsolódó big data technológia példáira és gyakorlataira fordítjuk.

Kezdő lépések R-vel

    Az R nyelvi objektumok R és Rstudio szolgáltatásainak telepítése R Data in R-ben Adatkezelés Big data problémák Gyakorlatok

Kezdő lépések: Hadoop

    Telepítés Hadoop Az Hadoop módok megértése HDFS MapReduce architektúra Hadoop kapcsolódó projektek áttekintése Programok írása az Hadoop MapReduce gyakorlatokban

R és Hadoop integrálása RHadoop-el

    Az RHadoop összetevői Az RHadoop telepítése és csatlakoztatása az Hadoop-hez Az RHadoop Hadoop architektúrája streaming R-vel Adatelemzési problémamegoldás az RHadoop-el Gyakorlatok

Az adatok előfeldolgozása, előkészítése

    Adat-előkészítési lépések Jellemzők kinyerése Adattisztítás Adatintegráció és átalakítás Adatcsökkentés – mintavétel, jellemző részhalmazok kiválasztása, dimenziócsökkentés Diszkretizálás és binning Gyakorlatok és Esettanulmány

Feltáró adatelemzési módszerek az R-ben

    Leíró statisztika Feltáró adatelemzés Vizualizáció – előzetes lépések Egyetlen változó vizualizálása Több változó vizsgálata Statisztikai módszerek az értékeléshez Hipotézisvizsgálat Gyakorlatok és Esettanulmány

Data Visualizations

    Alapvető vizualizációk az R csomagokban adatmegjelenítéshez ggplot2, lattice, plotly, lattice Területek formázása az R-ben Speciális gráfok Gyakorlatok

Regresszió (a jövőbeli értékek becslése)

    Lineáris regresszió Használati esetek Modell leírása Diagnosztika Lineáris regresszióval kapcsolatos problémák Zsugorítási módszerek, gerincregresszió, a lasszó Általánosítások és nemlinearitás Regressziós spline-ok Lokális polinomiális regresszió Általánosított additív modellek Regresszió R-velHadoop Gyakorlatok és Esettanulmány

Osztályozás

    Az osztályozással kapcsolatos problémák Bayes refresher Naív Bayes Logisztikai regresszió K-legközelebbi szomszédok Döntési fák algoritmus Neurális hálózatok Támogató vektorgépek Osztályozók diagnosztikája Osztályozási módszerek összehasonlítása Scala ble osztályozási algoritmusok Gyakorlatok és Esettanulmány

A modell teljesítményének értékelése és kiválasztása

    Elfogultság, szórás és modell komplexitás Pontosság vs értelmezhetőség Osztályozók kiértékelése A modell/algoritmus teljesítményének mértéke Kizárt érvényesítési módszer Keresztellenőrzés Gépi tanulási algoritmusok hangolása caret csomaggal Modell teljesítményének megjelenítése Profit ROC és Lift görbékkel

Együttes módszerek

    Bagging Random Forests Boosting Gradient boosting gyakorlatok és esettanulmány

Támogatja a vektorgépeket az osztályozáshoz és a regresszióhoz

    Maximális árrés osztályozók Támogatja vektorosztályozókat Támogatja a vektorgépeket SVM-ek osztályozási problémákhoz SVM-ek regressziós problémákhoz
Gyakorlatok és esettanulmány
  • Ismeretlen csoportosítások azonosítása egy adatkészleten belül
  • Funkciók kiválasztása a klaszterezéshez Reprezentatív alapú algoritmusok: k-középek, k-medoidok Hierarchikus algoritmusok: agglomeratív és osztó módszerek Valószínűségi alapalgoritmusok: EM Sűrűség alapú algoritmusok: DBSCAN, DENCLUE Klaszter validálás Speciális klaszterezési koncepciók R-el és klaszterezéssel

      Kapcsolatok felfedezése a hivatkozáselemzéssel

    Linkelemzési koncepciók Hálózatok elemzésének mérőszámai A Pagerank algoritmus Hyperlink-induced Topic Search Link-előrejelzési gyakorlatok és esettanulmány

      Egyesületi mintabányászat

    Gyakori mintabányászati modell Scalaképességi problémák a gyakori mintabányászatban Brute Force algoritmusok Apriori algoritmus Az FP növekedési megközelítése A jelölt szabályok értékelése Asszociációs szabályok alkalmazásai Validálás és tesztelés Diagnosztika Asszociációs szabályok R és Hadoop gyakorlatokkal és esettanulmányokkal

      Ajánlómotorok gyártása

    Ajánló rendszerek megértése Ajánló rendszerekben használt adatbányászati technikák Ajánló rendszerek ajánlólab csomaggal Ajánló rendszerek kiértékelése Ajánlások RHadoop gyakorlattal Gyakorlat: Ajánlómotor építése

      Szövegelemzés

    Szövegelemzés lépései Nyers szöveg összegyűjtése Szavak zsákja Kifejezés gyakoriság – Inverz dokumentumgyakoriság Érzelmek meghatározása Gyakorlatok és esettanulmány

      35 Hours

    Résztvevők száma



    Ár per résztvevő

    Vélemények (2)

    Rokon tanfolyam

    Unified Batch and Stream Processing with Apache Beam

      14 Hours

    Rokon kategóriák