Kurzusleírás
Bevezetés
Dataiku Data Science Studio (DSS) telepítése és konfigurálása
- Dataiku DSS rendszerkövetelmények
- Apache Hadoop és Apache Spark integrációinak beállítása
- Dataiku DSS konfigurálása webfelületekkel
- Átállítás más platformokra Dataiku DSS-re
Áttekintés a Dataiku DSS funkciókról és architektúrájáról
- Dataiku DSS alapjául szolgáló objektumok és gráfok
- Mi az a receptek Dataiku DSS-ben?
- Dataiku DSS által támogatott adathalmazok típusai
Dataiku DSS projekt létrehozása
Adathalmazok meghatározása adatokhoz való csatlakozásra Dataiku DSS-ben
- DSS-vel való munkavégzés és fájlformátumok
- Standard DSS formátumok vs. Hadoop-specifikus formátumok
- Fájlok feltöltése egy Dataiku DSS projekthez
Áttekintés a Dataiku DSS szerver fájlrendszeréről
Kezelő mappák létrehozása és használata
- Dataiku DSS receptek egyesítő mappákhoz
- Helyi vs. nem helyi kezelő mappák
Fájlrendszer adathalmaz létrehozása kezelő mappa tartalmakkal
- DSS kód receptekkel történő takarítások végrehajtása
Munka a Metrics Dataset és az Internal Stats Dataset-tel
DSS Download receptek implementálása HTTP Dataset-hez
SQL adathalmazok és HDFS adathalmazok áthelyezése DSS-sel
Adathalmazok rendezése Dataiku DSS-ben
- Író rendezése vs. olvasási időbeni rendezés
Adatok felfedezése és előkészítése Dataiku DSS projektben
Áttekintés a Dataiku sémákról, tárolási típusokról és jelentésekről
Adat tisztítás, normalizálás és gazdagítási szkript futtatása Dataiku DSS-ben
Munka a Dataiku DSS grafikus felülettel és a vizuális agregációk típusával
DSS interaktív statisztikai funkciójának használata
- Egyváltozós analízis vs. kétváltozós analízis
- A DSS PCA (Principal Component Analysis) eszköz használata
Áttekintés a gépi tanulásról Dataiku DSS-ben
- Felügyelt ML vs. fel nem ügyelt ML
- DSS ML algoritmusok és funkciókezelés hivatkozások
- Mély tanulás Dataiku DSS-ben
Áttekintés a DSS adathalmazokból és recepteknél származó folyamatról
Adathalmazok átalakítása DSS vizuális receptekkel
DSS receptek használata felhasználói kód alapján
DSS kódfüzetekkel történő kódfelfedezés és kísérletezés optimalizálása
Webapp-ök segítségével fejlett DSS vizualizációk és saját frontendi funkciók létrehozása
Munka a Dataiku DSS kódjelentések funkciójával
Adatprojektek elemeinek megosztása és ismerkedés a DSS dashboarddal
Dataiku DSS projekt tervezése és csomagolása újrafelhasználható alkalmazásként
Áttekintés az Dataiku DSS előrehaladott módszereiről
- DSS által támogatott optimalizált adathalmaz részek létrehozása
- DSS-szel történő specifikus részfolyamatok végrehajtása Kubernetes konténerben
Áttekintés a együttműködésről és verziókezelésről Dataiku DSS-ben
Automatizálási szenáriók, metrikák és ellenőrzések implementálása DSS projekt teszteléséhez
Projekt telepítése és frissítése DSS Automatizálási Csomópontokkal és csomagokkal
Munka a valós idejű API-kkal Dataiku DSS-ben
- DSS további API-k és REST API-k
Dataiku DSS idősorok elemzése és előrejelzése
Projekt biztonsága Dataiku DSS-ben
- Projekt engedélyek és dashboard jogosultságok kezelése
- Előrehaladott biztonsági beállítások implementálása
Dataiku DSS integrálása a felhővel
Hibaelhárítás
Összegzés és záróelőkészítés
Követelmények
- Python, SQL és R programozási nyelvekkel való tapasztalat
- Alapvető ismeret az Apache Hadoop és Spark adatok feldolgozásáról
- Értés a machine learning fogalmakról és adattípusokról
- Statisztikai elemzések és data science fogalmakkal való háttér
- Tapasztalat az adatok vizualizálásában és kommunikációjában
Célközönség
- Mérnökök
- Data tudósok
- Adat elemzők