Kurzusleírás
Bevezetés
A Dataiku Data Science Studio (DSS) telepítése és konfigurálása
- A Dataiku DSS rendszerkövetelményei
- Az Apache Hadoop és Apache Spark integrációk beállítása
- A Dataiku DSS konfigurálása web proxykkal
- Migráció más platformokról a Dataiku DSS-re
A Dataiku DSS funkcióinak és architektúrájának áttekintése
- A Dataiku DSS alapvető objektumai és grafikonjai
- Mi az a recept a Dataiku DSS-ben?
- A Dataiku DSS által támogatott adathalmazok típusai
Dataiku DSS projekt létrehozása
Adathalmazok meghatározása adatforrásokhoz kapcsolódva a Dataiku DSS-ben
- DSS csatlakozók és fájlformátumok használata
- Standard DSS formátumok vs. Hadoop-specifikus formátumok
- Fájlok feltöltése Dataiku DSS projekthez
A kiszolgáló fájlrendszer áttekintése a Dataiku DSS-ben
Kezelt mappák létrehozása és használata
- Dataiku DSS recept mappák egyesítéséhez
- Helyi vs. nem helyi kezelt mappák
Fájlrendszer-adathalmaz létrehozása kezelt mappa tartalmakból
- Takarítások végrehajtása DSS kód recepttel
Metrikák adathalmaz és belső statisztikák adathalmaz használata
A DSS letöltési recept implementálása HTTP adathalmazhoz
SQL adathalmazok és HDFS adathalmazok áthelyezése DSS segítségével
Adathalmazok rendezése a Dataiku DSS-ben
- Írói rendezés vs. olvasási időbeli rendezés
Adatvizualizációk feltárása és előkészítése Dataiku DSS projekthez
A Dataiku sémák, tárolási típusok és jelentések áttekintése
Adattisztítás, normalizálás és gazdagítási szkriptek végrehajtása a Dataiku DSS-ben
A Dataiku DSS diagramok felületének és a vizuális aggregációk típusainak használata
A DSS interaktív statisztikai funkciójának használata
- Egyváltozós elemzés vs. kétváltozós elemzés
- A Főkomponens-elemzés (PCA) DSS eszköz használata
Gépi tanulás áttekintése a Dataiku DSS-vel
- Felügyelt ML vs. felügyelet nélküli ML
- Referenciák a DSS ML algoritmusokhoz és funkciókezeléshez
- Mélytanulás a Dataiku DSS-vel
A DSS adathalmazokból és receptekből származó folyamat áttekintése
Meglévő adathalmazok átalakítása DSS-ben vizuális receptekkel
Felhasználó által definiált kódokon alapuló DSS receptek használata
Kódok feltárásának és kísérletezésének optimalizálása DSS kód jegyzetfüzetekkel
Speciális DSS vizualizációk és egyéni frontend funkciók írása webalkalmazásokkal
A Dataiku DSS kódjelentések funkciójának használata
Adatprojekt elemek megosztása és a DSS irányítópult megismerése
Dataiku DSS projekt tervezése és csomagolása újrafelhasználható alkalmazásként
Speciális módszerek áttekintése a Dataiku DSS-ben
- Optimalizált adathalmazok particionálásának implementálása DSS segítségével
- Specifikus DSS feldolgozási részek végrehajtása Kubernetes konténerekben
Együttműködés és verziókövetés áttekintése a Dataiku DSS-ben
Automatizációs forgatókönyvek, metrikák és ellenőrzések implementálása DSS projekt teszteléséhez
Projekt üzembe helyezése és frissítése a DSS automatizációs csomópont és csomagok segítségével
Valós idejű API-k használata a Dataiku DSS-ben
- További API-k és Rest API-k a DSS-ben
Idősorok elemzése és előrejelzése a Dataiku DSS-vel
Projekt biztonságossá tétele a Dataiku DSS-ben
- Projekt engedélyek és irányítópult engedélyezések kezelése
- Speciális biztonsági beállítások implementálása
A Dataiku DSS integrálása a felhővel
Hibaelhárítás
Összefoglalás és befejezés
Követelmények
- Tapasztalat Python, SQL és R programozási nyelvekkel
- Alapvető ismeretek az Apache Hadoop és Spark adatfeldolgozásáról
- Megértése a gépi tanulási fogalmaknak és adatmodelleknek
- Háttértudás statisztikai elemzésekben és adattudományi fogalmakban
- Tapasztalat az adatok vizualizálásában és kommunikálásában
Közönség
- Mérnökök
- Adattudósok
- Adatelemzők