Kurzusleírás

Minden foglalkozás 2 órás

1. nap: Session -1: Business A miértek áttekintése Big Data Business Intelligence in Govt.

  • Esettanulmányok az NIH-tól, DoE
  • Big Data alkalmazkodási arány a Govt. Ügynökségek és hogyan igazítják jövőbeli működésüket a Big Data Predictive Analytics körébe
  • Széles körű alkalmazási terület a DoD, NSA, IRS, USDA stb.
  • Interfész Big Data a régi adatokkal
  • Alapvető ismeretek az engedélyező technológiákról a prediktív analitikában
  • Data Integration és az irányítópult megjelenítése
  • Csaláskezelés
  • Business Szabály/csalásfelderítés generálása
  • Fenyegetésészlelés és profilalkotás
  • Költség-haszon elemzés a Big Data megvalósításhoz

1. nap: Session-2 : A Big Data-1 bemutatása

  • A Big Data fő jellemzői a térfogat, a változatosság, a sebesség és a hitelesség. MPP architektúra a kötethez.
  • Data Warehouses – statikus séma, lassan fejlődő adatkészlet
  • MPP Database, mint a Greenplum, Exadata, Teradata, Netezza, Vertica stb.
  • Hadoop Based Solutions – nincs feltétel az adatkészlet szerkezetére vonatkozóan.
  • Tipikus minta: HDFS, MapReduce (crunch), visszakeresés a HDFS-ből
  • Batch- alkalmas elemző/nem interaktív
  • Hangerő: CEP streaming adatok
  • Tipikus választások – CEP termékek (pl. Infostreams, Apama, MarkLogic stb.)
  • Kevesebb gyártásra kész – Storm/S4
  • NoSQL Databases – (oszlop és kulcsérték): A legalkalmasabb az adattárház/adatbázis elemző kiegészítőjeként

1. nap: -3. foglalkozás: Bevezetés a Big Data-2

NoSQL megoldások

  • KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hierarchikus) - GT.m, gyorsítótár
  • KV Store (megrendelve) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV gyorsítótár - Memcached, újragyorsított, koherencia, végtelen, EXtremeScale, JBoss gyorsítótár, sebesség, terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Database objektum – ZopeDB, DB40, Shoal
  • Dokumentumtár - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Változatos adatok: Bevezetés a Data Cleaning kiadáshoz a Big Data-ban

  • RDBMS – statikus szerkezet/séma, nem segíti elő az agilis, felfedező környezetet.
  • NoSQL – félig strukturált, elegendő struktúra az adatok pontos séma nélküli tárolására az adatok tárolása előtt
  • Adattisztítási problémák

1. nap : 4. foglalkozás: Big Data Bevezetés-3 : Hadoop

  • Mikor kell kiválasztani a Hadoop-et?
  • STRUKTURÁLT – A vállalati adattárházak/adatbázisok hatalmas mennyiségű adat tárolására képesek (áron), de struktúrát szabnak meg (nem jó az aktív feltáráshoz)
  • FÉLSZERKEZETT adatok – nehéz megcsinálni a hagyományos megoldásokkal (DW/DB)
  • Raktári adatok = HATALMAS erőfeszítés és statikus még a megvalósítás után is
  • Az adatok sokféleségéért és mennyiségéért, árucikk hardveren – HADOOP
  • H/W árucikk szükséges egy Hadoop fürt létrehozásához

A Map Reduce /HDFS bemutatása

  • MapReduce – a számítástechnika elosztása több szerveren
  • HDFS – az adatokat helyileg elérhetővé teszi a számítási folyamat számára (redundanciával)
  • Adatok – lehetnek strukturálatlanok/séma nélküliek (ellentétben az RDBMS-szel)
  • A fejlesztő felelőssége az adatok értelmezésében
  • Programming MapReduce = munka a Java-al (előnyök/hátrányok), adatok manuális betöltése HDFS-be

2. nap: 1. munkamenet: Big Data Ökoszisztéma-építés Big Data ETL: Big Data Eszközök univerzuma – melyiket használja és mikor?

  • Hadoop vs. Egyéb NoSQL megoldások
  • Az adatok interaktív, véletlenszerű eléréséhez
  • Hbase (oszloporientált adatbázis) a Hadoop tetején
  • Véletlenszerű hozzáférés az adatokhoz, de korlátozások (max 1 PB)
  • Nem jó ad-hoc elemzéshez, jó naplózáshoz, számláláshoz, idősorokhoz
  • Sqoop – Importálás adatbázisokból Hive-ba vagy HDFS-be (JDBC/ODBC hozzáférés)
  • Flume – Adatok (pl. naplóadatok) továbbítása HDFS-be

2. nap: 2. munkamenet: Big Data Management Rendszer

  • Mozgó alkatrészek, számítási csomópontok indítása/hiba :ZooKeeper - Konfigurációs/koordinációs/elnevezési szolgáltatásokhoz
  • Összetett folyamat/munkafolyamat: Oozie – kezelheti a munkafolyamatot, a függőségeket, a láncszemeket
  • Telepítés, konfigurálás, fürtkezelés, frissítés stb (rendszergazda) :Ambari
  • Felhőben: Whirr

2. nap: 3. munkamenet: Prediktív elemzés az Business Intelligenciában -1: Alapvető technikák és gépi tanulás alapú BI :

  • Bevezetés a gépi tanulásba
  • Osztályozási technikák elsajátítása
  • Bayes-predikciót előkészítő képzési fájl
  • Támogatja a Vector gépet
  • KNN p-Tree Algebra és vertikális bányászat
  • Neurális hálózat
  • Big Data nagy változós probléma - Véletlenszerű erdő (RF)
  • Big Data Automatizálási probléma – Multi-model ensemble RF
  • Automatizálás a Soft10-M-en keresztül
  • Szövegelemző eszköz – Treeminer
  • Agile tanulás
  • Ügynök alapú tanulás
  • Elosztott tanulás
  • Bevezetés a nyílt forráskódú prediktív elemzési eszközökbe: R, Rapidminer, Mahut

2. nap: Session-4 Prediktív analitikai ökoszisztéma-2: Gyakori prediktív analitikai problémák a Govt-ben.

  • Insight analitika
  • Vizualizációs elemzés
  • Strukturált prediktív analitika
  • Strukturálatlan prediktív analitika
  • Fenyegetés/csalássztár/szállító profilalkotás
  • Ajánlás Motor
  • Mintaészlelés
  • Szabály/forgatókönyv felfedezése – kudarc, csalás, optimalizálás
  • A kiváltó ok feltárása
  • Érzelemelemzés
  • CRM-elemző
  • Hálózati elemzés
  • Szövegelemzés
  • Technológiával támogatott felülvizsgálat
  • Csaláselemző
  • Valós idejű elemző

3. nap : 1. munkamenet : valós idejű és Scalaanalytic over Hadoop

  • Miért buknak el a gyakori analitikai algoritmusok Hadoop/HDFS-ben?
  • Apache Hama- Tömeges szinkron elosztott számítástechnikához
  • Apache SPARK – fürtszámításhoz valós idejű elemzéshez
  • CMU Graphics Lab2 – gráf alapú aszinkron megközelítés az elosztott számítástechnikához
  • KNN p-algebra alapú megközelítés a Treeminertől a csökkentett hardver üzemeltetési költségek érdekében

3. nap: 2. munkamenet : eDiscovery és Forensics eszközök

  • eDiscovery over Big Data vs. Legacy data – a költségek és a teljesítmény összehasonlítása
  • Prediktív kódolás és technológia által segített felülvizsgálat (TAR)
  • Tar termék élő bemutatója (vMiner), hogy megértse, hogyan működik a TAR a gyorsabb felfedezés érdekében
  • Gyorsabb indexelés a HDFS révén – az adatok sebessége
  • NLP vagy természetes nyelvi feldolgozás – különféle technikák és nyílt forráskódú termékek
  • eDiscovery idegen nyelveken-technológia az idegen nyelvi feldolgozáshoz

3. nap : 3. munkamenet: Big Data BI a Cyber Security számára – A gyors adatgyűjtés és a fenyegetés azonosításának teljes 360 fokos nézeteinek megértése

  • A biztonsági elemzés alapjainak megértése - támadási felület, biztonsági hibás konfiguráció, gazdagép védelme
  • Hálózati infrastruktúra / Nagy adatcső / Response ETL a valós idejű elemzéshez
  • Preskriptív vs prediktív – Rögzített szabályalapú kontra fenyegetési szabályok automatikus felfedezése metaadatokból

3. nap: 4. ülés: Big Data USDA: Alkalmazás a mezőgazdaságban

  • Bevezetés az IoT-be (Internet of Things) mezőgazdasági szenzoralapú Big Data és vezérléshez
  • A műholdas képalkotás bemutatása és alkalmazása a mezőgazdaságban
  • Szenzor- és képadatok integrálása a talaj termékenységéhez, művelési javaslatokhoz és előrejelzésekhez
  • Mezőgazdasági biztosítás és Big Data
  • Termésveszteség előrejelzése

4. nap: 1. munkamenet: Csalásmegelőzési BI a Big Data-tól a Govt-ben - Csaláselemzés:

  • A csaláselemzés alapvető osztályozása szabályalapú vs prediktív elemzés
  • Felügyelt és nem felügyelt gépi tanulás a csalási minták észleléséhez
  • Szállítói csalás/projektek túlterhelése
  • Medicare és Medicaid csalás-csalás-felderítési technikák követelésfeldolgozáshoz
  • Utazási költségtérítési csalások
  • IRS visszatérítési csalások
  • Esettanulmányokat és élő bemutatót adunk, ahol rendelkezésre állnak adatok.

4. nap: 2. munkamenet: Social Media Analitikai – Információgyűjtés és elemzés

  • Big Data ETL API közösségi média adatok kinyerésére
  • Szöveg, kép, metaadatok és videó
  • Hangulatelemzés a közösségi média hírfolyamából
  • A közösségi média hírfolyamának kontextuális és nem kontextus szerinti szűrése
  • Social Media Irányítópult a különféle közösségi média integrálásához
  • A közösségi média profiljának automatizált profilalkotása
  • Az egyes elemzők élő bemutatója a Treeminer eszközön keresztül történik.

4. nap: 3. munkamenet: Big Data Analitikus képfeldolgozásban és videofeedekben

  • Képtárolási technikák a Big Data-ban – Tárolási megoldás petabájtot meghaladó adatokhoz
  • LTFS és LTO
  • GPFS-LTFS (Réteges tárolási megoldás nagy képadatokhoz)
  • A képelemzés alapjai
  • Tárgyfelismerés
  • Képszegmentálás
  • Mozgáskövetés
  • 3D képrekonstrukció

4. nap: 4. munkamenet: Big Data jelentkezés az NIH-ban:

  • A Bio-informatika feltörekvő területei
  • Metagenomikai és Big Data bányászati kérdések
  • Big Data Prediktív analitika a farmakogenomikai, metabolomikai és proteomikai célokra
  • Big Data a downstream Genomics folyamatban
  • Big data prediktív analitika alkalmazása a közegészségügyben

Big Data Irányítópult a különféle adatok és kijelzők gyors eléréséhez:

  • Meglévő alkalmazásplatform integrálása Big Data Dashboard-tal
  • Big Data menedzsment
  • Esettanulmány a Big Data irányítópultról: Tableau és Pentaho
  • Használja a Big Data alkalmazást a helyalapú szolgáltatások leküldéséhez a Govt.
  • Nyomon követési rendszer és menedzsment

5. nap : 1. munkamenet: Hogyan igazoljuk Big Data a BI bevezetését egy szervezeten belül:

  • ROI meghatározása Big Data megvalósításhoz
  • Esettanulmányok az elemzői idő megtakarítására az adatok gyűjtésére és előkészítésére – a termelékenység növekedése
  • Esettanulmányok a licencelt adatbázis költségének megtakarításából származó bevételszerzésről
  • Bevételnyereség a helyalapú szolgáltatásokból
  • Megmenteni a csalás megelőzését
  • Integrált táblázatkezelő módszerrel kb. kiadás vs. bevételnyereség/megtakarítás a Big Data megvalósításból.

5. nap: 2. munkamenet: Lépésről lépésre az örökölt adatrendszer Big Data-ra való cseréje. Rendszer:

  • A gyakorlati Big Data Migrációs ütemterv megértése
  • Milyen fontos információkra van szükség egy Big Data megvalósítás megtervezése előtt
  • Milyen módszerekkel lehet kiszámítani az adatok mennyiségét, sebességét, változatosságát és valódiságát?
  • Hogyan becsüljük meg az adatnövekedést
  • Esettanulmányok

5. nap: 4. munkamenet: Big Data szállítók áttekintése és termékeik áttekintése. Q/A munkamenet:

  • Accenture
  • APTEAN (korábban CDC szoftver)
  • Cisco Rendszerek
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatika
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Korábban 10Gen)
  • MU Sigma
  • Netapp
  • Opera megoldások
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Kvantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Intézet
  • Sisense
  • Szoftver AG/Terracotta
  • Soft10 automatizálás
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Szoftver
  • Teradata
  • Gondoljon a Big Analyticsre
  • Tidemark rendszerek
  • Treeminer
  • VMware (Az EMC része)

Követelmények

  • Vállalkozási és adatrendszeri alapismeretek a Korm. az ő tartományukban
  • Az SQL/Oracle vagy relációs adatbázis alapszintű ismerete
  • A Statistics alapvető ismerete (táblázat szinten)
 35 Hours

Résztvevők száma



Ár per résztvevő

Vélemények (4)

Rokon tanfolyam

Rokon kategóriák