Kurzusleírás

Minden óra 2 órás

1. nap: 1. ülés: Üzleti áttekintés a Big Data Üzleti Intelligencia jelentőségéről a kormányzatban

  • Esettanulmányok az NIH és a DoE-től
  • A Big Data adaptációs rátája a kormányzati ügynökségekben és hogyan igazítják jövőbeli működésüket a Big Data prediktív elemzés köré
  • Széleskörű alkalmazási területek a DoD, NSA, IRS, USDA stb. szervezeteknél
  • A Big Data integrálása örökölt adatokkal
  • Alapvető ismeretek a prediktív elemzés lehetővé tevő technológiáiról
  • Adatintegráció és irányítópult-vizualizáció
  • Csaláskezelés
  • Üzleti szabályok/Csalásfelismerés generálása
  • Fenyegetésfelismerés és profilozás
  • Költség-haszon elemzés a Big Data megvalósításhoz

1. nap: 2. ülés: Bevezetés a Big Data-ba - 1

  • A Big Data fő jellemzői - mennyiség, változatosság, sebesség és hitelesség. MPP architektúra a mennyiséghez.
  • Adattárházak - statikus séma, lassan fejlődő adathalmaz
  • MPP adatbázisok, mint a Greenplum, Exadata, Teradata, Netezza, Vertica stb.
  • Hadoop alapú megoldások - nincs feltétel az adathalmaz szerkezetére
  • Tipikus minta: HDFS, MapReduce (feldolgozás), lekérés a HDFS-ből
  • Kötegelt feldolgozás - alkalmas elemzésre/nem interaktív feladatokra
  • Mennyiség: CEP adatfolyamok
  • Tipikus választások - CEP termékek (pl. Infostreams, Apama, MarkLogic stb.)
  • Kevesebbé érett termékek - Storm/S4
  • NoSQL adatbázisok - (oszlopos és kulcs-érték): Leginkább alkalmasak elemzési kiegészítőként az adattárház/adatbázis mellett

1. nap: 3. ülés: Bevezetés a Big Data-ba - 2

NoSQL megoldások

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchikus) - GT.m, Cache
  • KV Store (Rendezett) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Objektum adatbázis - ZopeDB, DB40, Shoal
  • Dokumentum tároló - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Széles oszlopos tároló - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Adatváltozatosság: Bevezetés a Big Data adattisztítási problémáiba

  • RDBMS - statikus szerkezet/séma, nem támogatja az agilis, felderítő környezetet.
  • NoSQL - félig strukturált, elég szerkezet az adatok tárolásához pontos séma nélkül
  • Adattisztítási problémák

1. nap: 4. ülés: Big Data Bevezetés - 3: Hadoop

  • Mikor válasszuk a Hadoopot?
  • STRUKTURÁLT - Vállalati adattárházak/adatbázisok képesek hatalmas mennyiségű adatot tárolni (költséggel), de szerkezetet írnak elő (nem jó az aktív felderítéshez)
  • FÉLIG STRUKTURÁLT adatok - nehézkes a hagyományos megoldásokkal (DW/DB)
  • Adattárházak kialakítása = HATALMAS erőfeszítés és statikus a megvalósítás után is
  • Az adatok változatossága és mennyisége miatt, feldolgozva olcsó hardveren - HADOOP
  • Olcsó hardver szükséges egy Hadoop klaszter létrehozásához

Bevezetés a MapReduce / HDFS-be

  • MapReduce - számítások elosztása több szerver között
  • HDFS - az adatok helyi elérhetősége a számítási folyamathoz (redundanciával)
  • Adatok - lehetnek strukturálatlanok/séma nélküliek (ellentétben az RDBMS-szel)
  • A fejlesztő felelőssége, hogy értelmet adjon az adatoknak
  • MapReduce programozása = Java használata (előnyök/hátrányok), adatok manuális betöltése a HDFS-be

2. nap: 1. ülés: Big Data Ökoszisztéma - Big Data ETL kialakítása: a Big Data eszközök világa - melyiket mikor használjuk?

  • Hadoop vs. Egyéb NoSQL megoldások
  • Interaktív, véletlenszerű hozzáférés az adatokhoz
  • Hbase (oszlopos adatbázis) a Hadoop tetején
  • Véletlenszerű hozzáférés az adatokhoz, de korlátozásokkal (max 1 PB)
  • Nem alkalmas ad hoc elemzésre, jó naplózáshoz, számoláshoz, idősorokhoz
  • Sqoop - Importálás adatbázisokból a Hive vagy HDFS-be (JDBC/ODBC hozzáférés)
  • Flume - Adatfolyamok (pl. naplóadatok) a HDFS-be

2. nap: 2. ülés: Big Data Kezelési Rendszer

  • Mozgó részek, számítási csomópontok indítása/leállása: ZooKeeper - Konfiguráció/koordináció/elnevezési szolgáltatások
  • Komplex folyamat/munkafolyamat: Oozie - munkafolyamat kezelése, függőségek, láncolás
  • Telepítés, konfigurálás, klaszter kezelése, frissítés stb. (rendszergazda): Ambari
  • Felhőben: Whirr

2. nap: 3. ülés: Prediktív elemzés az Üzleti Intelligencia - 1: Alapvető technikák és gépi tanulás alapú BI:

  • Bevezetés a gépi tanulásba
  • Osztályozási technikák tanulása
  • Bayes-i előrejelzés - képzési fájl előkészítése
  • Támogató vektor gépek
  • KNN p-Fa Algebra és vertikális bányászat
  • Neurális hálózatok
  • Big Data nagy változó probléma - Véletlen erdő (RF)
  • Big Data automatizációs probléma - Többmodelles RF
  • Automatizáció a Soft10-M segítségével
  • Szövegelemző eszköz - Treeminer
  • Agilis tanulás
  • Agent alapú tanulás
  • Elosztott tanulás
  • Bevezetés a prediktív elemzés nyílt forráskódú eszközeibe: R, Rapidminer, Mahut

2. nap: 4. ülés: Prediktív elemzés ökoszisztéma - 2: Gyakori prediktív elemzési problémák a kormányzatban

  • Bepillantás elemzés
  • Vizualizációs elemzés
  • Strukturált prediktív elemzés
  • Strukturálatlan prediktív elemzés
  • Fenyegetés/csalás/szállítói profilozás
  • Ajánló rendszer
  • Mintázatfelismerés
  • Szabály/Forgatókönyv felfedezése - hiba, csalás, optimalizálás
  • Gyökér ok felfedezése
  • Hangulatelemzés
  • CRM elemzés
  • Hálózati elemzés
  • Szövegelemzés
  • Technológia által támogatott felülvizsgálat
  • Csalás elemzés
  • Valós idejű elemzés

3. nap: 1. ülés: Valós idejű és skálázható elemzés Hadoop felett

  • Miért nem működnek a közös elemzési algoritmusok a Hadoop/HDFS-ben
  • Apache Hama - Tömeges szinkron elosztott számításokhoz
  • Apache SPARK - Klaszter számítás valós idejű elemzéshez
  • CMU Graphics Lab2 - Gráf alapú aszinkron megközelítés az elosztott számításokhoz
  • KNN p-Algebra alapú megközelítés a Treeminertől a hardverköltségek csökkentéséhez

3. nap: 2. ülés: Eszközök az eDiscovery és a kriminalisztika számára

  • eDiscovery a Big Data vs. örökölt adatok - költség és teljesítmény összehasonlítása
  • Prediktív kódolás és technológia által támogatott felülvizsgálat (TAR)
  • Élő bemutató egy TAR termékről (vMiner) annak megértéséhez, hogyan működik a TAR a gyorsabb felfedezéshez
  • Gyorsabb indexelés a HDFS segítségével - az adatok sebessége
  • NLP vagy Természetes nyelvi feldolgozás - különböző technikák és nyílt forráskódú termékek
  • eDiscovery idegen nyelveken - technológia az idegen nyelvek feldolgozásához

3. nap: 3. ülés: Big Data BI a kiberbiztonságban - A gyors adatgyűjtés és a fenyegetések azonosításának 360 fokos megértése

  • A biztonsági elemzés alapjainak megértése - támadási felület, biztonsági beállítások, hoszt védelmi rendszerek
  • Hálózati infrastruktúra / Nagy adatcső / Válasz ETL valós idejű elemzéshez
  • Preskriptív vs prediktív - Fix szabály alapú vs metaadatokból történő fenyegetési szabályok automatikus felfedezése

3. nap: 4. ülés: Big Data az USDA-ban: Alkalmazás a mezőgazdaságban

  • Bevezetés az IoT (Internet of Things) használatába a mezőgazdaságban - érzékelő alapú Big Data és irányítás
  • Bevezetés a műholdas képalkotásba és annak alkalmazásába a mezőgazdaságban
  • Érzékelő és képadatok integrálása a talaj termékenységének, termesztési ajánlásoknak és előrejelzéseknek
  • Mezőgazdasági biztosítás és Big Data
  • Termésvesztés előrejelzés

4. nap: 1. ülés: Csalás megelőzés BI a Big Data-ból a kormányzatban - Csalás elemzés:

  • Alapvető csalás elemzési osztályozás - szabály alapú vs prediktív elemzés
  • Felügyelt vs felügyelet nélküli gépi tanulás csalásmintázatok felismerésére
  • SZállítói csalás / Túlfizetés projektekért
  • Medicare és Medicaid csalás - csalásfelismerési technikák a követelések feldolgozásához
  • Utazási költségtérítési csalások
  • IRS visszatérítési csalások
  • Esettanulmányok és élő bemutatók kerülnek bemutatásra, ahol az adatok elérhetők.

4. nap: 2. ülés: Szociális média elemzés - Hírszerzés és elemzés

  • Big Data ETL API a szociális média adatok kinyeréséhez
  • Szöveg, kép, metaadatok és videó
  • Hangulatelemzés a szociális média hírekből
  • Kontextuális és nem kontextuális szűrés a szociális média hírekből
  • Szociális média irányítópult a különböző szociális média integrálásához
  • Automatizált profilozás a szociális média profilokból
  • Élő bemutató minden elemzésről a Treeminer eszköz segítségével.

4. nap: 3. ülés: Big Data elemzés képfeldolgozásban és videó hírekben

  • Képtárolási technikák a Big Data-ban - Tárolási megoldások petabájtokat meghaladó adatokhoz
  • LTFS és LTO
  • GPFS-LTFS (RÉteges tárolási megoldás nagy képadatokhoz)
  • Alapvető képelemzés
  • Tárgyfelismerés
  • Képszegmentálás
  • Mozgás követés
  • 3-D kép rekonstrukció

4. nap: 4. ülés: Big Data alkalmazások az NIH-ban:

  • Az bioinformatika új területei
  • Meta-genomika és Big Data bányászat problémái
  • Big Data prediktív elemzés a farmakogenomikához, metabolomikához és proteomikához
  • Big Data a genomika lefelé irányuló folyamatában
  • Big Data prediktív elemzés alkalmazása a közegészségügyben

Big Data irányítópult a különböző adatok gyors hozzáféréséhez és megjelenítéséhez:

  • Meglévő alkalmazási platform integrálása a Big Data irányítópulthoz
  • Big Data kezelés
  • Esettanulmány a Big Data irányítópultról: Tableau és Pentaho
  • Big Data alkalmazás használata helyalapú szolgáltatások nyújtásához a kormányzatban
  • Nyomkövetési rendszer és kezelés

5. nap: 1. ülés: Hogyan indokoljuk a Big Data BI megvalósítását egy szervezeten belül:

  • ROI meghatározása a Big Data megvalósításához
  • Esettanulmányok az elemzők idejének megtakarításáról az adatok gyűjtéséhez és előkészítéséhez - termelékenységnövekedés
  • Esettanulmányok a licencelt adatbázisok költségeinek megtakarításából származó bevételről
  • Bevétel a helyalapú szolgáltatásokból
  • Megtakarítás a csalás megelőzéséből
  • Integrált táblázatos megközelítés a Big Data megvalósításának költségeinek és bevételének/szatsporlásának hozzávetőleges kiszámításához.

5. nap: 2. ülés: Lépésről lépésre az örökölt adatrendszer cseréje Big Data rendszerre:

  • A gyakorlati Big Data migrációs útmutató megértése
  • Milyen információk szükségesek a Big Data megvalósítás architektúrájának megtervezése előtt
  • Milyen különböző módokon számítható ki az adatok mennyisége, sebessége, változatossága és hitelessége
  • Hogyan becsüljük meg az adatnövekedést
  • Esettanulmányok

5. nap: 4. ülés: Big Data szállítók és termékeik áttekintése. Kérdések és válaszok:

  • Accenture
  • APTEAN (Korábban CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Korábban 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Az EMC része)

Követelmények

  • Alapvető ismeretek a kormányzati üzleti működésről és adatrendszerekről a saját területükön
  • Alapvető ismeretek az SQL/Oracle vagy relációs adatbázisokról
  • Alapvető ismeretek a statisztikáról (táblázatkezelő szinten)
 35 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (1)

Közelgő kurzusok

Rokon kategóriák