Köszönjük, hogy elküldte érdeklődését! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Köszönjük, hogy elküldte foglalását! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Kurzusleírás
Minden óra 2 órás
1. nap: 1. ülés: Üzleti áttekintés a Big Data Üzleti Intelligencia jelentőségéről a kormányzatban
- Esettanulmányok az NIH és a DoE-től
- A Big Data adaptációs rátája a kormányzati ügynökségekben és hogyan igazítják jövőbeli működésüket a Big Data prediktív elemzés köré
- Széleskörű alkalmazási területek a DoD, NSA, IRS, USDA stb. szervezeteknél
- A Big Data integrálása örökölt adatokkal
- Alapvető ismeretek a prediktív elemzés lehetővé tevő technológiáiról
- Adatintegráció és irányítópult-vizualizáció
- Csaláskezelés
- Üzleti szabályok/Csalásfelismerés generálása
- Fenyegetésfelismerés és profilozás
- Költség-haszon elemzés a Big Data megvalósításhoz
1. nap: 2. ülés: Bevezetés a Big Data-ba - 1
- A Big Data fő jellemzői - mennyiség, változatosság, sebesség és hitelesség. MPP architektúra a mennyiséghez.
- Adattárházak - statikus séma, lassan fejlődő adathalmaz
- MPP adatbázisok, mint a Greenplum, Exadata, Teradata, Netezza, Vertica stb.
- Hadoop alapú megoldások - nincs feltétel az adathalmaz szerkezetére
- Tipikus minta: HDFS, MapReduce (feldolgozás), lekérés a HDFS-ből
- Kötegelt feldolgozás - alkalmas elemzésre/nem interaktív feladatokra
- Mennyiség: CEP adatfolyamok
- Tipikus választások - CEP termékek (pl. Infostreams, Apama, MarkLogic stb.)
- Kevesebbé érett termékek - Storm/S4
- NoSQL adatbázisok - (oszlopos és kulcs-érték): Leginkább alkalmasak elemzési kiegészítőként az adattárház/adatbázis mellett
1. nap: 3. ülés: Bevezetés a Big Data-ba - 2
NoSQL megoldások
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarchikus) - GT.m, Cache
- KV Store (Rendezett) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objektum adatbázis - ZopeDB, DB40, Shoal
- Dokumentum tároló - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Széles oszlopos tároló - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Adatváltozatosság: Bevezetés a Big Data adattisztítási problémáiba
- RDBMS - statikus szerkezet/séma, nem támogatja az agilis, felderítő környezetet.
- NoSQL - félig strukturált, elég szerkezet az adatok tárolásához pontos séma nélkül
- Adattisztítási problémák
1. nap: 4. ülés: Big Data Bevezetés - 3: Hadoop
- Mikor válasszuk a Hadoopot?
- STRUKTURÁLT - Vállalati adattárházak/adatbázisok képesek hatalmas mennyiségű adatot tárolni (költséggel), de szerkezetet írnak elő (nem jó az aktív felderítéshez)
- FÉLIG STRUKTURÁLT adatok - nehézkes a hagyományos megoldásokkal (DW/DB)
- Adattárházak kialakítása = HATALMAS erőfeszítés és statikus a megvalósítás után is
- Az adatok változatossága és mennyisége miatt, feldolgozva olcsó hardveren - HADOOP
- Olcsó hardver szükséges egy Hadoop klaszter létrehozásához
Bevezetés a MapReduce / HDFS-be
- MapReduce - számítások elosztása több szerver között
- HDFS - az adatok helyi elérhetősége a számítási folyamathoz (redundanciával)
- Adatok - lehetnek strukturálatlanok/séma nélküliek (ellentétben az RDBMS-szel)
- A fejlesztő felelőssége, hogy értelmet adjon az adatoknak
- MapReduce programozása = Java használata (előnyök/hátrányok), adatok manuális betöltése a HDFS-be
2. nap: 1. ülés: Big Data Ökoszisztéma - Big Data ETL kialakítása: a Big Data eszközök világa - melyiket mikor használjuk?
- Hadoop vs. Egyéb NoSQL megoldások
- Interaktív, véletlenszerű hozzáférés az adatokhoz
- Hbase (oszlopos adatbázis) a Hadoop tetején
- Véletlenszerű hozzáférés az adatokhoz, de korlátozásokkal (max 1 PB)
- Nem alkalmas ad hoc elemzésre, jó naplózáshoz, számoláshoz, idősorokhoz
- Sqoop - Importálás adatbázisokból a Hive vagy HDFS-be (JDBC/ODBC hozzáférés)
- Flume - Adatfolyamok (pl. naplóadatok) a HDFS-be
2. nap: 2. ülés: Big Data Kezelési Rendszer
- Mozgó részek, számítási csomópontok indítása/leállása: ZooKeeper - Konfiguráció/koordináció/elnevezési szolgáltatások
- Komplex folyamat/munkafolyamat: Oozie - munkafolyamat kezelése, függőségek, láncolás
- Telepítés, konfigurálás, klaszter kezelése, frissítés stb. (rendszergazda): Ambari
- Felhőben: Whirr
2. nap: 3. ülés: Prediktív elemzés az Üzleti Intelligencia - 1: Alapvető technikák és gépi tanulás alapú BI:
- Bevezetés a gépi tanulásba
- Osztályozási technikák tanulása
- Bayes-i előrejelzés - képzési fájl előkészítése
- Támogató vektor gépek
- KNN p-Fa Algebra és vertikális bányászat
- Neurális hálózatok
- Big Data nagy változó probléma - Véletlen erdő (RF)
- Big Data automatizációs probléma - Többmodelles RF
- Automatizáció a Soft10-M segítségével
- Szövegelemző eszköz - Treeminer
- Agilis tanulás
- Agent alapú tanulás
- Elosztott tanulás
- Bevezetés a prediktív elemzés nyílt forráskódú eszközeibe: R, Rapidminer, Mahut
2. nap: 4. ülés: Prediktív elemzés ökoszisztéma - 2: Gyakori prediktív elemzési problémák a kormányzatban
- Bepillantás elemzés
- Vizualizációs elemzés
- Strukturált prediktív elemzés
- Strukturálatlan prediktív elemzés
- Fenyegetés/csalás/szállítói profilozás
- Ajánló rendszer
- Mintázatfelismerés
- Szabály/Forgatókönyv felfedezése - hiba, csalás, optimalizálás
- Gyökér ok felfedezése
- Hangulatelemzés
- CRM elemzés
- Hálózati elemzés
- Szövegelemzés
- Technológia által támogatott felülvizsgálat
- Csalás elemzés
- Valós idejű elemzés
3. nap: 1. ülés: Valós idejű és skálázható elemzés Hadoop felett
- Miért nem működnek a közös elemzési algoritmusok a Hadoop/HDFS-ben
- Apache Hama - Tömeges szinkron elosztott számításokhoz
- Apache SPARK - Klaszter számítás valós idejű elemzéshez
- CMU Graphics Lab2 - Gráf alapú aszinkron megközelítés az elosztott számításokhoz
- KNN p-Algebra alapú megközelítés a Treeminertől a hardverköltségek csökkentéséhez
3. nap: 2. ülés: Eszközök az eDiscovery és a kriminalisztika számára
- eDiscovery a Big Data vs. örökölt adatok - költség és teljesítmény összehasonlítása
- Prediktív kódolás és technológia által támogatott felülvizsgálat (TAR)
- Élő bemutató egy TAR termékről (vMiner) annak megértéséhez, hogyan működik a TAR a gyorsabb felfedezéshez
- Gyorsabb indexelés a HDFS segítségével - az adatok sebessége
- NLP vagy Természetes nyelvi feldolgozás - különböző technikák és nyílt forráskódú termékek
- eDiscovery idegen nyelveken - technológia az idegen nyelvek feldolgozásához
3. nap: 3. ülés: Big Data BI a kiberbiztonságban - A gyors adatgyűjtés és a fenyegetések azonosításának 360 fokos megértése
- A biztonsági elemzés alapjainak megértése - támadási felület, biztonsági beállítások, hoszt védelmi rendszerek
- Hálózati infrastruktúra / Nagy adatcső / Válasz ETL valós idejű elemzéshez
- Preskriptív vs prediktív - Fix szabály alapú vs metaadatokból történő fenyegetési szabályok automatikus felfedezése
3. nap: 4. ülés: Big Data az USDA-ban: Alkalmazás a mezőgazdaságban
- Bevezetés az IoT (Internet of Things) használatába a mezőgazdaságban - érzékelő alapú Big Data és irányítás
- Bevezetés a műholdas képalkotásba és annak alkalmazásába a mezőgazdaságban
- Érzékelő és képadatok integrálása a talaj termékenységének, termesztési ajánlásoknak és előrejelzéseknek
- Mezőgazdasági biztosítás és Big Data
- Termésvesztés előrejelzés
4. nap: 1. ülés: Csalás megelőzés BI a Big Data-ból a kormányzatban - Csalás elemzés:
- Alapvető csalás elemzési osztályozás - szabály alapú vs prediktív elemzés
- Felügyelt vs felügyelet nélküli gépi tanulás csalásmintázatok felismerésére
- SZállítói csalás / Túlfizetés projektekért
- Medicare és Medicaid csalás - csalásfelismerési technikák a követelések feldolgozásához
- Utazási költségtérítési csalások
- IRS visszatérítési csalások
- Esettanulmányok és élő bemutatók kerülnek bemutatásra, ahol az adatok elérhetők.
4. nap: 2. ülés: Szociális média elemzés - Hírszerzés és elemzés
- Big Data ETL API a szociális média adatok kinyeréséhez
- Szöveg, kép, metaadatok és videó
- Hangulatelemzés a szociális média hírekből
- Kontextuális és nem kontextuális szűrés a szociális média hírekből
- Szociális média irányítópult a különböző szociális média integrálásához
- Automatizált profilozás a szociális média profilokból
- Élő bemutató minden elemzésről a Treeminer eszköz segítségével.
4. nap: 3. ülés: Big Data elemzés képfeldolgozásban és videó hírekben
- Képtárolási technikák a Big Data-ban - Tárolási megoldások petabájtokat meghaladó adatokhoz
- LTFS és LTO
- GPFS-LTFS (RÉteges tárolási megoldás nagy képadatokhoz)
- Alapvető képelemzés
- Tárgyfelismerés
- Képszegmentálás
- Mozgás követés
- 3-D kép rekonstrukció
4. nap: 4. ülés: Big Data alkalmazások az NIH-ban:
- Az bioinformatika új területei
- Meta-genomika és Big Data bányászat problémái
- Big Data prediktív elemzés a farmakogenomikához, metabolomikához és proteomikához
- Big Data a genomika lefelé irányuló folyamatában
- Big Data prediktív elemzés alkalmazása a közegészségügyben
Big Data irányítópult a különböző adatok gyors hozzáféréséhez és megjelenítéséhez:
- Meglévő alkalmazási platform integrálása a Big Data irányítópulthoz
- Big Data kezelés
- Esettanulmány a Big Data irányítópultról: Tableau és Pentaho
- Big Data alkalmazás használata helyalapú szolgáltatások nyújtásához a kormányzatban
- Nyomkövetési rendszer és kezelés
5. nap: 1. ülés: Hogyan indokoljuk a Big Data BI megvalósítását egy szervezeten belül:
- ROI meghatározása a Big Data megvalósításához
- Esettanulmányok az elemzők idejének megtakarításáról az adatok gyűjtéséhez és előkészítéséhez - termelékenységnövekedés
- Esettanulmányok a licencelt adatbázisok költségeinek megtakarításából származó bevételről
- Bevétel a helyalapú szolgáltatásokból
- Megtakarítás a csalás megelőzéséből
- Integrált táblázatos megközelítés a Big Data megvalósításának költségeinek és bevételének/szatsporlásának hozzávetőleges kiszámításához.
5. nap: 2. ülés: Lépésről lépésre az örökölt adatrendszer cseréje Big Data rendszerre:
- A gyakorlati Big Data migrációs útmutató megértése
- Milyen információk szükségesek a Big Data megvalósítás architektúrájának megtervezése előtt
- Milyen különböző módokon számítható ki az adatok mennyisége, sebessége, változatossága és hitelessége
- Hogyan becsüljük meg az adatnövekedést
- Esettanulmányok
5. nap: 4. ülés: Big Data szállítók és termékeik áttekintése. Kérdések és válaszok:
- Accenture
- APTEAN (Korábban CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Korábban 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Az EMC része)
Követelmények
- Alapvető ismeretek a kormányzati üzleti működésről és adatrendszerekről a saját területükön
- Alapvető ismeretek az SQL/Oracle vagy relációs adatbázisokról
- Alapvető ismeretek a statisztikáról (táblázatkezelő szinten)
35 Órák
Vélemények (1)
A képző képessége az organzácció igényeinek megfelelően igazítani a kurzust, és nem csak a személyes eljárás részeként tartalmat szolgáltatni.
Masilonyane - Revenue Services Lesotho
Kurzus - Big Data Business Intelligence for Govt. Agencies
Gépi fordítás