Köszönjük, hogy elküldte érdeklődését! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Köszönjük, hogy elküldte foglalását! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Kurzusleírás
Minden foglalkozás 2 órás
1. nap: Session -1: Business A miértek áttekintése Big Data Business Intelligence in Govt.
- Esettanulmányok az NIH-tól, DoE
- Big Data alkalmazkodási arány a Govt. Ügynökségek és hogyan igazítják jövőbeli működésüket a Big Data Predictive Analytics körébe
- Széles körű alkalmazási terület a DoD, NSA, IRS, USDA stb.
- Interfész Big Data a régi adatokkal
- Alapvető ismeretek az engedélyező technológiákról a prediktív analitikában
- Data Integration és az irányítópult megjelenítése
- Csaláskezelés
- Business Szabály/csalásfelderítés generálása
- Fenyegetésészlelés és profilalkotás
- Költség-haszon elemzés a Big Data megvalósításhoz
1. nap: Session-2 : A Big Data-1 bemutatása
- A Big Data fő jellemzői a térfogat, a változatosság, a sebesség és a hitelesség. MPP architektúra a kötethez.
- Data Warehouses – statikus séma, lassan fejlődő adatkészlet
- MPP Database, mint a Greenplum, Exadata, Teradata, Netezza, Vertica stb.
- Hadoop Based Solutions – nincs feltétel az adatkészlet szerkezetére vonatkozóan.
- Tipikus minta: HDFS, MapReduce (crunch), visszakeresés a HDFS-ből
- Batch- alkalmas elemző/nem interaktív
- Hangerő: CEP streaming adatok
- Tipikus választások – CEP termékek (pl. Infostreams, Apama, MarkLogic stb.)
- Kevesebb gyártásra kész – Storm/S4
- NoSQL Databases – (oszlop és kulcsérték): A legalkalmasabb az adattárház/adatbázis elemző kiegészítőjeként
1. nap: -3. foglalkozás: Bevezetés a Big Data-2
NoSQL megoldások
- KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hierarchikus) - GT.m, gyorsítótár
- KV Store (megrendelve) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV gyorsítótár - Memcached, újragyorsított, koherencia, végtelen, EXtremeScale, JBoss gyorsítótár, sebesség, terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Database objektum – ZopeDB, DB40, Shoal
- Dokumentumtár - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Változatos adatok: Bevezetés a Data Cleaning kiadáshoz a Big Data-ban
- RDBMS – statikus szerkezet/séma, nem segíti elő az agilis, felfedező környezetet.
- NoSQL – félig strukturált, elegendő struktúra az adatok pontos séma nélküli tárolására az adatok tárolása előtt
- Adattisztítási problémák
1. nap : 4. foglalkozás: Big Data Bevezetés-3 : Hadoop
- Mikor kell kiválasztani a Hadoop-et?
- STRUKTURÁLT – A vállalati adattárházak/adatbázisok hatalmas mennyiségű adat tárolására képesek (áron), de struktúrát szabnak meg (nem jó az aktív feltáráshoz)
- FÉLSZERKEZETT adatok – nehéz megcsinálni a hagyományos megoldásokkal (DW/DB)
- Raktári adatok = HATALMAS erőfeszítés és statikus még a megvalósítás után is
- Az adatok sokféleségéért és mennyiségéért, árucikk hardveren – HADOOP
- H/W árucikk szükséges egy Hadoop fürt létrehozásához
A Map Reduce /HDFS bemutatása
- MapReduce – a számítástechnika elosztása több szerveren
- HDFS – az adatokat helyileg elérhetővé teszi a számítási folyamat számára (redundanciával)
- Adatok – lehetnek strukturálatlanok/séma nélküliek (ellentétben az RDBMS-szel)
- A fejlesztő felelőssége az adatok értelmezésében
- Programming MapReduce = munka a Java-al (előnyök/hátrányok), adatok manuális betöltése HDFS-be
2. nap: 1. munkamenet: Big Data Ökoszisztéma-építés Big Data ETL: Big Data Eszközök univerzuma – melyiket használja és mikor?
- Hadoop vs. Egyéb NoSQL megoldások
- Az adatok interaktív, véletlenszerű eléréséhez
- Hbase (oszloporientált adatbázis) a Hadoop tetején
- Véletlenszerű hozzáférés az adatokhoz, de korlátozások (max 1 PB)
- Nem jó ad-hoc elemzéshez, jó naplózáshoz, számláláshoz, idősorokhoz
- Sqoop – Importálás adatbázisokból Hive-ba vagy HDFS-be (JDBC/ODBC hozzáférés)
- Flume – Adatok (pl. naplóadatok) továbbítása HDFS-be
2. nap: 2. munkamenet: Big Data Management Rendszer
- Mozgó alkatrészek, számítási csomópontok indítása/hiba :ZooKeeper - Konfigurációs/koordinációs/elnevezési szolgáltatásokhoz
- Összetett folyamat/munkafolyamat: Oozie – kezelheti a munkafolyamatot, a függőségeket, a láncszemeket
- Telepítés, konfigurálás, fürtkezelés, frissítés stb (rendszergazda) :Ambari
- Felhőben: Whirr
2. nap: 3. munkamenet: Prediktív elemzés az Business Intelligenciában -1: Alapvető technikák és gépi tanulás alapú BI :
- Bevezetés a gépi tanulásba
- Osztályozási technikák elsajátítása
- Bayes-predikciót előkészítő képzési fájl
- Támogatja a Vector gépet
- KNN p-Tree Algebra és vertikális bányászat
- Neurális hálózat
- Big Data nagy változós probléma - Véletlenszerű erdő (RF)
- Big Data Automatizálási probléma – Multi-model ensemble RF
- Automatizálás a Soft10-M-en keresztül
- Szövegelemző eszköz – Treeminer
- Agile tanulás
- Ügynök alapú tanulás
- Elosztott tanulás
- Bevezetés a nyílt forráskódú prediktív elemzési eszközökbe: R, Rapidminer, Mahut
2. nap: Session-4 Prediktív analitikai ökoszisztéma-2: Gyakori prediktív analitikai problémák a Govt-ben.
- Insight analitika
- Vizualizációs elemzés
- Strukturált prediktív analitika
- Strukturálatlan prediktív analitika
- Fenyegetés/csalássztár/szállító profilalkotás
- Ajánlás Motor
- Mintaészlelés
- Szabály/forgatókönyv felfedezése – kudarc, csalás, optimalizálás
- A kiváltó ok feltárása
- Érzelemelemzés
- CRM-elemző
- Hálózati elemzés
- Szövegelemzés
- Technológiával támogatott felülvizsgálat
- Csaláselemző
- Valós idejű elemző
3. nap : 1. munkamenet : valós idejű és Scalaanalytic over Hadoop
- Miért buknak el a gyakori analitikai algoritmusok Hadoop/HDFS-ben?
- Apache Hama- Tömeges szinkron elosztott számítástechnikához
- Apache SPARK – fürtszámításhoz valós idejű elemzéshez
- CMU Graphics Lab2 – gráf alapú aszinkron megközelítés az elosztott számítástechnikához
- KNN p-algebra alapú megközelítés a Treeminertől a csökkentett hardver üzemeltetési költségek érdekében
3. nap: 2. munkamenet : eDiscovery és Forensics eszközök
- eDiscovery over Big Data vs. Legacy data – a költségek és a teljesítmény összehasonlítása
- Prediktív kódolás és technológia által segített felülvizsgálat (TAR)
- Tar termék élő bemutatója (vMiner), hogy megértse, hogyan működik a TAR a gyorsabb felfedezés érdekében
- Gyorsabb indexelés a HDFS révén – az adatok sebessége
- NLP vagy természetes nyelvi feldolgozás – különféle technikák és nyílt forráskódú termékek
- eDiscovery idegen nyelveken-technológia az idegen nyelvi feldolgozáshoz
3. nap : 3. munkamenet: Big Data BI a Cyber Security számára – A gyors adatgyűjtés és a fenyegetés azonosításának teljes 360 fokos nézeteinek megértése
- A biztonsági elemzés alapjainak megértése - támadási felület, biztonsági hibás konfiguráció, gazdagép védelme
- Hálózati infrastruktúra / Nagy adatcső / Response ETL a valós idejű elemzéshez
- Preskriptív vs prediktív – Rögzített szabályalapú kontra fenyegetési szabályok automatikus felfedezése metaadatokból
3. nap: 4. ülés: Big Data USDA: Alkalmazás a mezőgazdaságban
- Bevezetés az IoT-be (Internet of Things) mezőgazdasági szenzoralapú Big Data és vezérléshez
- A műholdas képalkotás bemutatása és alkalmazása a mezőgazdaságban
- Szenzor- és képadatok integrálása a talaj termékenységéhez, művelési javaslatokhoz és előrejelzésekhez
- Mezőgazdasági biztosítás és Big Data
- Termésveszteség előrejelzése
4. nap: 1. munkamenet: Csalásmegelőzési BI a Big Data-tól a Govt-ben - Csaláselemzés:
- A csaláselemzés alapvető osztályozása szabályalapú vs prediktív elemzés
- Felügyelt és nem felügyelt gépi tanulás a csalási minták észleléséhez
- Szállítói csalás/projektek túlterhelése
- Medicare és Medicaid csalás-csalás-felderítési technikák követelésfeldolgozáshoz
- Utazási költségtérítési csalások
- IRS visszatérítési csalások
- Esettanulmányokat és élő bemutatót adunk, ahol rendelkezésre állnak adatok.
4. nap: 2. munkamenet: Social Media Analitikai – Információgyűjtés és elemzés
- Big Data ETL API közösségi média adatok kinyerésére
- Szöveg, kép, metaadatok és videó
- Hangulatelemzés a közösségi média hírfolyamából
- A közösségi média hírfolyamának kontextuális és nem kontextus szerinti szűrése
- Social Media Irányítópult a különféle közösségi média integrálásához
- A közösségi média profiljának automatizált profilalkotása
- Az egyes elemzők élő bemutatója a Treeminer eszközön keresztül történik.
4. nap: 3. munkamenet: Big Data Analitikus képfeldolgozásban és videofeedekben
- Képtárolási technikák a Big Data-ban – Tárolási megoldás petabájtot meghaladó adatokhoz
- LTFS és LTO
- GPFS-LTFS (Réteges tárolási megoldás nagy képadatokhoz)
- A képelemzés alapjai
- Tárgyfelismerés
- Képszegmentálás
- Mozgáskövetés
- 3D képrekonstrukció
4. nap: 4. munkamenet: Big Data jelentkezés az NIH-ban:
- A Bio-informatika feltörekvő területei
- Metagenomikai és Big Data bányászati kérdések
- Big Data Prediktív analitika a farmakogenomikai, metabolomikai és proteomikai célokra
- Big Data a downstream Genomics folyamatban
- Big data prediktív analitika alkalmazása a közegészségügyben
Big Data Irányítópult a különféle adatok és kijelzők gyors eléréséhez:
- Meglévő alkalmazásplatform integrálása Big Data Dashboard-tal
- Big Data menedzsment
- Esettanulmány a Big Data irányítópultról: Tableau és Pentaho
- Használja a Big Data alkalmazást a helyalapú szolgáltatások leküldéséhez a Govt.
- Nyomon követési rendszer és menedzsment
5. nap : 1. munkamenet: Hogyan igazoljuk Big Data a BI bevezetését egy szervezeten belül:
- ROI meghatározása Big Data megvalósításhoz
- Esettanulmányok az elemzői idő megtakarítására az adatok gyűjtésére és előkészítésére – a termelékenység növekedése
- Esettanulmányok a licencelt adatbázis költségének megtakarításából származó bevételszerzésről
- Bevételnyereség a helyalapú szolgáltatásokból
- Megmenteni a csalás megelőzését
- Integrált táblázatkezelő módszerrel kb. kiadás vs. bevételnyereség/megtakarítás a Big Data megvalósításból.
5. nap: 2. munkamenet: Lépésről lépésre az örökölt adatrendszer Big Data-ra való cseréje. Rendszer:
- A gyakorlati Big Data Migrációs ütemterv megértése
- Milyen fontos információkra van szükség egy Big Data megvalósítás megtervezése előtt
- Milyen módszerekkel lehet kiszámítani az adatok mennyiségét, sebességét, változatosságát és valódiságát?
- Hogyan becsüljük meg az adatnövekedést
- Esettanulmányok
5. nap: 4. munkamenet: Big Data szállítók áttekintése és termékeik áttekintése. Q/A munkamenet:
- Accenture
- APTEAN (korábban CDC szoftver)
- Cisco Rendszerek
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatika
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Korábban 10Gen)
- MU Sigma
- Netapp
- Opera megoldások
- Oracle
- Pentaho
- Platfora
- Qliktech
- Kvantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Intézet
- Sisense
- Szoftver AG/Terracotta
- Soft10 automatizálás
- Splunk
- Sqrrl
- Supermicro
- Tableau Szoftver
- Teradata
- Gondoljon a Big Analyticsre
- Tidemark rendszerek
- Treeminer
- VMware (Az EMC része)
Követelmények
- Vállalkozási és adatrendszeri alapismeretek a Korm. az ő tartományukban
- Az SQL/Oracle vagy relációs adatbázis alapszintű ismerete
- A Statistics alapvető ismerete (táblázat szinten)
35 Órák
Vélemények (1)
Az oktató azon képessége, hogy a tanfolyamot a szervezet követelményeihez igazítsa, azon kívül, hogy a tanfolyamot csak a lebonyolítás érdekében biztosítja.
Masilonyane - Revenue Services Lesotho
Kurzus - Big Data Business Intelligence for Govt. Agencies
Gépi fordítás