Kurzusleírás

Minden műsor 2 órás

Első nap: Műsor -1: Adatvezérelt üzleti intelligencia a kormányzatban – áttekintés

  • Esettanulmányok az NIH, DoE-nél
  • A Big Data elfogadás mértéke a kormányzatban és ahogyan a jövőbeli működést igazítják a Big Data előrejelezo elemzési technikájaival
  • Széles körű alkalmazás területek a DoD, NSA, IRS, USDA stb. számára
  • A Big Data összekapcsolása az örökölt adattal
  • Alapvető ismeretek a előrejelezési elemzésekhez való segítő technológiákról
  • Adatintegráció és irányítópult megjelenítése
  • Hármanyság kezelése
  • Üzleti szabályok / hármanyság detektálásának generálása
  • Tévelygés detektálása és profilozása
  • A Big Data implementációjának költség-nyereségi elemzése

Első nap: Műsor -2 : Bevezetés a Big Data-hoz – 1. rész

  • A Big Data fő jellemzői – mennyiség, sokfajtányúság, sebesség és hitelesség. MPP architektúra a mennyiségi feladatokhoz.
  • Adattárak – statikus séma, lassan változó adatszétvonal
  • MPP adatbázisok, mint Greenplum, Exadata, Teradata, Netezza, Vertica stb.
  • Hadoop-alapú megoldások – nincsenek feltételek az adatszétvonal szerkezetére.
  • Tipikus minta: HDFS, MapReduce (fájlok összeolvasztása), visszaszerelés a HDFS-ből
  • Batch – analitikai/nem interaktív feladatokhoz való megfelelőség
  • Mennyiség: CEP streaming adat
  • Tipikus választások – CEP termékek (pl. Infostreams, Apama, MarkLogic stb.)
  • Kevésbé éles környezetben alkalmazhatók – Storm/S4
  • NoSQL adatbázisok (oszlop- és kulcs-érték alapú): az adattár/ adatbázishoz való analitikai mellékelvénként legálacsonyabb költségű megoldás

Első nap: Műsor -3 : Bevezetés a Big Data-hoz – 2. rész

NoSQL megoldások

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchikus) - GT.m, Cache
  • KV Store (Rendezett) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Objektum adatbázis - ZopeDB, DB40, Shoal
  • Dokumentum tároló - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-adatbázisok, ThruDB, CloudKit, Persevere, Riak-Basho, Scalaris
  • Széles oszlopú tároló - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Adatszétvonalok fajtái: Bevezetés az adatcsoportítási problémákba a Big Data-ban

  • RDBMS – statikus struktúra/séma, nem támogatja az átmeneti, vizsgáló környezetet.
  • NoSQL – félstruktúrizált, elég szerkezet az adattárolásra az előzetes sémátlétítés nélkül
  • Adatcsoportítási problémák

Első nap: Műsor -4 : Bevezetés a Big Data-hoz – 3. rész: Hadoop

  • Mikor választják a Hadoopt?
  • STRUKTÚRÁZOTT - Vállalati adattárak/adatbázisok tárolhatnak vastag mennyiségű adatot (költséggel), de struktúrát rókálnak rá (nem alkalmas az aktív kivizsgálásra)
  • FÉLSTRUKTÚRÁZOTT adat – nehéz a hagyományos megoldásokkal (adattár/adatbázis)
  • Az adattárhelyezés = HUSSZA eszköz és statikus még a megvalósítása után
  • A sokfajtányúság és mennyiség miatt, az olcsó hardveren való feldolgozás – HADOOP
  • Olcsó H/W szükséges a Hadoop fürt létrehozásához

Bevezetés a Map Reduce /HDFS-hez

  • MapReduce – több szerveren való elosztott számítások végrehajtása
  • HDFS – a feldolgozási folyamat helyi elérésének biztosítása (meglátja a redundancia)
  • Adat – lehet unstruktúrizált/sémás (ellenben az RDBMS-sel)
  • A fejlesztő feladata adatak értelmezése
  • MapReduce programozása = Java használata (folyamatos adatbetöltés a HDFS-be)

Második nap: Műsor -1: Big Data ökoszisztéma – Big Data ETL építése: milyen eszközöket használjunk és mikor?

  • Hadoop vs. Egyéb NoSQL megoldások
  • Interaktív, véletlenszerű hozzáférés az adatokhoz
  • Hbase (oszlop-alapú adatbázis) a Hadoopon
  • Véletlenszerű hozzáférés az adatokhoz, de korlátozások vannak (maximum 1 PB)
  • Nem alkalmas a spontán elemzésre, jó naplózás, számolás, idősoros adatokhoz
  • Sqoop - Importálás az adatbázisból a Hive-ba vagy HDFS-be (JDBC/ODBC hozzáférés)
  • Flume – adatáramlás (pl. naplóadatok) HDFS-be

Második nap: Műsor -2: Big Data rendszerszervezet kezelése

  • Mozgáskész komponensek, számítógépindulat indítása/sikertelen futtatása: ZooKeeper – konfiguráció/koordináció/neveztetési szolgáltatások
  • Komplex folyamat/munkafolyamat: Oozie – munkafolyamat kezelése, függőségek, láncazott műveletek
  • Telepítés, konfiguráció, fürtkezelés, frissítés stb. (rendszeradminisztrátor): Ambari
  • Felhőben: Whirr

Második nap: Műsor -3: Előrejelezo elemzési technikák a üzleti intelligenciaban – 1. rész: Alapvető technikák és gépi tanulás alapú BI:

  • Bevezetés a gépi tanulásba
  • Osztályozási technikák tanulása
  • Bayesi előrejelezés – tanító fájl készítése
  • Támogató Vektorműveleti gép
  • KNN p-Fa algebra és vertikális adattárászat
  • Neurális háló
  • Big Data nagy változó probléma – Véletlenszerű erdő (RF)
  • Big Data automatizációs probléma – Többszörös modell alapú RF
  • Automatizálás a Soft10-M révén
  • Szöveganalitikai eszköz – Treeminer
  • Gyors tanulás
  • Ügynök alapú tanulás
  • Elosztott tanulás
  • Bevezetés a nyílt forráskódú előrejelezo elemzési eszközökhöz: R, Rapidminer, Mahut

Második nap: Műsor -4: Előrejelezo elemzések ökoszisztémája – 2. rész: Gyakori előrejelezési elemzési problémák a kormányzatban

  • Értelmezési analitika
  • Vizualizációs analitika
  • Struktúrizált előrejelezo elemzések
  • Unstruktúrizált előrejelezési elemzések
  • Tévelygés/fraudstar/szállító profilozás
  • Ajánlási motor
  • Minta detektálás
  • Szabály/Szénario felfedezés – hiba, hármanyság, optimalizálás
  • Erőforrásköltségek felfedezése
  • Hozzáállás elemzése
  • CRM analitika
  • Hálózati analitika
  • Szöveg analitika
  • Technológiai támogatott áttekintés
  • Hármanyság analitika
  • Valós idejű elemzések

Harmadik nap: Műsor -1: Valós idejű és méretezhető elemzés a Hadoopon

  • Miért sérülnek el az általános elemző algoritmusok a Hadoop/HDFS-ben?
  • Apache Hama – nagy számítási munkálatok szinkron elvégzése
  • Apache SPARK – fürtalapú számítás a valós idejű elemzésekhez
  • CMU Graphics Lab2 – Grafikus alapú aszinkron megközelítés az elosztott számításhoz
  • KNN p-Algebra alapú megközelítés a Treeminer-rel redukált hardver költségekért

Harmadik nap: Műsor -2: Esetfelfedezési és forenzikai eszközök a Big Data-ban

  • Az esetfelfedezés a Big Data-ban az örökölt adatokkal szemben – költségek és teljesítmény összehasonlítása
  • Előrejelező kódolás és technológiai támogatott áttekintés (TAR)
  • Élő bemutató a TAR termékről (vMiner) a gyors felfedezés működésének megértéséhez
  • Gyors indexelés a HDFS-n keresztül – adatok sebessége
  • NLP vagy Természetes nyelvi feldolgozás – különböző technikák és nyílt forráskódú termékek
  • Esetfelfedezés idegen nyelveken – idegen nyelvfeldolgozó technológia

Harmadik nap: Műsor -3: Big Data BI a cyberbiztonságban – gyors adatszolgáltatások összefüggéseitől a fenyegetés azonosításáig 360 fokban

  • A biztonsági elemzések alapjainak megértése – támadási felület, biztonsági konfigurációs hibák, gazdagép védelme
  • Hálózati infrastruktúra / nagy adatsárga / valós idejű elemzési ETL válasz
  • Előírásos vs előrejelező – fix szabályalapú vs metaadatokból automatikusan felfedezett fenyegetési szabályok

Harmadik nap: Műsor -4: Big Data az USDA-ban – Alkalmazások az agrártermelésben

  • Bevezetés az IoT (Internet of Things)-ba az agrártermelés érzékelő-alapú Big Data és vezérlése
  • Bevezetés a műholdképi képalkotásba és annak alkalmazása az agrártermelésben
  • Érzékelő- és képadatok integrálása a talaj frissítéséhez, kultúváz ajánlásokhoz és előrejelezésekhöz
  • Agrár Biztosítás és Big Data
  • Növényi veszteségek előrejelezése

Negyedik nap: Műsor -1: Hármanyság megelőzési BI a kormányzatban – hármanyság analitika:

  • A hármanyság elemzések alapvető osztályozása – szabályalapú vs előrejelező analitikák
  • Supervised és unsupervised gépi tanulás a hármanyság minták detektálásához
  • Szolgáltató hármanyság / projektek túltöltése
  • Medicare és Medicaid hármanyság – hármanyság detektálási technikák a jogcím feldolgozásához
  • Utazási díjbevallási hármanyságok
  • IRS visszapénztörési hármanyságok
  • Ahol lehetséges, esettanulmányokat és élő bemutatót adunk a rendelkezésre álló adattal.

Negyedik nap: Műsor -2: Szociális média analitika – intelligencia gyűjtése és elemzése

  • Big Data ETL API a szociális média adatok kivonásához
  • Szöveg, kép, metaadat és video
  • Hozzáállás elemzése a szociális média folyamokból
  • Kontextusos és kontextustalan szűrés a szociális média folyamokból
  • Szociális Média irányítópult az eltérő szociális média integrálásához
  • Automatikus profilozás a szociális média profilkhoz
  • Élő bemutató minden analitika esetében a Treeminer eszközzel.

Negyedik nap: Műsor -3: Big Data elemzése kép- és videofolyamokban

  • Képtárolási technikák a Big Data-ban – Storage megoldás terabytes feletti adatmennyiségekhez
  • LTFS és LTO
  • GPFS-LTFS (rétegelt tárolási megoldás nagy képadatokhoz)
  • Képanalitika alapjai
  • Objektum felismerés
  • Kép szegélyezése
  • Mozgás nyomon követése
  • 3D kép felépítése

Negyedik nap: Műsor -4: Big Data alkalmazások az NIH-ban:

  • A biológiai informatika fejlődő területei
  • Meta-genomika és Big Data bányászat problémái
  • Big Data előrejelező elemzések a farmakogenomikában, metabolómikában és proteómikában
  • Big Data a genomika folyamatokban
  • A big data előrejelező elemzések alkalmazása az egészségügyben

Big Data irányítópult gyors hozzáférés érdekében a különböző adattípusokhoz és megjelenítéshez:

  • A meglévő alkalmazásplatform integrálása a Big Data irányítópulttal
  • Big Data kezelése
  • Esettanulmány Big Data irányítópultból: Tableau és Pentaho
  • Használja a big data alkalmazásokat a helyalapú szolgáltatások kiküldésére a kormányzatban
  • Követő rendszer és kezelés

Ötödik nap: Műsor -1: Hogyan indokolható a Big Data BI implementálása egy szervezetben:

  • Big Data implementáció ROI meghatározása
  • Esettanulmányok az analitikus idő megspórolásához az adatgyűjtés és előkészítés során – produktivitás növekedése
  • Esettanulmányok a licencelt adatbázis költségek megtakarítása által származó bevétel növekedéséről
  • Bevétel növekedése a helyalapú szolgáltatásokból
  • Hármanyság megelőzéséből származó megtakarítás
  • Integrált Excel-szerű megközelítés a Big Data implementáció költségek és bevételi növekedés/számok becsléséhez.

Ötödik nap: Műsor -2: Lépésről lépésre a régi adatszolgáltatási rendszert a Big Data-re történő átköttentés eljárása:

  • A praktikus Big Data Migrációs Tervek megértése
  • Milyen fontos információkat kell ismerni a Big Data implementáció architektúrájának kialakítása előtt?
  • Milyen különböző módok vannak az adat mennyiségének, sebességének, sokfajtányúságának és hitelességének kiszámítására?
  • Hogyan lehet becsleni az adat növekedését?
  • Esettanulmányok

Ötödik nap: Műsor -4: Big Data szolgáltatók és termékeik áttekintése. Kérdés- és válaszszakasz:

  • Accenture
  • APTEAN (korábban CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (korábban 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (az EMC része)

Követelmények

  • Alapvető ismeretek a kormányzati üzleti működésről és adatszolgáltatásokról az illetékes területen
  • Alapvető ismeretek SQL/Oracle-ról vagy relációs adatbázisokról
  • Alapvető statisztikai ismeretek (Számolótáblás szint)
 35 Órák

Résztvevők száma


Ár résztvevőnként

Vélemények (1)

Közelgő kurzusok

Rokon kategóriák