Köszönjük, hogy elküldte érdeklődését! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Köszönjük, hogy elküldte foglalását! Csapatunk egyik tagja hamarosan felveszi Önnel a kapcsolatot.
Kurzusleírás
Minden műsor 2 órás
Első nap: Műsor -1: Adatvezérelt üzleti intelligencia a kormányzatban – áttekintés
- Esettanulmányok az NIH, DoE-nél
- A Big Data elfogadás mértéke a kormányzatban és ahogyan a jövőbeli működést igazítják a Big Data előrejelezo elemzési technikájaival
- Széles körű alkalmazás területek a DoD, NSA, IRS, USDA stb. számára
- A Big Data összekapcsolása az örökölt adattal
- Alapvető ismeretek a előrejelezési elemzésekhez való segítő technológiákról
- Adatintegráció és irányítópult megjelenítése
- Hármanyság kezelése
- Üzleti szabályok / hármanyság detektálásának generálása
- Tévelygés detektálása és profilozása
- A Big Data implementációjának költség-nyereségi elemzése
Első nap: Műsor -2 : Bevezetés a Big Data-hoz – 1. rész
- A Big Data fő jellemzői – mennyiség, sokfajtányúság, sebesség és hitelesség. MPP architektúra a mennyiségi feladatokhoz.
- Adattárak – statikus séma, lassan változó adatszétvonal
- MPP adatbázisok, mint Greenplum, Exadata, Teradata, Netezza, Vertica stb.
- Hadoop-alapú megoldások – nincsenek feltételek az adatszétvonal szerkezetére.
- Tipikus minta: HDFS, MapReduce (fájlok összeolvasztása), visszaszerelés a HDFS-ből
- Batch – analitikai/nem interaktív feladatokhoz való megfelelőség
- Mennyiség: CEP streaming adat
- Tipikus választások – CEP termékek (pl. Infostreams, Apama, MarkLogic stb.)
- Kevésbé éles környezetben alkalmazhatók – Storm/S4
- NoSQL adatbázisok (oszlop- és kulcs-érték alapú): az adattár/ adatbázishoz való analitikai mellékelvénként legálacsonyabb költségű megoldás
Első nap: Műsor -3 : Bevezetés a Big Data-hoz – 2. rész
NoSQL megoldások
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarchikus) - GT.m, Cache
- KV Store (Rendezett) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objektum adatbázis - ZopeDB, DB40, Shoal
- Dokumentum tároló - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-adatbázisok, ThruDB, CloudKit, Persevere, Riak-Basho, Scalaris
- Széles oszlopú tároló - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Adatszétvonalok fajtái: Bevezetés az adatcsoportítási problémákba a Big Data-ban
- RDBMS – statikus struktúra/séma, nem támogatja az átmeneti, vizsgáló környezetet.
- NoSQL – félstruktúrizált, elég szerkezet az adattárolásra az előzetes sémátlétítés nélkül
- Adatcsoportítási problémák
Első nap: Műsor -4 : Bevezetés a Big Data-hoz – 3. rész: Hadoop
- Mikor választják a Hadoopt?
- STRUKTÚRÁZOTT - Vállalati adattárak/adatbázisok tárolhatnak vastag mennyiségű adatot (költséggel), de struktúrát rókálnak rá (nem alkalmas az aktív kivizsgálásra)
- FÉLSTRUKTÚRÁZOTT adat – nehéz a hagyományos megoldásokkal (adattár/adatbázis)
- Az adattárhelyezés = HUSSZA eszköz és statikus még a megvalósítása után
- A sokfajtányúság és mennyiség miatt, az olcsó hardveren való feldolgozás – HADOOP
- Olcsó H/W szükséges a Hadoop fürt létrehozásához
Bevezetés a Map Reduce /HDFS-hez
- MapReduce – több szerveren való elosztott számítások végrehajtása
- HDFS – a feldolgozási folyamat helyi elérésének biztosítása (meglátja a redundancia)
- Adat – lehet unstruktúrizált/sémás (ellenben az RDBMS-sel)
- A fejlesztő feladata adatak értelmezése
- MapReduce programozása = Java használata (folyamatos adatbetöltés a HDFS-be)
Második nap: Műsor -1: Big Data ökoszisztéma – Big Data ETL építése: milyen eszközöket használjunk és mikor?
- Hadoop vs. Egyéb NoSQL megoldások
- Interaktív, véletlenszerű hozzáférés az adatokhoz
- Hbase (oszlop-alapú adatbázis) a Hadoopon
- Véletlenszerű hozzáférés az adatokhoz, de korlátozások vannak (maximum 1 PB)
- Nem alkalmas a spontán elemzésre, jó naplózás, számolás, idősoros adatokhoz
- Sqoop - Importálás az adatbázisból a Hive-ba vagy HDFS-be (JDBC/ODBC hozzáférés)
- Flume – adatáramlás (pl. naplóadatok) HDFS-be
Második nap: Műsor -2: Big Data rendszerszervezet kezelése
- Mozgáskész komponensek, számítógépindulat indítása/sikertelen futtatása: ZooKeeper – konfiguráció/koordináció/neveztetési szolgáltatások
- Komplex folyamat/munkafolyamat: Oozie – munkafolyamat kezelése, függőségek, láncazott műveletek
- Telepítés, konfiguráció, fürtkezelés, frissítés stb. (rendszeradminisztrátor): Ambari
- Felhőben: Whirr
Második nap: Műsor -3: Előrejelezo elemzési technikák a üzleti intelligenciaban – 1. rész: Alapvető technikák és gépi tanulás alapú BI:
- Bevezetés a gépi tanulásba
- Osztályozási technikák tanulása
- Bayesi előrejelezés – tanító fájl készítése
- Támogató Vektorműveleti gép
- KNN p-Fa algebra és vertikális adattárászat
- Neurális háló
- Big Data nagy változó probléma – Véletlenszerű erdő (RF)
- Big Data automatizációs probléma – Többszörös modell alapú RF
- Automatizálás a Soft10-M révén
- Szöveganalitikai eszköz – Treeminer
- Gyors tanulás
- Ügynök alapú tanulás
- Elosztott tanulás
- Bevezetés a nyílt forráskódú előrejelezo elemzési eszközökhöz: R, Rapidminer, Mahut
Második nap: Műsor -4: Előrejelezo elemzések ökoszisztémája – 2. rész: Gyakori előrejelezési elemzési problémák a kormányzatban
- Értelmezési analitika
- Vizualizációs analitika
- Struktúrizált előrejelezo elemzések
- Unstruktúrizált előrejelezési elemzések
- Tévelygés/fraudstar/szállító profilozás
- Ajánlási motor
- Minta detektálás
- Szabály/Szénario felfedezés – hiba, hármanyság, optimalizálás
- Erőforrásköltségek felfedezése
- Hozzáállás elemzése
- CRM analitika
- Hálózati analitika
- Szöveg analitika
- Technológiai támogatott áttekintés
- Hármanyság analitika
- Valós idejű elemzések
Harmadik nap: Műsor -1: Valós idejű és méretezhető elemzés a Hadoopon
- Miért sérülnek el az általános elemző algoritmusok a Hadoop/HDFS-ben?
- Apache Hama – nagy számítási munkálatok szinkron elvégzése
- Apache SPARK – fürtalapú számítás a valós idejű elemzésekhez
- CMU Graphics Lab2 – Grafikus alapú aszinkron megközelítés az elosztott számításhoz
- KNN p-Algebra alapú megközelítés a Treeminer-rel redukált hardver költségekért
Harmadik nap: Műsor -2: Esetfelfedezési és forenzikai eszközök a Big Data-ban
- Az esetfelfedezés a Big Data-ban az örökölt adatokkal szemben – költségek és teljesítmény összehasonlítása
- Előrejelező kódolás és technológiai támogatott áttekintés (TAR)
- Élő bemutató a TAR termékről (vMiner) a gyors felfedezés működésének megértéséhez
- Gyors indexelés a HDFS-n keresztül – adatok sebessége
- NLP vagy Természetes nyelvi feldolgozás – különböző technikák és nyílt forráskódú termékek
- Esetfelfedezés idegen nyelveken – idegen nyelvfeldolgozó technológia
Harmadik nap: Műsor -3: Big Data BI a cyberbiztonságban – gyors adatszolgáltatások összefüggéseitől a fenyegetés azonosításáig 360 fokban
- A biztonsági elemzések alapjainak megértése – támadási felület, biztonsági konfigurációs hibák, gazdagép védelme
- Hálózati infrastruktúra / nagy adatsárga / valós idejű elemzési ETL válasz
- Előírásos vs előrejelező – fix szabályalapú vs metaadatokból automatikusan felfedezett fenyegetési szabályok
Harmadik nap: Műsor -4: Big Data az USDA-ban – Alkalmazások az agrártermelésben
- Bevezetés az IoT (Internet of Things)-ba az agrártermelés érzékelő-alapú Big Data és vezérlése
- Bevezetés a műholdképi képalkotásba és annak alkalmazása az agrártermelésben
- Érzékelő- és képadatok integrálása a talaj frissítéséhez, kultúváz ajánlásokhoz és előrejelezésekhöz
- Agrár Biztosítás és Big Data
- Növényi veszteségek előrejelezése
Negyedik nap: Műsor -1: Hármanyság megelőzési BI a kormányzatban – hármanyság analitika:
- A hármanyság elemzések alapvető osztályozása – szabályalapú vs előrejelező analitikák
- Supervised és unsupervised gépi tanulás a hármanyság minták detektálásához
- Szolgáltató hármanyság / projektek túltöltése
- Medicare és Medicaid hármanyság – hármanyság detektálási technikák a jogcím feldolgozásához
- Utazási díjbevallási hármanyságok
- IRS visszapénztörési hármanyságok
- Ahol lehetséges, esettanulmányokat és élő bemutatót adunk a rendelkezésre álló adattal.
Negyedik nap: Műsor -2: Szociális média analitika – intelligencia gyűjtése és elemzése
- Big Data ETL API a szociális média adatok kivonásához
- Szöveg, kép, metaadat és video
- Hozzáállás elemzése a szociális média folyamokból
- Kontextusos és kontextustalan szűrés a szociális média folyamokból
- Szociális Média irányítópult az eltérő szociális média integrálásához
- Automatikus profilozás a szociális média profilkhoz
- Élő bemutató minden analitika esetében a Treeminer eszközzel.
Negyedik nap: Műsor -3: Big Data elemzése kép- és videofolyamokban
- Képtárolási technikák a Big Data-ban – Storage megoldás terabytes feletti adatmennyiségekhez
- LTFS és LTO
- GPFS-LTFS (rétegelt tárolási megoldás nagy képadatokhoz)
- Képanalitika alapjai
- Objektum felismerés
- Kép szegélyezése
- Mozgás nyomon követése
- 3D kép felépítése
Negyedik nap: Műsor -4: Big Data alkalmazások az NIH-ban:
- A biológiai informatika fejlődő területei
- Meta-genomika és Big Data bányászat problémái
- Big Data előrejelező elemzések a farmakogenomikában, metabolómikában és proteómikában
- Big Data a genomika folyamatokban
- A big data előrejelező elemzések alkalmazása az egészségügyben
Big Data irányítópult gyors hozzáférés érdekében a különböző adattípusokhoz és megjelenítéshez:
- A meglévő alkalmazásplatform integrálása a Big Data irányítópulttal
- Big Data kezelése
- Esettanulmány Big Data irányítópultból: Tableau és Pentaho
- Használja a big data alkalmazásokat a helyalapú szolgáltatások kiküldésére a kormányzatban
- Követő rendszer és kezelés
Ötödik nap: Műsor -1: Hogyan indokolható a Big Data BI implementálása egy szervezetben:
- Big Data implementáció ROI meghatározása
- Esettanulmányok az analitikus idő megspórolásához az adatgyűjtés és előkészítés során – produktivitás növekedése
- Esettanulmányok a licencelt adatbázis költségek megtakarítása által származó bevétel növekedéséről
- Bevétel növekedése a helyalapú szolgáltatásokból
- Hármanyság megelőzéséből származó megtakarítás
- Integrált Excel-szerű megközelítés a Big Data implementáció költségek és bevételi növekedés/számok becsléséhez.
Ötödik nap: Műsor -2: Lépésről lépésre a régi adatszolgáltatási rendszert a Big Data-re történő átköttentés eljárása:
- A praktikus Big Data Migrációs Tervek megértése
- Milyen fontos információkat kell ismerni a Big Data implementáció architektúrájának kialakítása előtt?
- Milyen különböző módok vannak az adat mennyiségének, sebességének, sokfajtányúságának és hitelességének kiszámítására?
- Hogyan lehet becsleni az adat növekedését?
- Esettanulmányok
Ötödik nap: Műsor -4: Big Data szolgáltatók és termékeik áttekintése. Kérdés- és válaszszakasz:
- Accenture
- APTEAN (korábban CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (korábban 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (az EMC része)
Követelmények
- Alapvető ismeretek a kormányzati üzleti működésről és adatszolgáltatásokról az illetékes területen
- Alapvető ismeretek SQL/Oracle-ról vagy relációs adatbázisokról
- Alapvető statisztikai ismeretek (Számolótáblás szint)
35 Órák
Vélemények (1)
A képző képessége az organzácció igényeinek megfelelően igazítani a kurzust, és nem csak a személyes eljárás részeként tartalmat szolgáltatni.
Masilonyane - Revenue Services Lesotho
Kurzus - Big Data Business Intelligence for Govt. Agencies
Gépi fordítás