Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kurzusleírás
Minden foglalkozás 2 órás
1. nap: Session -1: Business A miértek áttekintése Big Data Business Intelligence in Govt.
- Esettanulmányok az NIH-tól, DoE
- Big Data alkalmazkodási arány a Govt. Ügynökségek és hogyan igazítják jövőbeli működésüket a Big Data Predictive Analytics körébe
- Széles körű alkalmazási terület a DoD, NSA, IRS, USDA stb.
- Interfész Big Data a régi adatokkal
- Alapvető ismeretek az engedélyező technológiákról a prediktív analitikában
- Data Integration és az irányítópult megjelenítése
- Csaláskezelés
- Business Szabály/csalásfelderítés generálása
- Fenyegetésészlelés és profilalkotás
- Költség-haszon elemzés a Big Data megvalósításhoz
1. nap: Session-2 : A Big Data-1 bemutatása
- A Big Data fő jellemzői a térfogat, a változatosság, a sebesség és a hitelesség. MPP architektúra a kötethez.
- Data Warehouses – statikus séma, lassan fejlődő adatkészlet
- MPP Database, mint a Greenplum, Exadata, Teradata, Netezza, Vertica stb.
- Hadoop Based Solutions – nincs feltétel az adatkészlet szerkezetére vonatkozóan.
- Tipikus minta: HDFS, MapReduce (crunch), visszakeresés a HDFS-ből
- Batch- alkalmas elemző/nem interaktív
- Hangerő: CEP streaming adatok
- Tipikus választások – CEP termékek (pl. Infostreams, Apama, MarkLogic stb.)
- Kevesebb gyártásra kész – Storm/S4
- NoSQL Databases – (oszlop és kulcsérték): A legalkalmasabb az adattárház/adatbázis elemző kiegészítőjeként
1. nap: -3. foglalkozás: Bevezetés a Big Data-2
NoSQL megoldások
- KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hierarchikus) - GT.m, gyorsítótár
- KV Store (megrendelve) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV gyorsítótár - Memcached, újragyorsított, koherencia, végtelen, EXtremeScale, JBoss gyorsítótár, sebesség, terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Database objektum – ZopeDB, DB40, Shoal
- Dokumentumtár - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Változatos adatok: Bevezetés a Data Cleaning kiadáshoz a Big Data-ban
- RDBMS – statikus szerkezet/séma, nem segíti elő az agilis, felfedező környezetet.
- NoSQL – félig strukturált, elegendő struktúra az adatok pontos séma nélküli tárolására az adatok tárolása előtt
- Adattisztítási problémák
1. nap : 4. foglalkozás: Big Data Bevezetés-3 : Hadoop
- Mikor kell kiválasztani a Hadoop-et?
- STRUKTURÁLT – A vállalati adattárházak/adatbázisok hatalmas mennyiségű adat tárolására képesek (áron), de struktúrát szabnak meg (nem jó az aktív feltáráshoz)
- FÉLSZERKEZETT adatok – nehéz megcsinálni a hagyományos megoldásokkal (DW/DB)
- Raktári adatok = HATALMAS erőfeszítés és statikus még a megvalósítás után is
- Az adatok sokféleségéért és mennyiségéért, árucikk hardveren – HADOOP
- H/W árucikk szükséges egy Hadoop fürt létrehozásához
A Map Reduce /HDFS bemutatása
- MapReduce – a számítástechnika elosztása több szerveren
- HDFS – az adatokat helyileg elérhetővé teszi a számítási folyamat számára (redundanciával)
- Adatok – lehetnek strukturálatlanok/séma nélküliek (ellentétben az RDBMS-szel)
- A fejlesztő felelőssége az adatok értelmezésében
- Programming MapReduce = munka a Java-al (előnyök/hátrányok), adatok manuális betöltése HDFS-be
2. nap: 1. munkamenet: Big Data Ökoszisztéma-építés Big Data ETL: Big Data Eszközök univerzuma – melyiket használja és mikor?
- Hadoop vs. Egyéb NoSQL megoldások
- Az adatok interaktív, véletlenszerű eléréséhez
- Hbase (oszloporientált adatbázis) a Hadoop tetején
- Véletlenszerű hozzáférés az adatokhoz, de korlátozások (max 1 PB)
- Nem jó ad-hoc elemzéshez, jó naplózáshoz, számláláshoz, idősorokhoz
- Sqoop – Importálás adatbázisokból Hive-ba vagy HDFS-be (JDBC/ODBC hozzáférés)
- Flume – Adatok (pl. naplóadatok) továbbítása HDFS-be
2. nap: 2. munkamenet: Big Data Management Rendszer
- Mozgó alkatrészek, számítási csomópontok indítása/hiba :ZooKeeper - Konfigurációs/koordinációs/elnevezési szolgáltatásokhoz
- Összetett folyamat/munkafolyamat: Oozie – kezelheti a munkafolyamatot, a függőségeket, a láncszemeket
- Telepítés, konfigurálás, fürtkezelés, frissítés stb (rendszergazda) :Ambari
- Felhőben: Whirr
2. nap: 3. munkamenet: Prediktív elemzés az Business Intelligenciában -1: Alapvető technikák és gépi tanulás alapú BI :
- Bevezetés a gépi tanulásba
- Osztályozási technikák elsajátítása
- Bayes-predikciót előkészítő képzési fájl
- Támogatja a Vector gépet
- KNN p-Tree Algebra és vertikális bányászat
- Neurális hálózat
- Big Data nagy változós probléma - Véletlenszerű erdő (RF)
- Big Data Automatizálási probléma – Multi-model ensemble RF
- Automatizálás a Soft10-M-en keresztül
- Szövegelemző eszköz – Treeminer
- Agile tanulás
- Ügynök alapú tanulás
- Elosztott tanulás
- Bevezetés a nyílt forráskódú prediktív elemzési eszközökbe: R, Rapidminer, Mahut
2. nap: Session-4 Prediktív analitikai ökoszisztéma-2: Gyakori prediktív analitikai problémák a Govt-ben.
- Insight analitika
- Vizualizációs elemzés
- Strukturált prediktív analitika
- Strukturálatlan prediktív analitika
- Fenyegetés/csalássztár/szállító profilalkotás
- Ajánlás Motor
- Mintaészlelés
- Szabály/forgatókönyv felfedezése – kudarc, csalás, optimalizálás
- A kiváltó ok feltárása
- Érzelemelemzés
- CRM-elemző
- Hálózati elemzés
- Szövegelemzés
- Technológiával támogatott felülvizsgálat
- Csaláselemző
- Valós idejű elemző
3. nap : 1. munkamenet : valós idejű és Scalaanalytic over Hadoop
- Miért buknak el a gyakori analitikai algoritmusok Hadoop/HDFS-ben?
- Apache Hama- Tömeges szinkron elosztott számítástechnikához
- Apache SPARK – fürtszámításhoz valós idejű elemzéshez
- CMU Graphics Lab2 – gráf alapú aszinkron megközelítés az elosztott számítástechnikához
- KNN p-algebra alapú megközelítés a Treeminertől a csökkentett hardver üzemeltetési költségek érdekében
3. nap: 2. munkamenet : eDiscovery és Forensics eszközök
- eDiscovery over Big Data vs. Legacy data – a költségek és a teljesítmény összehasonlítása
- Prediktív kódolás és technológia által segített felülvizsgálat (TAR)
- Tar termék élő bemutatója (vMiner), hogy megértse, hogyan működik a TAR a gyorsabb felfedezés érdekében
- Gyorsabb indexelés a HDFS révén – az adatok sebessége
- NLP vagy természetes nyelvi feldolgozás – különféle technikák és nyílt forráskódú termékek
- eDiscovery idegen nyelveken-technológia az idegen nyelvi feldolgozáshoz
3. nap : 3. munkamenet: Big Data BI a Cyber Security számára – A gyors adatgyűjtés és a fenyegetés azonosításának teljes 360 fokos nézeteinek megértése
- A biztonsági elemzés alapjainak megértése - támadási felület, biztonsági hibás konfiguráció, gazdagép védelme
- Hálózati infrastruktúra / Nagy adatcső / Response ETL a valós idejű elemzéshez
- Preskriptív vs prediktív – Rögzített szabályalapú kontra fenyegetési szabályok automatikus felfedezése metaadatokból
3. nap: 4. ülés: Big Data USDA: Alkalmazás a mezőgazdaságban
- Bevezetés az IoT-be (Internet of Things) mezőgazdasági szenzoralapú Big Data és vezérléshez
- A műholdas képalkotás bemutatása és alkalmazása a mezőgazdaságban
- Szenzor- és képadatok integrálása a talaj termékenységéhez, művelési javaslatokhoz és előrejelzésekhez
- Mezőgazdasági biztosítás és Big Data
- Termésveszteség előrejelzése
4. nap: 1. munkamenet: Csalásmegelőzési BI a Big Data-tól a Govt-ben - Csaláselemzés:
- A csaláselemzés alapvető osztályozása szabályalapú vs prediktív elemzés
- Felügyelt és nem felügyelt gépi tanulás a csalási minták észleléséhez
- Szállítói csalás/projektek túlterhelése
- Medicare és Medicaid csalás-csalás-felderítési technikák követelésfeldolgozáshoz
- Utazási költségtérítési csalások
- IRS visszatérítési csalások
- Esettanulmányokat és élő bemutatót adunk, ahol rendelkezésre állnak adatok.
4. nap: 2. munkamenet: Social Media Analitikai – Információgyűjtés és elemzés
- Big Data ETL API közösségi média adatok kinyerésére
- Szöveg, kép, metaadatok és videó
- Hangulatelemzés a közösségi média hírfolyamából
- A közösségi média hírfolyamának kontextuális és nem kontextus szerinti szűrése
- Social Media Irányítópult a különféle közösségi média integrálásához
- A közösségi média profiljának automatizált profilalkotása
- Az egyes elemzők élő bemutatója a Treeminer eszközön keresztül történik.
4. nap: 3. munkamenet: Big Data Analitikus képfeldolgozásban és videofeedekben
- Képtárolási technikák a Big Data-ban – Tárolási megoldás petabájtot meghaladó adatokhoz
- LTFS és LTO
- GPFS-LTFS (Réteges tárolási megoldás nagy képadatokhoz)
- A képelemzés alapjai
- Tárgyfelismerés
- Képszegmentálás
- Mozgáskövetés
- 3D képrekonstrukció
4. nap: 4. munkamenet: Big Data jelentkezés az NIH-ban:
- A Bio-informatika feltörekvő területei
- Metagenomikai és Big Data bányászati kérdések
- Big Data Prediktív analitika a farmakogenomikai, metabolomikai és proteomikai célokra
- Big Data a downstream Genomics folyamatban
- Big data prediktív analitika alkalmazása a közegészségügyben
Big Data Irányítópult a különféle adatok és kijelzők gyors eléréséhez:
- Meglévő alkalmazásplatform integrálása Big Data Dashboard-tal
- Big Data menedzsment
- Esettanulmány a Big Data irányítópultról: Tableau és Pentaho
- Használja a Big Data alkalmazást a helyalapú szolgáltatások leküldéséhez a Govt.
- Nyomon követési rendszer és menedzsment
5. nap : 1. munkamenet: Hogyan igazoljuk Big Data a BI bevezetését egy szervezeten belül:
- ROI meghatározása Big Data megvalósításhoz
- Esettanulmányok az elemzői idő megtakarítására az adatok gyűjtésére és előkészítésére – a termelékenység növekedése
- Esettanulmányok a licencelt adatbázis költségének megtakarításából származó bevételszerzésről
- Bevételnyereség a helyalapú szolgáltatásokból
- Megmenteni a csalás megelőzését
- Integrált táblázatkezelő módszerrel kb. kiadás vs. bevételnyereség/megtakarítás a Big Data megvalósításból.
5. nap: 2. munkamenet: Lépésről lépésre az örökölt adatrendszer Big Data-ra való cseréje. Rendszer:
- A gyakorlati Big Data Migrációs ütemterv megértése
- Milyen fontos információkra van szükség egy Big Data megvalósítás megtervezése előtt
- Milyen módszerekkel lehet kiszámítani az adatok mennyiségét, sebességét, változatosságát és valódiságát?
- Hogyan becsüljük meg az adatnövekedést
- Esettanulmányok
5. nap: 4. munkamenet: Big Data szállítók áttekintése és termékeik áttekintése. Q/A munkamenet:
- Accenture
- APTEAN (korábban CDC szoftver)
- Cisco Rendszerek
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatika
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Korábban 10Gen)
- MU Sigma
- Netapp
- Opera megoldások
- Oracle
- Pentaho
- Platfora
- Qliktech
- Kvantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Intézet
- Sisense
- Szoftver AG/Terracotta
- Soft10 automatizálás
- Splunk
- Sqrrl
- Supermicro
- Tableau Szoftver
- Teradata
- Gondoljon a Big Analyticsre
- Tidemark rendszerek
- Treeminer
- VMware (Az EMC része)
Követelmények
- Vállalkozási és adatrendszeri alapismeretek a Korm. az ő tartományukban
- Az SQL/Oracle vagy relációs adatbázis alapszintű ismerete
- A Statistics alapvető ismerete (táblázat szinten)
35 Hours
Vélemények (4)
A tréner szóbeli készségei és emberi oldala (Augustin).
Jeremy Chicon - TE Connectivity
Kurzus - NB-IoT for Developers
Machine Translated
Világos magyarázatok jó példákkal, hogy kapcsolódhassak a saját munkámhoz.
Elaine Vermeulen - Sandoz BV
Kurzus - Alteryx for Developers
Machine Translated
I enjoyed the exercises session the most as I get to understand how to apply. Would definitely enjoyed it more if there are more combination exercises :)
Joan Ng
Kurzus - Data Preparation with Alteryx
Use cases were awesome! and Ray involved each and every one of us in each use case.