Kurzusleírás
=====
01. nap
=====
A Big Data Business Intelligence for Criminal Intelligence Analysis áttekintése
- Esettanulmányok a rendfenntartástól – Prediktív rendészet
- Big Data a bűnüldöző ügynökségek elfogadási aránya, és hogyan igazítják jövőbeli működésüket a Big Data Predictive Analytics körébe.
- Feltörekvő technológiai megoldások, például lövésérzékelők, felügyeleti videó és közösségi média
- A Big Data technológia használata az információtúlterhelés csökkentésére
- Interfész Big Data a Legacy adatokkal
- Alapvető ismeretek az engedélyező technológiákról a prediktív analitikában
- Data Integration és az irányítópult megjelenítése
- Csaláskezelés
- Business Szabályok és csalások felderítése
- Fenyegetésészlelés és profilalkotás
- Költség-haszon elemzés a Big Data megvalósításhoz
Bevezetés a Big Data-be
- A Big Data fő jellemzői – térfogat, változatosság, sebesség és igazságosság.
- MPP (Massively Parallel Processing) architektúra
- Data Warehouses – statikus séma, lassan fejlődő adatkészlet
- MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica stb.
- Hadoop Based Solutions – nincs feltétel az adatkészlet szerkezetére vonatkozóan.
- Tipikus minta: HDFS, MapReduce (crunch), visszakeresés a HDFS-ből
- Apache Spark adatfolyam-feldolgozáshoz
- Batch- alkalmas elemző/nem interaktív
- Hangerő: CEP streaming adatok
- Tipikus választások – CEP termékek (pl. Infostreams, Apama, MarkLogic stb.)
- Kevesebb gyártásra kész – Storm/S4
- NoSQL Databases – (oszlop és kulcsérték): A legalkalmasabb az adattárház/adatbázis elemző kiegészítőjeként
NoSQL megoldások
- KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hierarchikus) - GT.m, gyorsítótár
- KV Store (megrendelve) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV gyorsítótár - Memcached, újragyorsított, koherencia, végtelen, EXtremeScale, JBoss gyorsítótár, sebesség, terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objektum Database - ZopeDB, DB40, Shoal
- Dokumentumtár - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Változatos adatok: Bevezetés a Data Cleaning-számokhoz a Big Data-ben
- RDBMS – statikus szerkezet/séma, nem segíti elő az agilis, felfedező környezetet.
- NoSQL – félig strukturált, elegendő struktúra az adatok pontos séma nélküli tárolására az adatok tárolása előtt
- Adattisztítási problémák
Hadoop
- Mikor válassza a Hadoop-t?
- STRUKTURÁLT – A vállalati adattárházak/adatbázisok hatalmas mennyiségű adat tárolására képesek (áron), de struktúrát szabnak meg (nem jó az aktív feltáráshoz)
- FÉLSZERKEZETT adat – hagyományos megoldásokkal nehezen kivitelezhető (DW/DB)
- Raktári adatok = HATALMAS erőfeszítés és statikus még a megvalósítás után is
- Az adatok sokfélesége és mennyisége érdekében, árucikk hardveren – HADOOP
- A H/W árucikk szükséges egy Hadoop fürt létrehozásához
A Map Reduce /HDFS bemutatása
- MapReduce – a számítástechnika elosztása több szerveren
- HDFS – az adatokat helyileg elérhetővé teszi a számítási folyamat számára (redundanciával)
- Adatok – lehetnek strukturálatlanok/séma nélküliek (ellentétben az RDBMS-szel)
- A fejlesztő felelőssége az adatok értelmezésében
- Programming MapReduce = munka a Java-el (előnyök/hátrányok), adatok manuális betöltése HDFS-be
=====
02. nap
=====
Big Data Ökoszisztéma -- Épület Big Data ETL (kivonás, átalakítás, betöltés) -- Milyen Big Data eszközöket kell használni és mikor?
- Hadoop vs. Egyéb NoSQL megoldások
- Az adatok interaktív, véletlenszerű eléréséhez
- Hbase (oszloporientált adatbázis) a Hadoop tetején
- Véletlenszerű hozzáférés az adatokhoz, de korlátozások (max 1 PB)
- Nem jó ad-hoc elemzéshez, jó naplózáshoz, számláláshoz, idősorokhoz
- Sqoop – Importálás adatbázisokból Hive-be vagy HDFS-be (JDBC/ODBC hozzáférés)
- Flume – Adatok (pl. naplóadatok) továbbítása HDFS-be
Big Data Management Rendszer
- Mozgó alkatrészek, számítási csomópontok indítása/hiba :ZooKeeper - Konfigurációs/koordinációs/elnevezési szolgáltatásokhoz
- Összetett folyamat/munkafolyamat: Oozie – kezelheti a munkafolyamatot, a függőségeket, a láncszemeket
- Telepítés, konfigurálás, fürtkezelés, frissítés stb (rendszergazda) :Ambari
- Felhőben: Whirr
Predictive Analytics -- Alapvető technikák és Machine Learning alapú Business intelligencia
- Bevezetés a Machine Learning-ba
- Osztályozási technikák elsajátítása
- Bayesi előrejelzés -- képzési fájl elkészítése
- Támogatja a Vector gépet
- KNN p-Tree Algebra és vertikális bányászat
- Neural Networks
- Big Data nagy változós probléma -- Véletlenszerű erdő (RF)
- Big Data Automatizálási probléma – Multi-model ensemble RF
- Automatizálás a Soft10-M-en keresztül
- Szövegelemző eszköz – Treeminer
- Agile tanulás
- Ügynök alapú tanulás
- Elosztott tanulás
- Bevezetés a nyílt forráskódú prediktív elemzési eszközökbe: R, Python, Rapidminer, Mahut
Predictive Analytics Az ökoszisztéma és alkalmazása a bűnügyi hírszerzés elemzésében
- Technológia és a nyomozási folyamat
- Insight analitika
- Vizualizációs elemzés
- Strukturált prediktív elemzés
- Strukturálatlan prediktív elemzés
- Fenyegetés/csalássztár/szállító profilalkotás
- Ajánlás Motor
- Mintaészlelés
- Szabály/forgatókönyv felfedezése – hiba, csalás, optimalizálás
- A kiváltó ok feltárása
- Érzelemelemzés
- CRM-analitika
- Hálózati elemzés
- Szövegelemzés az átiratokból, tanúvallomásokból, internetes csevegésből stb.
- Technológiával támogatott felülvizsgálat
- Csalás elemzése
- Valós idejű elemző
=====
03. nap
=====
Valós idejű és Scalable Analytics Hadoop felett
- Miért hibáznak el az általános analitikai algoritmusok Hadoop/HDFS-ben?
- Apache Hama- Tömeges szinkron elosztott számítástechnikához
- Apache SPARK – fürt számítástechnikához és valós idejű elemzéshez
- CMU Graphics Lab2 – gráf alapú aszinkron megközelítés az elosztott számítástechnikához
- KNN p -- Algebra alapú megközelítés a Treeminertől a csökkentett hardver üzemeltetési költségek érdekében
Eszközök az eDiscovery és a Forensics számára
- eDiscovery over Big Data vs. Legacy adatok – a költségek és a teljesítmény összehasonlítása
- Prediktív kódolás és Technológiával Segített Ellenőrzés (TAR)
- A vMiner élő bemutatója annak megértéséhez, hogy a TAR miként teszi lehetővé a gyorsabb felfedezést
- Gyorsabb indexelés a HDFS-en keresztül – Az adatok sebessége
- NLP (Natural Language processing) – nyílt forráskódú termékek és technikák
- eDiscovery idegen nyelveken -- technológia az idegen nyelvi feldolgozáshoz
Big Data BI for Cyber Security – 360 fokos nézet, gyors adatgyűjtés és fenyegetés azonosítás
- A biztonsági elemzés alapjainak megértése – támadási felület, biztonsági hibás konfiguráció, gazdagép védelme
- Hálózati infrastruktúra / Nagy adatcső / Response ETL a valós idejű elemzéshez
- Preskriptív vs prediktív – Rögzített szabályalapú kontra fenyegetési szabályok automatikus felfedezése metaadatokból
Eltérő adatok gyűjtése a bűnügyi hírszerzés elemzéséhez
- Az IoT (Internet of Things) használata érzékelőként az adatok rögzítéséhez
- Műholdfelvételek használata belföldi megfigyeléshez
- Megfigyelési és képi adatok felhasználása bűnügyi azonosításhoz
- Egyéb adatgyűjtési technológiák – drónok, testkamerák, GPS-címkéző rendszerek és hőképalkotási technológia
- Az automatizált adatlekérést informátoroktól, kihallgatástól és kutatástól kapott adatokkal kombinálva
- Forecasting bűncselekmény
=====
04. nap
=====
Csalásmegelőzési BI a Big Data-től a Fraud Analytics szolgáltatásban
- A csaláselemzés alapvető osztályozása – szabályalapú vagy prediktív elemzés
- Felügyelt és nem felügyelt gépi tanulás a csalási minták észleléséhez
- Business az üzleti csaláshoz, az orvosi követelésekkel kapcsolatos csaláshoz, a biztosítási csaláshoz, az adóelkerüléshez és a pénzmosáshoz
Social Media Analitika – Információgyűjtés és -elemzés
- Hogyan használják a Social Media-et a bűnözők a szervezéshez, a toborzáshoz és a tervezéshez
- Big Data ETL API közösségi média adatok kinyerésére
- Szöveg, kép, metaadatok és videó
- Hangulatelemzés a közösségi média hírfolyamából
- A közösségi média hírfolyamának kontextuális és nem kontextus szerinti szűrése
- Social Media Irányítópult a különféle közösségi média integrálásához
- A közösségi média profiljának automatizált profilalkotása
- Az egyes elemzők élő bemutatója a Treeminer eszközön keresztül történik
Big Data Analitika a képfeldolgozásban és a videohírcsatornákban
- Képtárolási technikák a Big Data-ben – Tárolási megoldás petabájtot meghaladó adatokhoz
- LTFS (Linear Tape File System) és LTO (Linear Tape Open)
- GPFS-LTFS (Általános Párhuzamos Fájlrendszer – Lineáris Szalagos Fájlrendszer) – réteges tárolási megoldás nagy képadatokhoz
- A képelemzés alapjai
- Tárgyfelismerés
- Képszegmentálás
- Mozgáskövetés
- 3D képrekonstrukció
Biometrikák, DNS és új generációs azonosító programok
- Az ujjlenyomatvételen és az arcfelismerésen túl
- Beszédfelismerés, billentyűleütés (a felhasználók gépelési mintájának elemzése) és CODIS (kombinált DNS-indexrendszer)
- A DNS-egyeztetésen túl: kriminalisztikai DNS-fenotipizálás használata arc kialakításához DNS-mintákból
Big Data Irányítópult a különféle adatok és kijelzők gyors eléréséhez:
- Meglévő alkalmazásplatform integrálása Big Data Dashboard-tal
- Big Data menedzsment
- Esettanulmány a Big Data irányítópultról: Tableau és Pentaho
- Használja a Big Data alkalmazást a helyalapú szolgáltatások megjelenítéséhez a Govt.
- Nyomon követési rendszer és menedzsment
=====
05. nap
=====
Hogyan igazoljuk Big Data a BI bevezetését egy szervezeten belül:
- A ROI meghatározása (Return on Investment) a Big Data megvalósításához
- Esettanulmányok az elemzői idő megtakarítására az adatok gyűjtése és előkészítése során – a termelékenység növelése
- Bevételnyereség az alacsonyabb adatbázis-licencköltségből
- Bevételnyereség a helyalapú szolgáltatásokból
- Költségmegtakarítás a csalás megelőzésével
- Integrált táblázatkezelő megközelítés a hozzávetőleges kiadások és a Big Data megvalósításból származó bevételnövekedés/megtakarítások összehasonlításához.
Lépésről lépésre az örökölt adatrendszer Big Data rendszerre való cseréjének eljárása
- Big Data Migrációs ütemterv
- Milyen kritikus információkra van szükség egy Big Data rendszer felépítéséhez?
- Milyen módszerekkel számítható ki az adatok mennyisége, sebessége, változatossága és hitelessége
- Hogyan becsüljük meg az adatnövekedést
- Esettanulmányok
Big Data Szállítók áttekintése és termékeik áttekintése.
- Accenture
- APTEAN (korábban CDC szoftver)
- Cisco Rendszerek
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatika
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Korábban 10Gen)
- MU Sigma
- Netapp
- Opera megoldások
- Oracle
- Pentaho
- Platfora
- Qliktech
- Kvantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Intézet
- Sisense
- Szoftver AG/Terracotta
- Soft10 automatizálás
- Splunk
- Sqrrl
- Supermicro
- Tableau Szoftver
- Teradata
- Gondoljon a Big Analyticsre
- Tidemark rendszerek
- Treeminer
- VMware (Az EMC része)
Q/A munkamenet
Követelmények
- Rendészeti folyamatok és adatrendszerek ismerete
- Az SQL/Oracle vagy relációs adatbázis alapjai
- A statisztikák alapvető ismerete (táblázat szinten)
Vélemények (4)
Világos magyarázatok jó példákkal, hogy kapcsolódhassak a saját munkámhoz.
Elaine Vermeulen - Sandoz BV
Kurzus - Alteryx for Developers
Machine Translated
I enjoyed the exercises session the most as I get to understand how to apply. Would definitely enjoyed it more if there are more combination exercises :)
Joan Ng
Kurzus - Data Preparation with Alteryx
Use cases were awesome! and Ray involved each and every one of us in each use case.
Zara - Trench Ltd
Kurzus - Alteryx for Data Analysis
team work