Kurzusleírás

=====
01. nap
=====
A Big Data Business Intelligence for Criminal Intelligence Analysis áttekintése

  • Esettanulmányok a rendfenntartástól – Prediktív rendészet
  • Big Data a bűnüldöző ügynökségek elfogadási aránya, és hogyan igazítják jövőbeli működésüket a Big Data Predictive Analytics körébe.
  • Feltörekvő technológiai megoldások, például lövésérzékelők, felügyeleti videó és közösségi média
  • A Big Data technológia használata az információtúlterhelés csökkentésére
  • Interfész Big Data a Legacy adatokkal
  • Alapvető ismeretek az engedélyező technológiákról a prediktív analitikában
  • Data Integration és az irányítópult megjelenítése
  • Csaláskezelés
  • Business Szabályok és csalások felderítése
  • Fenyegetésészlelés és profilalkotás
  • Költség-haszon elemzés a Big Data megvalósításhoz

Bevezetés a Big Data-be

  • A Big Data fő jellemzői – térfogat, változatosság, sebesség és igazságosság.
  • MPP (Massively Parallel Processing) architektúra
  • Data Warehouses – statikus séma, lassan fejlődő adatkészlet
  • MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica stb.
  • Hadoop Based Solutions – nincs feltétel az adatkészlet szerkezetére vonatkozóan.
  • Tipikus minta: HDFS, MapReduce (crunch), visszakeresés a HDFS-ből
  • Apache Spark adatfolyam-feldolgozáshoz
  • Batch- alkalmas elemző/nem interaktív
  • Hangerő: CEP streaming adatok
  • Tipikus választások – CEP termékek (pl. Infostreams, Apama, MarkLogic stb.)
  • Kevesebb gyártásra kész – Storm/S4
  • NoSQL Databases – (oszlop és kulcsérték): A legalkalmasabb az adattárház/adatbázis elemző kiegészítőjeként

NoSQL megoldások

  • KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hierarchikus) - GT.m, gyorsítótár
  • KV Store (megrendelve) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV gyorsítótár - Memcached, újragyorsított, koherencia, végtelen, EXtremeScale, JBoss gyorsítótár, sebesség, terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Objektum Database - ZopeDB, DB40, Shoal
  • Dokumentumtár - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Változatos adatok: Bevezetés a Data Cleaning-számokhoz a Big Data-ben

  • RDBMS – statikus szerkezet/séma, nem segíti elő az agilis, felfedező környezetet.
  • NoSQL – félig strukturált, elegendő struktúra az adatok pontos séma nélküli tárolására az adatok tárolása előtt
  • Adattisztítási problémák

Hadoop

  • Mikor válassza a Hadoop-t?
  • STRUKTURÁLT – A vállalati adattárházak/adatbázisok hatalmas mennyiségű adat tárolására képesek (áron), de struktúrát szabnak meg (nem jó az aktív feltáráshoz)
  • FÉLSZERKEZETT adat – hagyományos megoldásokkal nehezen kivitelezhető (DW/DB)
  • Raktári adatok = HATALMAS erőfeszítés és statikus még a megvalósítás után is
  • Az adatok sokfélesége és mennyisége érdekében, árucikk hardveren – HADOOP
  • A H/W árucikk szükséges egy Hadoop fürt létrehozásához

A Map Reduce /HDFS bemutatása

  • MapReduce – a számítástechnika elosztása több szerveren
  • HDFS – az adatokat helyileg elérhetővé teszi a számítási folyamat számára (redundanciával)
  • Adatok – lehetnek strukturálatlanok/séma nélküliek (ellentétben az RDBMS-szel)
  • A fejlesztő felelőssége az adatok értelmezésében
  • Programming MapReduce = munka a Java-el (előnyök/hátrányok), adatok manuális betöltése HDFS-be

=====
02. nap
=====
Big Data Ökoszisztéma -- Épület Big Data ETL (kivonás, átalakítás, betöltés) -- Milyen Big Data eszközöket kell használni és mikor?

  • Hadoop vs. Egyéb NoSQL megoldások
  • Az adatok interaktív, véletlenszerű eléréséhez
  • Hbase (oszloporientált adatbázis) a Hadoop tetején
  • Véletlenszerű hozzáférés az adatokhoz, de korlátozások (max 1 PB)
  • Nem jó ad-hoc elemzéshez, jó naplózáshoz, számláláshoz, idősorokhoz
  • Sqoop – Importálás adatbázisokból Hive-be vagy HDFS-be (JDBC/ODBC hozzáférés)
  • Flume – Adatok (pl. naplóadatok) továbbítása HDFS-be

Big Data Management Rendszer

  • Mozgó alkatrészek, számítási csomópontok indítása/hiba :ZooKeeper - Konfigurációs/koordinációs/elnevezési szolgáltatásokhoz
  • Összetett folyamat/munkafolyamat: Oozie – kezelheti a munkafolyamatot, a függőségeket, a láncszemeket
  • Telepítés, konfigurálás, fürtkezelés, frissítés stb (rendszergazda) :Ambari
  • Felhőben: Whirr

Predictive Analytics -- Alapvető technikák és Machine Learning alapú Business intelligencia

  • Bevezetés a Machine Learning-ba
  • Osztályozási technikák elsajátítása
  • Bayesi előrejelzés -- képzési fájl elkészítése
  • Támogatja a Vector gépet
  • KNN p-Tree Algebra és vertikális bányászat
  • Neural Networks
  • Big Data nagy változós probléma -- Véletlenszerű erdő (RF)
  • Big Data Automatizálási probléma – Multi-model ensemble RF
  • Automatizálás a Soft10-M-en keresztül
  • Szövegelemző eszköz – Treeminer
  • Agile tanulás
  • Ügynök alapú tanulás
  • Elosztott tanulás
  • Bevezetés a nyílt forráskódú prediktív elemzési eszközökbe: R, Python, Rapidminer, Mahut

Predictive Analytics Az ökoszisztéma és alkalmazása a bűnügyi hírszerzés elemzésében

  • Technológia és a nyomozási folyamat
  • Insight analitika
  • Vizualizációs elemzés
  • Strukturált prediktív elemzés
  • Strukturálatlan prediktív elemzés
  • Fenyegetés/csalássztár/szállító profilalkotás
  • Ajánlás Motor
  • Mintaészlelés
  • Szabály/forgatókönyv felfedezése – hiba, csalás, optimalizálás
  • A kiváltó ok feltárása
  • Érzelemelemzés
  • CRM-analitika
  • Hálózati elemzés
  • Szövegelemzés az átiratokból, tanúvallomásokból, internetes csevegésből stb.
  • Technológiával támogatott felülvizsgálat
  • Csalás elemzése
  • Valós idejű elemző

=====
03. nap
=====
Valós idejű és Scalable Analytics Hadoop felett

  • Miért hibáznak el az általános analitikai algoritmusok Hadoop/HDFS-ben?
  • Apache Hama- Tömeges szinkron elosztott számítástechnikához
  • Apache SPARK – fürt számítástechnikához és valós idejű elemzéshez
  • CMU Graphics Lab2 – gráf alapú aszinkron megközelítés az elosztott számítástechnikához
  • KNN p -- Algebra alapú megközelítés a Treeminertől a csökkentett hardver üzemeltetési költségek érdekében

Eszközök az eDiscovery és a Forensics számára

  • eDiscovery over Big Data vs. Legacy adatok – a költségek és a teljesítmény összehasonlítása
  • Prediktív kódolás és Technológiával Segített Ellenőrzés (TAR)
  • A vMiner élő bemutatója annak megértéséhez, hogy a TAR miként teszi lehetővé a gyorsabb felfedezést
  • Gyorsabb indexelés a HDFS-en keresztül – Az adatok sebessége
  • NLP (Natural Language processing) – nyílt forráskódú termékek és technikák
  • eDiscovery idegen nyelveken -- technológia az idegen nyelvi feldolgozáshoz

Big Data BI for Cyber Security – 360 fokos nézet, gyors adatgyűjtés és fenyegetés azonosítás

  • A biztonsági elemzés alapjainak megértése – támadási felület, biztonsági hibás konfiguráció, gazdagép védelme
  • Hálózati infrastruktúra / Nagy adatcső / Response ETL a valós idejű elemzéshez
  • Preskriptív vs prediktív – Rögzített szabályalapú kontra fenyegetési szabályok automatikus felfedezése metaadatokból

Eltérő adatok gyűjtése a bűnügyi hírszerzés elemzéséhez

  • Az IoT (Internet of Things) használata érzékelőként az adatok rögzítéséhez
  • Műholdfelvételek használata belföldi megfigyeléshez
  • Megfigyelési és képi adatok felhasználása bűnügyi azonosításhoz
  • Egyéb adatgyűjtési technológiák – drónok, testkamerák, GPS-címkéző rendszerek és hőképalkotási technológia
  • Az automatizált adatlekérést informátoroktól, kihallgatástól és kutatástól kapott adatokkal kombinálva
  • Forecasting bűncselekmény

=====
04. nap
=====
Csalásmegelőzési BI a Big Data-től a Fraud Analytics szolgáltatásban

  • A csaláselemzés alapvető osztályozása – szabályalapú vagy prediktív elemzés
  • Felügyelt és nem felügyelt gépi tanulás a csalási minták észleléséhez
  • Business az üzleti csaláshoz, az orvosi követelésekkel kapcsolatos csaláshoz, a biztosítási csaláshoz, az adóelkerüléshez és a pénzmosáshoz

Social Media Analitika – Információgyűjtés és -elemzés

  • Hogyan használják a Social Media-et a bűnözők a szervezéshez, a toborzáshoz és a tervezéshez
  • Big Data ETL API közösségi média adatok kinyerésére
  • Szöveg, kép, metaadatok és videó
  • Hangulatelemzés a közösségi média hírfolyamából
  • A közösségi média hírfolyamának kontextuális és nem kontextus szerinti szűrése
  • Social Media Irányítópult a különféle közösségi média integrálásához
  • A közösségi média profiljának automatizált profilalkotása
  • Az egyes elemzők élő bemutatója a Treeminer eszközön keresztül történik

Big Data Analitika a képfeldolgozásban és a videohírcsatornákban

  • Képtárolási technikák a Big Data-ben – Tárolási megoldás petabájtot meghaladó adatokhoz
  • LTFS (Linear Tape File System) és LTO (Linear Tape Open)
  • GPFS-LTFS (Általános Párhuzamos Fájlrendszer – Lineáris Szalagos Fájlrendszer) – réteges tárolási megoldás nagy képadatokhoz
  • A képelemzés alapjai
  • Tárgyfelismerés
  • Képszegmentálás
  • Mozgáskövetés
  • 3D képrekonstrukció

Biometrikák, DNS és új generációs azonosító programok

  • Az ujjlenyomatvételen és az arcfelismerésen túl
  • Beszédfelismerés, billentyűleütés (a felhasználók gépelési mintájának elemzése) és CODIS (kombinált DNS-indexrendszer)
  • A DNS-egyeztetésen túl: kriminalisztikai DNS-fenotipizálás használata arc kialakításához DNS-mintákból

Big Data Irányítópult a különféle adatok és kijelzők gyors eléréséhez:

  • Meglévő alkalmazásplatform integrálása Big Data Dashboard-tal
  • Big Data menedzsment
  • Esettanulmány a Big Data irányítópultról: Tableau és Pentaho
  • Használja a Big Data alkalmazást a helyalapú szolgáltatások megjelenítéséhez a Govt.
  • Nyomon követési rendszer és menedzsment

=====
05. nap
=====
Hogyan igazoljuk Big Data a BI bevezetését egy szervezeten belül:

  • A ROI meghatározása (Return on Investment) a Big Data megvalósításához
  • Esettanulmányok az elemzői idő megtakarítására az adatok gyűjtése és előkészítése során – a termelékenység növelése
  • Bevételnyereség az alacsonyabb adatbázis-licencköltségből
  • Bevételnyereség a helyalapú szolgáltatásokból
  • Költségmegtakarítás a csalás megelőzésével
  • Integrált táblázatkezelő megközelítés a hozzávetőleges kiadások és a Big Data megvalósításból származó bevételnövekedés/megtakarítások összehasonlításához.

Lépésről lépésre az örökölt adatrendszer Big Data rendszerre való cseréjének eljárása

  • Big Data Migrációs ütemterv
  • Milyen kritikus információkra van szükség egy Big Data rendszer felépítéséhez?
  • Milyen módszerekkel számítható ki az adatok mennyisége, sebessége, változatossága és hitelessége
  • Hogyan becsüljük meg az adatnövekedést
  • Esettanulmányok

Big Data Szállítók áttekintése és termékeik áttekintése.

  • Accenture
  • APTEAN (korábban CDC szoftver)
  • Cisco Rendszerek
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatika
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Korábban 10Gen)
  • MU Sigma
  • Netapp
  • Opera megoldások
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Kvantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Intézet
  • Sisense
  • Szoftver AG/Terracotta
  • Soft10 automatizálás
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Szoftver
  • Teradata
  • Gondoljon a Big Analyticsre
  • Tidemark rendszerek
  • Treeminer
  • VMware (Az EMC része)

Q/A munkamenet

Követelmények

  • Rendészeti folyamatok és adatrendszerek ismerete
  • Az SQL/Oracle vagy relációs adatbázis alapjai
  • A statisztikák alapvető ismerete (táblázat szinten)
  35 Hours
 

Résztvevők száma


Tanfolyam kezdete

Tanfolyam vége


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Vélemények (4)

Rokon tanfolyam

Rokon kategóriák