Kurzusleírás

1. nap

A Big Data Business Intelligence áttekintése a bűnügyi hírszerzés elemzéséhez

  • Esettanulmányok a rendőrségi gyakorlatból - Prediktív rendészet
  • A Big Data bevezetési aránya a rendőrségi szervezeteknél és hogyan igazítják jövőbeli működésüket a Big Data prediktív elemzés köré
  • Új technológiai megoldások, mint például lövészérzékelők, megfigyelő kamerák és közösségi média
  • A Big Data technológia használata az információs túlterhelés csökkentésére
  • A Big Data kapcsolata a régi adatokkal
  • Alapvető ismeretek a prediktív elemzéshez szükséges technológiákról
  • Adatintegráció és irányítópult vizualizáció
  • Csaláskezelés
  • Üzleti szabályok és csalásfelderítés
  • Fenyegetések felderítése és profilozás
  • Költség-haszon elemzés a Big Data bevezetéséhez

Bevezetés a Big Data-ba

  • A Big Data fő jellemzői -- mennyiség, változatosság, sebesség és hitelesség.
  • MPP (Massively Parallel Processing) architektúra
  • Adatraktárak – statikus séma, lassan fejlődő adathalmaz
  • MPP adatbázisok: Greenplum, Exadata, Teradata, Netezza, Vertica stb.
  • Hadoop alapú megoldások – nincs feltétel az adathalmaz szerkezetére.
  • Tipikus minta: HDFS, MapReduce (feldolgozás), lekérés a HDFS-ből
  • Apache Spark a stream feldolgozáshoz
  • Kötegelt feldolgozás – alkalmas elemzéshez/nem interaktív feladatokhoz
  • Mennyiség: CEP stream adatok
  • Tipikus választások – CEP termékek (pl. Infostreams, Apama, MarkLogic stb.)
  • Kevesebbé érett termékek – Storm/S4
  • NoSQL adatbázisok – (oszlopos és kulcs-érték): Leginkább alkalmasak adatraktár/adatbázis elemző kiegészítőjeként

NoSQL megoldások

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchikus) - GT.m, Cache
  • KV Store (Rendezett) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Objektum adatbázis - ZopeDB, DB40, Shoal
  • Dokumentum tároló - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Széles oszlopos tároló - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Adatok változatossága: Bevezetés az adattisztítási kérdésekbe a Big Data-ban

  • RDBMS – statikus szerkezet/séma, nem támogatja az agilis, felderítő környezetet.
  • NoSQL – félig strukturált, elegendő szerkezet az adatok tárolásához pontos séma nélkül
  • Adattisztítási kérdések

Hadoop

  • Mikor válasszuk a Hadoop-ot?
  • STRUKTURÁLT – Vállalati adatraktárak/adatbázisok képesek nagy mennyiségű adatot tárolni (költséggel), de szerkezetet írnak elő (nem jó az aktív felderítéshez)
  • FÉLIG STRUKTURÁLT adatok – nehezen kezelhetők hagyományos megoldásokkal (DW/DB)
  • Adatraktározás = ÓRIÁSI erőfeszítés és statikus még a bevezetés után is
  • Az adatok változatossága és mennyisége, feldolgozás olcsó hardveren – HADOOP
  • Olcsó hardver szükséges a Hadoop klaszter létrehozásához

Bevezetés a Map Reduce /HDFS-be

  • MapReduce – számítások elosztása több szerveren
  • HDFS – az adatok helyi elérhetősége a számítási folyamat számára (redundanciával)
  • Adatok – lehetnek strukturálatlanok/sémamentesek (ellentétben az RDBMS-sel)
  • A fejlesztő felelőssége, hogy értelmet adjon az adatoknak
  • MapReduce programozása = Java használata (előnyök/hátrányok), adatok manuális betöltése a HDFS-be

2. nap

Big Data ökoszisztéma – Big Data ETL (Extract, Transform, Load) felépítése – Melyik Big Data eszközt mikor használjuk?

  • Hadoop vs. Egyéb NoSQL megoldások
  • Interaktív, véletlenszerű hozzáférés az adatokhoz
  • Hbase (oszlopos adatbázis) a Hadoop tetején
  • Véletlenszerű hozzáférés az adatokhoz, de korlátozásokkal (max. 1 PB)
  • Nem alkalmas ad-hoc elemzéshez, jó naplózáshoz, számláláshoz, idősorokhoz
  • Sqoop - Importálás adatbázisokból a Hive-ba vagy HDFS-be (JDBC/ODBC hozzáférés)
  • Flume – Adatfolyamok (pl. naplóadatok) HDFS-be

Big Data kezelő rendszer

  • Mozgó részek, számítási csomópontok indítása/hibája: ZooKeeper - Konfiguráció/koordináció/elnevezési szolgáltatások
  • Komplex folyamat/munkafolyamat: Oozie – munkafolyamat kezelése, függőségek, láncolás
  • Telepítés, konfiguráció, klaszter kezelés, frissítés stb. (rendszergazda): Ambari
  • Felhőben: Whirr

Prediktív elemzés – Alapvető technikák és gépi tanuláson alapuló üzleti intelligencia

  • Bevezetés a gépi tanulásba
  • Osztályozási technikák tanulása
  • Bayes-i előrejelzés – képzési fájl elkészítése
  • Támogató vektor gépek
  • KNN p-Tree algebra és vertikális bányászat
  • Neurális hálózatok
  • Big Data nagy változó probléma – Véletlen erdő (RF)
  • Big Data automatizálási probléma – Több modellű együttes RF
  • Automatizálás a Soft10-M segítségével
  • Szövegelemző eszköz – Treeminer
  • Agilis tanulás
  • Agent alapú tanulás
  • Elosztott tanulás
  • Bevezetés a prediktív elemzéshez szükséges nyílt forráskódú eszközökre: R, Python, Rapidminer, Mahut

Prediktív elemzés ökoszisztéma és alkalmazása a bűnügyi hírszerzés elemzéséhez

  • Technológia és a nyomozási folyamat
  • Insight elemzés
  • Vizualizációs elemzés
  • Strukturált prediktív elemzés
  • Strukturálatlan prediktív elemzés
  • Fenyegetés/csalás/szállítói profilozás
  • Ajánló rendszer
  • Mintázatfelismerés
  • Szabály/forgatókönyv felfedezése – hiba, csalás, optimalizáció
  • Gyökér ok felfedezése
  • Hangulatelemzés
  • CRM elemzés
  • Hálózati elemzés
  • Szövegelemzés a jegyzőkönyvek, tanúvallomások, internetes csevegések stb. elemzéséhez
  • Technológia által támogatott felülvizsgálat
  • Csaláselemzés
  • Valós idejű elemzés

3. nap

Valós idejű és skálázható elemzés a Hadoop felett

  • Miért hibásak a közös elemzési algoritmusok a Hadoop/HDFS-ben
  • Apache Hama- Tömeges szinkron elosztott számításhoz
  • Apache SPARK- klaszter számításhoz és valós idejű elemzéshez
  • CMU Graphics Lab2- Gráf alapú aszinkron megközelítés az elosztott számításhoz
  • KNN p – Treeminer algebrai megközelítése a hardveres működési költségek csökkentéséhez

Eszközök az eDiscovery és a kriminalisztika számára

  • eDiscovery a Big Data vs. régi adatok felett – költség- és teljesítmény-összehasonlítás
  • Prediktív kódolás és technológia által támogatott felülvizsgálat (TAR)
  • Élő bemutató a vMiner-ról, hogy megértsük, hogyan teszi lehetővé a TAR a gyorsabb felfedezést
  • Gyorsabb indexelés a HDFS-en keresztül – Az adatok sebessége
  • NLP (Természetes nyelv feldolgozás) – nyílt forráskódú termékek és technikák
  • eDiscovery idegen nyelveken – technológia az idegen nyelvű feldolgozáshoz

Big Data BI a kiberbiztonság számára – 360 fokos látószög, gyors adatgyűjtés és fenyegetés azonosítás

  • A biztonsági elemzés alapjainak megértése – támadási felület, biztonsági hibák, hoszt védelmek
  • Hálózati infrastruktúra / Nagy adatcsatorna / Válasz ETL valós idejű elemzéshez
  • Előíró vs prediktív – Rögzített szabály alapú vs fenyegetési szabályok automatikus felfedezése Meta adatokból

Különböző adatok gyűjtése a bűnügyi hírszerzés elemzéséhez

  • Az IoT (Internet of Things) használata érzékelőként az adatok rögzítéséhez
  • Műholdképek használata hazai megfigyeléshez
  • Megfigyelő és képadatok használata bűncselekmények azonosításához
  • Egyéb adatgyűjtési technológiák – drónok, testkamerák, GPS jelölőrendszerek és hőképalkotó technológia
  • Automatizált adatgyűjtés összekapcsolása az informátoroktól, kihallgatásokból és kutatásokból származó adatokkal
  • Bűncselekmények előrejelzése

4. nap

Csalásmegelőzési BI a Big Data-ból a csaláselemzésben

  • A csaláselemzés alapvető osztályozása – szabály alapú vs prediktív elemzés
  • Felügyelt vs felügyelet nélküli gépi tanulás a csalási minták felismeréséhez
  • Vállalatok közötti csalás, egészségügyi igények csalása, biztosítási csalás, adócsalás és pénzmosás

Közösségi média elemzés – Hírszerzés és elemzés

  • Hogyan használják a bűnözők a közösségi médiát a szervezéshez, toborzáshoz és tervezéshez
  • Big Data ETL API a közösségi média adatok kinyeréséhez
  • Szöveg, kép, meta adatok és videó
  • Hangulatelemzés a közösségi média hírfolyamokból
  • Kontextusos és nem kontextusos szűrés a közösségi média hírfolyamokból
  • Közösségi média irányítópult a különböző közösségi média integrálásához
  • Automatizált profilozás a közösségi média profilokból
  • Élő bemutató minden elemzésről a Treeminer eszköz segítségével

Big Data elemzés a képfeldolgozásban és videó hírfolyamokban

  • Képtárolási technikák a Big Data-ban – Tárolási megoldás több petabájtos adatokhoz
  • LTFS (Linear Tape File System) és LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) – réteges tárolási megoldás nagy képadatokhoz
  • A képfeldolgozás alapjai
  • Tárgyfelismerés
  • Képszegmentálás
  • Mozgás követése
  • 3-D kép rekonstrukció

Biometria, DNS és a következő generációs azonosítási programok

  • Az ujjlenyomat és arcfelismerés túlmutatva
  • Beszéd felismerés, billentyűzet lenyomat (a felhasználó gépelési mintájának elemzése) és CODIS (kombinált DNS index rendszer)
  • Az DNS egyeztetésen túl: DNS mintákból arckép rekonstrukciója

Big Data irányítópult a különböző adatok gyors eléréséhez és megjelenítéséhez:

  • Meglévő alkalmazás platform integrálása a Big Data irányítópulttal
  • Big Data kezelés
  • Esettanulmány a Big Data irányítópultról: Tableau és Pentaho
  • Big Data alkalmazás használata helyalapú szolgáltatások nyújtásához a kormányzatban
  • Nyomkövető rendszer és kezelés

5. nap

Hogyan indokoljuk a Big Data BI bevezetését egy szervezeten belül:

  • A ROI (Return on Investment) meghatározása a Big Data bevezetéséhez
  • Esettanulmányok az elemzők időmegtakarításáról az adatok gyűjtésében és előkészítésében – termelékenység növelése
  • Bevételnövekedés az alacsonyabb adatbázis licenc költségek miatt
  • Bevételnövekedés a helyalapú szolgáltatásokból
  • Költségmegtakarítás a csalásmegelőzésből
  • Integrált táblázat megközelítés a költségek és a Big Data bevezetéséből származó bevétel/megtakarítás hozzávetőleges kiszámításához.

Lépésről lépésre folyamat a régi adatrendszer Big Data rendszerrel való lecseréléséhez

  • Big Data migrációs útmutató
  • Milyen kritikus információkra van szükség a Big Data rendszer tervezése előtt?
  • Milyen módszerek léteznek az adatok mennyiségének, sebességének, változatosságának és hitelességének kiszámításához
  • Hogyan becsüljük meg az adatok növekedését
  • Esettanulmányok

Big Data szállítók és termékeik áttekintése.

  • Accenture
  • APTEAN (korábban CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (korábban 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (az EMC része)

Kérdések és válaszok

Követelmények

  • Ismeret a rendőrségi folyamatokról és adatrendszerekről
  • Alapvető ismeretek az SQL/Oracle vagy relációs adatbázisokról
  • Alapvető ismeretek a statisztikáról (táblázatkezelő szinten)

Közönség

  • Műszaki háttérrel rendelkező rendőrségi szakemberek
 35 Órák

Résztvevők száma


Ár per résztvevő

Vélemények (3)

Közelgő kurzusok

Rokon kategóriák