Kurzusleírás
1. nap
A Big Data Business Intelligence áttekintése a bűnügyi hírszerzés elemzéséhez
- Esettanulmányok a rendőrségi gyakorlatból - Prediktív rendészet
- A Big Data bevezetési aránya a rendőrségi szervezeteknél és hogyan igazítják jövőbeli működésüket a Big Data prediktív elemzés köré
- Új technológiai megoldások, mint például lövészérzékelők, megfigyelő kamerák és közösségi média
- A Big Data technológia használata az információs túlterhelés csökkentésére
- A Big Data kapcsolata a régi adatokkal
- Alapvető ismeretek a prediktív elemzéshez szükséges technológiákról
- Adatintegráció és irányítópult vizualizáció
- Csaláskezelés
- Üzleti szabályok és csalásfelderítés
- Fenyegetések felderítése és profilozás
- Költség-haszon elemzés a Big Data bevezetéséhez
Bevezetés a Big Data-ba
- A Big Data fő jellemzői -- mennyiség, változatosság, sebesség és hitelesség.
- MPP (Massively Parallel Processing) architektúra
- Adatraktárak – statikus séma, lassan fejlődő adathalmaz
- MPP adatbázisok: Greenplum, Exadata, Teradata, Netezza, Vertica stb.
- Hadoop alapú megoldások – nincs feltétel az adathalmaz szerkezetére.
- Tipikus minta: HDFS, MapReduce (feldolgozás), lekérés a HDFS-ből
- Apache Spark a stream feldolgozáshoz
- Kötegelt feldolgozás – alkalmas elemzéshez/nem interaktív feladatokhoz
- Mennyiség: CEP stream adatok
- Tipikus választások – CEP termékek (pl. Infostreams, Apama, MarkLogic stb.)
- Kevesebbé érett termékek – Storm/S4
- NoSQL adatbázisok – (oszlopos és kulcs-érték): Leginkább alkalmasak adatraktár/adatbázis elemző kiegészítőjeként
NoSQL megoldások
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarchikus) - GT.m, Cache
- KV Store (Rendezett) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objektum adatbázis - ZopeDB, DB40, Shoal
- Dokumentum tároló - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Széles oszlopos tároló - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Adatok változatossága: Bevezetés az adattisztítási kérdésekbe a Big Data-ban
- RDBMS – statikus szerkezet/séma, nem támogatja az agilis, felderítő környezetet.
- NoSQL – félig strukturált, elegendő szerkezet az adatok tárolásához pontos séma nélkül
- Adattisztítási kérdések
Hadoop
- Mikor válasszuk a Hadoop-ot?
- STRUKTURÁLT – Vállalati adatraktárak/adatbázisok képesek nagy mennyiségű adatot tárolni (költséggel), de szerkezetet írnak elő (nem jó az aktív felderítéshez)
- FÉLIG STRUKTURÁLT adatok – nehezen kezelhetők hagyományos megoldásokkal (DW/DB)
- Adatraktározás = ÓRIÁSI erőfeszítés és statikus még a bevezetés után is
- Az adatok változatossága és mennyisége, feldolgozás olcsó hardveren – HADOOP
- Olcsó hardver szükséges a Hadoop klaszter létrehozásához
Bevezetés a Map Reduce /HDFS-be
- MapReduce – számítások elosztása több szerveren
- HDFS – az adatok helyi elérhetősége a számítási folyamat számára (redundanciával)
- Adatok – lehetnek strukturálatlanok/sémamentesek (ellentétben az RDBMS-sel)
- A fejlesztő felelőssége, hogy értelmet adjon az adatoknak
- MapReduce programozása = Java használata (előnyök/hátrányok), adatok manuális betöltése a HDFS-be
2. nap
Big Data ökoszisztéma – Big Data ETL (Extract, Transform, Load) felépítése – Melyik Big Data eszközt mikor használjuk?
- Hadoop vs. Egyéb NoSQL megoldások
- Interaktív, véletlenszerű hozzáférés az adatokhoz
- Hbase (oszlopos adatbázis) a Hadoop tetején
- Véletlenszerű hozzáférés az adatokhoz, de korlátozásokkal (max. 1 PB)
- Nem alkalmas ad-hoc elemzéshez, jó naplózáshoz, számláláshoz, idősorokhoz
- Sqoop - Importálás adatbázisokból a Hive-ba vagy HDFS-be (JDBC/ODBC hozzáférés)
- Flume – Adatfolyamok (pl. naplóadatok) HDFS-be
Big Data kezelő rendszer
- Mozgó részek, számítási csomópontok indítása/hibája: ZooKeeper - Konfiguráció/koordináció/elnevezési szolgáltatások
- Komplex folyamat/munkafolyamat: Oozie – munkafolyamat kezelése, függőségek, láncolás
- Telepítés, konfiguráció, klaszter kezelés, frissítés stb. (rendszergazda): Ambari
- Felhőben: Whirr
Prediktív elemzés – Alapvető technikák és gépi tanuláson alapuló üzleti intelligencia
- Bevezetés a gépi tanulásba
- Osztályozási technikák tanulása
- Bayes-i előrejelzés – képzési fájl elkészítése
- Támogató vektor gépek
- KNN p-Tree algebra és vertikális bányászat
- Neurális hálózatok
- Big Data nagy változó probléma – Véletlen erdő (RF)
- Big Data automatizálási probléma – Több modellű együttes RF
- Automatizálás a Soft10-M segítségével
- Szövegelemző eszköz – Treeminer
- Agilis tanulás
- Agent alapú tanulás
- Elosztott tanulás
- Bevezetés a prediktív elemzéshez szükséges nyílt forráskódú eszközökre: R, Python, Rapidminer, Mahut
Prediktív elemzés ökoszisztéma és alkalmazása a bűnügyi hírszerzés elemzéséhez
- Technológia és a nyomozási folyamat
- Insight elemzés
- Vizualizációs elemzés
- Strukturált prediktív elemzés
- Strukturálatlan prediktív elemzés
- Fenyegetés/csalás/szállítói profilozás
- Ajánló rendszer
- Mintázatfelismerés
- Szabály/forgatókönyv felfedezése – hiba, csalás, optimalizáció
- Gyökér ok felfedezése
- Hangulatelemzés
- CRM elemzés
- Hálózati elemzés
- Szövegelemzés a jegyzőkönyvek, tanúvallomások, internetes csevegések stb. elemzéséhez
- Technológia által támogatott felülvizsgálat
- Csaláselemzés
- Valós idejű elemzés
3. nap
Valós idejű és skálázható elemzés a Hadoop felett
- Miért hibásak a közös elemzési algoritmusok a Hadoop/HDFS-ben
- Apache Hama- Tömeges szinkron elosztott számításhoz
- Apache SPARK- klaszter számításhoz és valós idejű elemzéshez
- CMU Graphics Lab2- Gráf alapú aszinkron megközelítés az elosztott számításhoz
- KNN p – Treeminer algebrai megközelítése a hardveres működési költségek csökkentéséhez
Eszközök az eDiscovery és a kriminalisztika számára
- eDiscovery a Big Data vs. régi adatok felett – költség- és teljesítmény-összehasonlítás
- Prediktív kódolás és technológia által támogatott felülvizsgálat (TAR)
- Élő bemutató a vMiner-ról, hogy megértsük, hogyan teszi lehetővé a TAR a gyorsabb felfedezést
- Gyorsabb indexelés a HDFS-en keresztül – Az adatok sebessége
- NLP (Természetes nyelv feldolgozás) – nyílt forráskódú termékek és technikák
- eDiscovery idegen nyelveken – technológia az idegen nyelvű feldolgozáshoz
Big Data BI a kiberbiztonság számára – 360 fokos látószög, gyors adatgyűjtés és fenyegetés azonosítás
- A biztonsági elemzés alapjainak megértése – támadási felület, biztonsági hibák, hoszt védelmek
- Hálózati infrastruktúra / Nagy adatcsatorna / Válasz ETL valós idejű elemzéshez
- Előíró vs prediktív – Rögzített szabály alapú vs fenyegetési szabályok automatikus felfedezése Meta adatokból
Különböző adatok gyűjtése a bűnügyi hírszerzés elemzéséhez
- Az IoT (Internet of Things) használata érzékelőként az adatok rögzítéséhez
- Műholdképek használata hazai megfigyeléshez
- Megfigyelő és képadatok használata bűncselekmények azonosításához
- Egyéb adatgyűjtési technológiák – drónok, testkamerák, GPS jelölőrendszerek és hőképalkotó technológia
- Automatizált adatgyűjtés összekapcsolása az informátoroktól, kihallgatásokból és kutatásokból származó adatokkal
- Bűncselekmények előrejelzése
4. nap
Csalásmegelőzési BI a Big Data-ból a csaláselemzésben
- A csaláselemzés alapvető osztályozása – szabály alapú vs prediktív elemzés
- Felügyelt vs felügyelet nélküli gépi tanulás a csalási minták felismeréséhez
- Vállalatok közötti csalás, egészségügyi igények csalása, biztosítási csalás, adócsalás és pénzmosás
Közösségi média elemzés – Hírszerzés és elemzés
- Hogyan használják a bűnözők a közösségi médiát a szervezéshez, toborzáshoz és tervezéshez
- Big Data ETL API a közösségi média adatok kinyeréséhez
- Szöveg, kép, meta adatok és videó
- Hangulatelemzés a közösségi média hírfolyamokból
- Kontextusos és nem kontextusos szűrés a közösségi média hírfolyamokból
- Közösségi média irányítópult a különböző közösségi média integrálásához
- Automatizált profilozás a közösségi média profilokból
- Élő bemutató minden elemzésről a Treeminer eszköz segítségével
Big Data elemzés a képfeldolgozásban és videó hírfolyamokban
- Képtárolási technikák a Big Data-ban – Tárolási megoldás több petabájtos adatokhoz
- LTFS (Linear Tape File System) és LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) – réteges tárolási megoldás nagy képadatokhoz
- A képfeldolgozás alapjai
- Tárgyfelismerés
- Képszegmentálás
- Mozgás követése
- 3-D kép rekonstrukció
Biometria, DNS és a következő generációs azonosítási programok
- Az ujjlenyomat és arcfelismerés túlmutatva
- Beszéd felismerés, billentyűzet lenyomat (a felhasználó gépelési mintájának elemzése) és CODIS (kombinált DNS index rendszer)
- Az DNS egyeztetésen túl: DNS mintákból arckép rekonstrukciója
Big Data irányítópult a különböző adatok gyors eléréséhez és megjelenítéséhez:
- Meglévő alkalmazás platform integrálása a Big Data irányítópulttal
- Big Data kezelés
- Esettanulmány a Big Data irányítópultról: Tableau és Pentaho
- Big Data alkalmazás használata helyalapú szolgáltatások nyújtásához a kormányzatban
- Nyomkövető rendszer és kezelés
5. nap
Hogyan indokoljuk a Big Data BI bevezetését egy szervezeten belül:
- A ROI (Return on Investment) meghatározása a Big Data bevezetéséhez
- Esettanulmányok az elemzők időmegtakarításáról az adatok gyűjtésében és előkészítésében – termelékenység növelése
- Bevételnövekedés az alacsonyabb adatbázis licenc költségek miatt
- Bevételnövekedés a helyalapú szolgáltatásokból
- Költségmegtakarítás a csalásmegelőzésből
- Integrált táblázat megközelítés a költségek és a Big Data bevezetéséből származó bevétel/megtakarítás hozzávetőleges kiszámításához.
Lépésről lépésre folyamat a régi adatrendszer Big Data rendszerrel való lecseréléséhez
- Big Data migrációs útmutató
- Milyen kritikus információkra van szükség a Big Data rendszer tervezése előtt?
- Milyen módszerek léteznek az adatok mennyiségének, sebességének, változatosságának és hitelességének kiszámításához
- Hogyan becsüljük meg az adatok növekedését
- Esettanulmányok
Big Data szállítók és termékeik áttekintése.
- Accenture
- APTEAN (korábban CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (korábban 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (az EMC része)
Kérdések és válaszok
Követelmények
- Ismeret a rendőrségi folyamatokról és adatrendszerekről
- Alapvető ismeretek az SQL/Oracle vagy relációs adatbázisokról
- Alapvető ismeretek a statisztikáról (táblázatkezelő szinten)
Közönség
- Műszaki háttérrel rendelkező rendőrségi szakemberek
Vélemények (3)
Nehéz témák egyszerű, felhasználóbarát módon bemutatva
Marcin - GE Medical Systems Polska Sp. z o.o.
Kurzus - Introduction to Predictive AI
Gépi fordítás
Deepthi nagyon jól érezte meg igényeimet, tudta, mikor kell bővíteni a összetettséget és mikor inkább rendezett módon haladjon tovább. Deepthi valóban a saját tempómban dolgozott velem, és biztosította, hogy képes legyek önállóan használni az új funkciókat/eszközöket. Először bemutatta őket, majd engedte, hogy én ismétlém meg őket, ami nagyon segített a tananyag beillesztésében. Nem lehetne elégedettebb a képzés eredményeivel és Deepthi szakmai tudásával!
Deepthi - Invest Northern Ireland
Kurzus - IBM Cognos Analytics
Gépi fordítás
Nagyon világosan és részletesen elmagyarázva
Harshit Arora - PwC South East Asia Consulting
Kurzus - Alteryx for Developers
Gépi fordítás