Az Apache Beam egy nyílt forrású, egységes programozási modell párhuzamos adatfeldolgozó csővezetékek meghatározására és végrehajtására Ez a hatalom abban rejlik, hogy mind a kötegelt, mind az áramló csővezetéket képes működtetni, a végrehajtás pedig egy Beam támogatott elosztott feldolgozási hátterének egyikével történik: az Apache Apex, az Apache Flink, az Apache Spark és a Google Cloud Dataflow Az Apache Beam hasznos az ETL (Extract, Transform, és Load) feladatokhoz, mint például az adatok átvitele különböző adattárolók és adatforrások között, az adatok átalakítása egy kívánatosabb formátumba, és az adatok új rendszerre történő betöltése Ebben az oktatott, élő képzésben (helyszíni vagy távoli) a résztvevők megtanulják, hogyan hajtsa végre az Apache Beam SDK-kat egy Java vagy Python alkalmazásban, amely meghatározza az adatfeldolgozó csővezetéket egy nagy adatkészlet kisebb darabokra történő bontására független, párhuzamos feldolgozás céljából A képzés végére a résztvevők képesek lesznek: Az Apache Beam telepítése és konfigurálása Egyetlen programozási modellt használjon a batch és a stream feldolgozás elvégzéséhez Java vagy Python alkalmazással Csővezetékek végrehajtása több környezetben Közönség Fejlesztők A tanfolyam formátuma Részelőadás, vitafórumok, gyakorlatok és nehéz handson gyakorlat jegyzet Ez a kurzus a Scala számára lesz elérhető a jövőben Kérjük, vegye fel velünk a kapcsolatot .
Machine Translated
Introduction
- Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm and Flink
Installing and Configuring Apache Beam
Overview of Apache Beam Features and Architecture
- Beam Model, SDKs, Beam Pipeline Runners
- Distributed processing back-ends
Understanding the Apache Beam Programming Model
- How a pipeline is executed
Running a sample pipeline
- Preparing a WordCount pipeline
- Executing the Pipeline locally
Designing a Pipeline
- Planning the structure, choosing the transforms, and determining the input and output methods
Creating the Pipeline
- Writing the driver program and defining the pipeline
- Using Apache Beam classes
- Data sets, transforms, I/O, data encoding, etc.
Executing the Pipeline
- Executing the pipeline locally, on remote machines, and on a public cloud
- Choosing a runner
- Runner-specific configurations
Testing and Debugging Apache Beam
- Using type hints to emulate static typing
- Managing Python Pipeline Dependencies
Processing Bounded and Unbounded Datasets
Making Your Pipelines Reusable and Maintainable
Create New Data Sources and Sinks
- Apache Beam Source and Sink API
Integrating Apache Beam with other Big Data Systems
- Apache Hadoop, Apache Spark, Apache Kafka
Troubleshooting
Summary and Conclusion