PaperCall.io - PySparkだけで頑張らないApache Sparkによる分散処理基盤構築

大量データの分散処理フレームワークとして人気のApache Spark、 Scala製でありがながらも、PySparkのおかげでPythonエンジニアでもその強大なパワーにリーチ可能です。しかし、例えばJavaの資産を使う場合等、どうしてもScala (or Java)の力に頼らざるを得ない等、上司と揉めながらもPythonistaとして苦渋の決断を下す局面もきっとあるかと思います。私はつい最近経験しました。本セッションでは、このようなApache Sparkによる分散処理基盤構築で遭遇した修羅場をいかにして切り抜け、Pythonistaと平和的解決に至るまでを話したいと思います。

以下のような構成を予定しております。

Apache Sparkについて簡単におさらい　　　　　　　　　　　　　（1分）
「Javaなんだから、Py4Jでなんとかならんの」「、、厳しいです。」 (1.5分)
平和的解決案：マイクロサービス化 (1.5分)
まとめ (1分）

PyConJP2018きっかけで入社した現在の会社で４月よりビッグなデータ分散処理基盤構築を担当しております。本セッションで扱う技術セットは、 Apache Spark, Amazon EMR, AWS Lambda, Python, Scala, Java

PySparkだけで頑張らないApache Sparkによる分散処理基盤構築

Elevator Pitch

Description

Notes