PySparkだけで頑張らないApache Sparkによる分散処理基盤構築

By Joji Koike

Elevator Pitch

大量データの分散処理フレームワークとして人気のApache Spark、 Scala製でありがながらも、PySparkのおかげでPythonエンジニアでも その強大なパワーにリーチ可能です。 しかし、例えばJavaの資産を使う場合等、どうしてもScala (or Java)の 力に頼らざるを得ない等、上司と揉めながらもPythonistaとして苦渋の決断を下す局面もきっとあるかと思います。私はつい最近経験しました。 本セッションでは、このようなApache Sparkによる分散処理基盤構築で遭遇した 修羅場をいかにして切り抜け、Pythonistaと平和的解決に至るまでを話したいと思います。

Description

以下のような構成を予定しております。

  • Apache Sparkについて簡単におさらい             (1分)
  • 「Javaなんだから、Py4Jでなんとかならんの」「、、厳しいです。」 (1.5分)
  • 平和的解決案:マイクロサービス化 (1.5分)
  • まとめ (1分)

Notes

PyConJP2018きっかけで入社した現在の会社で4月より ビッグなデータ分散処理基盤構築を担当しております。 本セッションで扱う技術セットは、 Apache Spark, Amazon EMR, AWS Lambda, Python, Scala, Java