Elevator Pitch
データ分析の分野ではPythonが広く使われるようになりました。Numpyやpandasは強力なツールですが、多次元なデータを扱う場合には苦労しているのではないでしょうか。
XarrayはNumpyのよう配列を持ち、pandasのようにラベルをつけたデータにアクセスできます。
本トークではXarrayを用いて、複雑化しやすい多次元のデータを簡潔に扱う方法を紹介します。
Description
- Numpyやpandasで多次元データを扱う場合の課題
- Xarrayを使った多次元データ入門
- Numpy, pandasとの互換性
- Daskを使った並列処理
- 多次元データの可視化
Notes
Numpyやpandasで多次元データを扱う場合には下記のような問題があります。
Numpyの問題
- ラベルを持たないため、データの位置がわかりにくい
- 入れ子の構造が複雑すぎて、データの作成、参照、変更が難しい
pandasの問題
- DataFrameは2次元までのデータしか扱えない
- Panelは3次元までのデータしか扱えない、将来廃止される
- マルチインデックスの扱いが難しい
Xarrayでは上記のような問題を解決し、かつ、Numpyやpandasなどの慣れたデータに容易に変換できます。 本トークによって、複雑なデータを整理する一助になれば幸甚です。