Xarrayではじめる多次元データ入門

By driller

Talk Abstract

データ分析の分野ではPythonが広く使われるようになりました。Numpyやpandasは強力なツールですが、多次元なデータを扱う場合には苦労しているのではないでしょうか。
XarrayはNumpyのよう配列を持ち、pandasのようにラベルをつけたデータにアクセスできます。
本トークではXarrayを用いて、複雑化しやすい多次元のデータを簡潔に扱う方法を紹介します。

Talk Description

  • Numpyやpandasで多次元データを扱う場合の課題
  • Xarrayを使った多次元データ入門
  • Numpy, pandasとの互換性
  • Daskを使った並列処理
  • 多次元データの可視化

Notes

Numpyやpandasで多次元データを扱う場合には下記のような問題があります。

Numpyの問題

  • ラベルを持たないため、データの位置がわかりにくい
  • 入れ子の構造が複雑すぎて、データの作成、参照、変更が難しい

pandasの問題

  • DataFrameは2次元までのデータしか扱えない
  • Panelは3次元までのデータしか扱えない、将来廃止される
  • マルチインデックスの扱いが難しい

Xarrayでは上記のような問題を解決し、かつ、Numpyやpandasなどの慣れたデータに容易に変換できます。 本トークによって、複雑なデータを整理する一助になれば幸甚です。