PandasのDataFrame周りまとめ
多分これをやるのが一番勉強になるけど。
必要なライブラリをImport
import datetime import numpy as np import pandas as pd import pandas.io.data as web
SampleData取得
start = datetime.datetime(2013,10,8) end = datetime.datetime(2013,11,8) finance_data = web.get_data_google(['GOOG', 'MSN', 'IBM'], start,end)
PanelからDataFrameに変更 (階層型インデックスを用いたDataFrame)
finance_data.to_frame()
インデックスを参照してデータを取得
data_frame.ix['2013-10-08'] data_frame[1:2] #スライス data_frame.ix['2013-10-08', 'GOOG'] #二階層目も参照条件に加える
列を指定してSeriesとして扱う
finance_data['Open'] finance_data.Open
データフレームの配置変換
finance_data.T
ndarray (Numpy)形式での取得
finance_data.values
値があるかないかをBooleanで
5579833 in data_frame.Volume
X以上のデータを表示する
data_frame[data_frame.Volume > 4424359]
#列Openが5以上で3の列のみ
data_frame.ix[data_frame.Open > 50, 3] data_frame.ix[hoge] #hogeの行を読む data_frame.ix[:, hoge] #hogeの列を読む data_frame.ix[hoge, hoge] #hogeの行列を読む
#ソートする
data_frame.sort_index(axis=0) #Indexソート(行) data_frame.sort_index(axis=1, ascending=False) #列で降順にソート data_frame.sort_index(by='Open') #Open列でソート