PandasのDataFrame周りまとめ

多分これをやるのが一番勉強になるけど。

必要なライブラリをImport

import datetime
import numpy as np
import pandas as pd
import pandas.io.data as web

SampleData取得

start = datetime.datetime(2013,10,8)
end = datetime.datetime(2013,11,8)
finance_data = web.get_data_google(['GOOG', 'MSN', 'IBM'], start,end)

PanelからDataFrameに変更 (階層型インデックスを用いたDataFrame)

finance_data.to_frame()

インデックスを参照してデータを取得

data_frame.ix['2013-10-08']
data_frame[1:2] #スライス
data_frame.ix['2013-10-08', 'GOOG'] #二階層目も参照条件に加える

列を指定してSeriesとして扱う

finance_data['Open']
finance_data.Open

データフレームの配置変換

finance_data.T

ndarray (Numpy)形式での取得

finance_data.values

値があるかないかをBooleanで

5579833 in data_frame.Volume

X以上のデータを表示する

data_frame[data_frame.Volume > 4424359]


#列Openが5以上で3の列のみ

 data_frame.ix[data_frame.Open > 50, 3]
data_frame.ix[hoge] #hogeの行を読む
data_frame.ix[:, hoge] #hogeの列を読む
data_frame.ix[hoge, hoge] #hogeの行列を読む

#ソートする

data_frame.sort_index(axis=0) #Indexソート(行)
data_frame.sort_index(axis=1, ascending=False) #列で降順にソート
data_frame.sort_index(by='Open') #Open列でソート