python,anaconda,spyder,numpy,pandas,matplotlib
DataFrame,Series
加载numpy和pandas,pandas中的 DataFrame,Series。a=np.random.standard_normal((6,3)).round(3)表示随机生成一个6*3的标准正态分布数据,然后保留3位有效数字,赋值给a,如图所示
生成DataFrame。df1=DataFrame(a)表示使用ndarray对象a生成一个DataFrame,赋值给df1,如图所示
修改df1的列名。df1.columns=[['a','b','c']]表示分别给df1的列命名为'a','b','c',如图所示
修改df1的索引。df1.index=pd.date_range('2017-1-1',periods=6,freq='MS')表示用date_range生成一个长度为6,起始日期为'2017-1-1',使用月初格式的DatatimeIndex对象数据来作为df1的索引;如图所示
将DataFrame再转化为ndarray。np.array(df1)表示将df1这个DataFrame再转化为数组,如图所示
df1的统计计算。df1.sum()表示按列求和;df1.mean()表示按列求均值;df1.cumsum()表示按列累计求和;df1.describe()表示对df1进行多个字段的统计(个数,均值,标准差,最小值,25%分位数,50%分位数,75%分位数,最大值);如图所示
numpy通用函数对df1的应用;结果的再计算。np.sqrt(df1)表示对df1的每个元素进行开方计算(注意:负数的开方结果给出的是NaN);np.sqrt(df1).mean()表示对df1的没有元素开方后再按列求均值;如图所示
df1的简单绘图。%matplotlib inline表示将matplotlib的图表直接嵌入到Notebook之中;df1.cumsum().plot(lw=1.5)是表示df1的按列累计求和绘制一个线宽为1.5的折线图,如图所示
DataFrame的参数:data表示DataFrame的数据,可以是字典、序列、列表、ndarray、DataFrame; index是索引,默认为range(n);columns是列名,默认为range(n)
date_range参数:start(开始日期), end(结束日期), periods(期数,当start或end缺一的时候用), freq(频率), tz(时区), normalize(将start和end规范化为午夜), name(结果索引名称),colsed(start和end这个区间端点是否包含在区间内,’left’、’right’、None分别表示左闭右开、左开右闭、都闭)
date_range的参数freq的解释:M表示每月底;BM表示每月最后一个交易日;MS表示月初
对DataFrame的元素求开方时,遇到负数会警告,但是结果会给出NaN
plot方法默认的折线图,如果要修改可以用kind来修改