多语言展示
当前在线:1488今日阅读:60今日分享:41

pandas的基础知识(2)

Python是目前最流行最简单用途最广泛的编程语言,大数据时代最应该学习的一门编程语言。其中,数据分析的库pandas是Python最经典的库之一。DataFrame和Series是pandas最重要的2个数据结构。
工具/原料
1

python,anaconda,spyder,numpy,pandas,matplotlib

2

DataFrame,Series

方法/步骤
1

加载numpy和pandas,pandas中的 DataFrame,Series。a=np.random.standard_normal((6,3)).round(3)表示随机生成一个6*3的标准正态分布数据,然后保留3位有效数字,赋值给a,如图所示

2

生成DataFrame。df1=DataFrame(a)表示使用ndarray对象a生成一个DataFrame,赋值给df1,如图所示

3

修改df1的列名。df1.columns=[['a','b','c']]表示分别给df1的列命名为'a','b','c',如图所示

4

修改df1的索引。df1.index=pd.date_range('2017-1-1',periods=6,freq='MS')表示用date_range生成一个长度为6,起始日期为'2017-1-1',使用月初格式的DatatimeIndex对象数据来作为df1的索引;如图所示

5

将DataFrame再转化为ndarray。np.array(df1)表示将df1这个DataFrame再转化为数组,如图所示

7

df1的统计计算。df1.sum()表示按列求和;df1.mean()表示按列求均值;df1.cumsum()表示按列累计求和;df1.describe()表示对df1进行多个字段的统计(个数,均值,标准差,最小值,25%分位数,50%分位数,75%分位数,最大值);如图所示

8

numpy通用函数对df1的应用;结果的再计算。np.sqrt(df1)表示对df1的每个元素进行开方计算(注意:负数的开方结果给出的是NaN);np.sqrt(df1).mean()表示对df1的没有元素开方后再按列求均值;如图所示

9

df1的简单绘图。%matplotlib inline表示将matplotlib的图表直接嵌入到Notebook之中;df1.cumsum().plot(lw=1.5)是表示df1的按列累计求和绘制一个线宽为1.5的折线图,如图所示

注意事项
1

DataFrame的参数:data表示DataFrame的数据,可以是字典、序列、列表、ndarray、DataFrame; index是索引,默认为range(n);columns是列名,默认为range(n)

2

date_range参数:start(开始日期), end(结束日期), periods(期数,当start或end缺一的时候用), freq(频率), tz(时区), normalize(将start和end规范化为午夜), name(结果索引名称),colsed(start和end这个区间端点是否包含在区间内,’left’、’right’、None分别表示左闭右开、左开右闭、都闭)

3

date_range的参数freq的解释:M表示每月底;BM表示每月最后一个交易日;MS表示月初

4

对DataFrame的元素求开方时,遇到负数会警告,但是结果会给出NaN

5

plot方法默认的折线图,如果要修改可以用kind来修改

推荐信息