多语言展示
当前在线:1115今日阅读:6今日分享:31

用Patsy公式进行数据转换

Patsy是Python的一个库,使用简短的字符串“公式语法”描述统计模型(尤其是线性模型)可以将Python代码与patsy公式结合。在评估公式时,库将尝试查找在封闭作用域内使用的函数
工具/原料
1

pandas

2

patsy

方法/步骤
1

常见的变量转换包括标准化(平均值为0,方差为1)和中心化(减去平均值)。Patsy有内置的函数进行这样的工作

2

作为建模的一步,你可能拟合模型到一个数据集,然后用另一个数据集评估模型。另一个数据集可能是剩余的部分或是新数据。当执行中心化和标准化转变,用新数据进行预测要格外小心。因为你必须使用平均值或标准差转换新数据集,这也称作状态转换。patsy.build_design_matrices函数可以使用原始样本数据集的保存信息,来转换新数据,

3

因为Patsy中的加号不是加法的意义,当你按照名称将数据集的列相加时,你必须用特殊I函数将它们封装起来

4

Patsy的公式是一个特殊的字符串语法y ~ x0 + x1a+b不是将a与b相加的意思,而是为模型创建的设计矩阵。patsy.dmatrices函数接收一个公式字符串和一个数据集(可以是DataFrame或数组的字典),为线性模型创建设计矩阵

注意事项
1

Patsy的patsy.builtins模块还有一些其它的内置转换

2

Patsy适合描述statsmodels的线性模型

推荐信息