Patsy是Python的一个库,使用简短的字符串“公式语法”描述统计模型(尤其是线性模型)可以将Python代码与patsy公式结合。在评估公式时,库将尝试查找在封闭作用域内使用的函数
工具/原料
1
pandas
2
patsy
方法/步骤
1
常见的变量转换包括标准化(平均值为0,方差为1)和中心化(减去平均值)。Patsy有内置的函数进行这样的工作
2
作为建模的一步,你可能拟合模型到一个数据集,然后用另一个数据集评估模型。另一个数据集可能是剩余的部分或是新数据。当执行中心化和标准化转变,用新数据进行预测要格外小心。因为你必须使用平均值或标准差转换新数据集,这也称作状态转换。patsy.build_design_matrices函数可以使用原始样本数据集的保存信息,来转换新数据,
3
因为Patsy中的加号不是加法的意义,当你按照名称将数据集的列相加时,你必须用特殊I函数将它们封装起来
4
Patsy的公式是一个特殊的字符串语法y ~ x0 + x1a+b不是将a与b相加的意思,而是为模型创建的设计矩阵。patsy.dmatrices函数接收一个公式字符串和一个数据集(可以是DataFrame或数组的字典),为线性模型创建设计矩阵
注意事项
1
Patsy的patsy.builtins模块还有一些其它的内置转换
2
Patsy适合描述statsmodels的线性模型