多元回归就像打怪升级,从一元到多元,一次打开多个通道拆解因变量的方差。 咱们得小心陷阱:中心化、抑制变量和多重共线性。 中心化就像给计算减负,把自变量减去均值让数据移到零点坐标系。 这个步骤减少了计算量,也让回归系数有更直观的解释。 标准化和中心化是两码事,标准化把数据缩放到标准正态空间,而中心化只是搬个家。 不管搬不搬家,系数显著性不会变,只是大小不同。 抑制变量就是模型里的隐形炸弹,它和因变量无关但能把R²虚抬起来。 这种变量会把原本归因于其他自变量的误差抢走,让真正的因果关系被稀释。 所以R²上涨不一定是好事,得结合理论来审视新增变量是否合理。 回归假设其实挺硬的,默认自变量无误差,现实中测量难免有偏差。 模型设定错误和测量误差会让系数失真。 样本量大会让系数稳健些,但设定错一次就全输了。 当问题复杂到需要同时考虑多个维度时,Hierarchical Regression就派上用场了。 比如工资差距、主管冲突解释离职倾向不够时,再加入“工作嵌入”的三维结构。 用虚拟变量处理分类变量时要注意:K类分类变量用K-1个虚拟变量即可避免完全共线性。 别忘给参考类别留一个截距项,否则模型会报错。 多重共线性是个温柔陷阱,识别它就看变异膨胀因子(VIF)。 如果VIF达到5就拉响警报了,VIF大于等于10就危险了。 系数忽上忽下、R²上涨却无一人中枪、单变量相关显著但进模型后消失都是共线性在作祟。 解决办法有合并高度相关变量、用主成分降维或者引入交互项或高阶项打破完美共线。 把这三块“暗礁”排查好,咱们的多元回归就能从凑数字变成讲逻辑了。