R的broom包

在R中，统计分析通常会产生复杂的模型对象，这些对象包含大量的信息。然而，直接处理这些对象可能会让人感到困惑，尤其是当你需要将结果整理成整洁的数据框以便进一步分析或可视化时。这就是broom包的用武之地。broom包提供了一套工具，可以将统计模型的输出整理成整洁的数据框，从而简化后续的分析和可视化工作。

什么是broom包？

broom包是一个R包，旨在将统计模型的输出整理成整洁的数据框。它提供了三个主要的函数：

tidy()：将模型的统计结果整理成一个数据框，每一行代表一个模型项（如系数、p值等）。
augment()：将模型的预测值、残差等信息添加到原始数据中，生成一个新的数据框。
glance()：生成一个单行的数据框，包含模型的整体统计信息（如R²、AIC等）。

这些函数使得从模型中提取信息变得更加直观和方便。

安装和加载broom包

在开始使用broom包之前，你需要先安装并加载它。你可以通过以下代码来完成：

install.packages("broom")
library(broom)

使用tidy()函数整理模型输出

假设我们有一个简单的线性回归模型，我们想要提取模型的系数和p值。tidy()函数可以帮助我们做到这一点。

# 创建一个简单的线性回归模型
model <- lm(mpg ~ wt + hp, data = mtcars)

# 使用tidy()函数整理模型输出
tidy_model <- tidy(model)
print(tidy_model)

输出结果将是一个数据框，包含每个系数的估计值、标准误差、t值和p值：

# A tibble: 3 × 5
  term        estimate std.error statistic  p.value
  <chr>          <dbl>     <dbl>     <dbl>    <dbl>
1 (Intercept)  37.2       1.63      22.8   3.24e-20
2 wt           -3.88      0.633     -6.13  1.12e- 6
3 hp           -0.0318    0.00903   -3.52  1.45e- 3

使用augment()函数添加模型信息

augment()函数可以将模型的预测值、残差等信息添加到原始数据中。这对于进一步的分析和可视化非常有用。

# 使用augment()函数添加模型信息
augmented_model <- augment(model)
print(augmented_model)

输出结果将是一个数据框，包含原始数据以及模型的预测值、残差等信息：

# A tibble: 32 × 9
   .rownames   mpg    wt    hp .fitted .resid .std.resid   .hat .sigma .cooksd
   <chr>     <dbl> <dbl> <dbl>   <dbl>  <dbl>      <dbl>  <dbl>  <dbl>   <dbl>
Mazda RX4  21    2.62   110    23.3 -2.28      -0.726 0.0433   3.05  0.0139
Mazda RX…  21    2.88   110    21.9 -0.919     -0.292 0.0352   3.09  0.0023
Datsun 710 22.8  2.32    93    25.3 -2.53      -0.806 0.0584   3.04  0.0226
Hornet 4…  21.4  3.22   110    19.6  1.81       0.577 0.0333   3.07  0.0068
Hornet S…  18.7  3.44   175    17.6  1.10       0.351 0.0426   3.08  0.0035
Valiant    18.1  3.46   105    19.0 -0.903     -0.287 0.0465   3.09  0.0025
Duster 360 14.3  3.57   245    14.1  0.200      0.064 0.0853   3.09  0.0002
Merc 240D  24.4  3.19    62    23.1  1.31       0.418 0.0334   3.08  0.0039
Merc 230   22.8  3.15    95    23.0 -0.200     -0.064 0.0327   3.09  0.0001
Merc 280   19.2  3.44   123    19.4 -0.200     -0.064 0.0426   3.09  0.0001
# … with 22 more rows

使用glance()函数获取模型摘要

glance()函数可以生成一个单行的数据框，包含模型的整体统计信息，如R²、AIC等。

# 使用glance()函数获取模型摘要
glance_model <- glance(model)
print(glance_model)

输出结果将是一个单行的数据框，包含模型的整体统计信息：

# A tibble: 1 × 12
  r.squared adj.r.squared sigma statistic  p.value    df logLik   AIC   BIC deviance df.residual  nobs
      <dbl>         <dbl> <dbl>     <dbl>    <dbl> <dbl>  <dbl> <dbl> <dbl>    <dbl>       <int> <int>
1     0.827         0.815  3.05      70.9 6.81e-12     2  -77.0  162.  168.     278.          29    32

实际应用案例

假设你正在分析一组汽车数据，并希望了解汽车的重量（wt）和马力（hp）对每加仑英里数（mpg）的影响。你可以使用broom包来整理和简化线性回归模型的输出，以便更好地理解结果。

# 创建线性回归模型
model <- lm(mpg ~ wt + hp, data = mtcars)

# 使用tidy()函数整理模型输出
tidy_model <- tidy(model)
print(tidy_model)

# 使用augment()函数添加模型信息
augmented_model <- augment(model)
print(augmented_model)

# 使用glance()函数获取模型摘要
glance_model <- glance(model)
print(glance_model)

通过这些步骤，你可以轻松地将复杂的模型输出整理成整洁的数据框，从而更方便地进行进一步的分析和可视化。

总结

broom包是R中一个非常有用的工具，它可以帮助你将统计模型的输出整理成整洁的数据框。通过使用tidy()、augment()和glance()函数，你可以轻松地提取模型的系数、预测值、残差以及整体统计信息。这使得后续的分析和可视化变得更加直观和方便。

附加资源

broom包的官方文档
R for Data Science：这本书提供了关于如何使用R进行数据分析的全面指南，包括broom包的使用。

练习

使用mtcars数据集创建一个线性回归模型，预测mpg（每加仑英里数）与wt（重量）和hp（马力）的关系。使用broom包整理模型输出，并解释结果。
尝试使用augment()函数将模型的预测值和残差添加到原始数据中，并绘制残差图。
使用glance()函数获取模型的整体统计信息，并解释R²和AIC的含义。

通过这些练习，你将更好地掌握broom包的使用，并能够更有效地分析和解释统计模型的输出。

什么是broom包？​

安装和加载broom包​

使用tidy()函数整理模型输出​

使用augment()函数添加模型信息​

使用glance()函数获取模型摘要​

实际应用案例​

总结​

附加资源​

练习​