跳到主要内容

R数据框(data.frames)

介绍

在R语言中,数据框(data.frame) 是一种非常常用的数据结构,它类似于电子表格或数据库中的表格。数据框由行和列组成,每一列可以是不同的数据类型(如数值、字符、逻辑值等),但同一列中的数据必须是相同类型。数据框是R中处理结构化数据的主要工具之一,广泛应用于数据分析和统计建模。

创建数据框

在R中,可以使用 data.frame() 函数来创建数据框。以下是一个简单的例子:

r
# 创建一个数据框
df <- data.frame(
name = c("Alice", "Bob", "Charlie"),
age = c(25, 30, 35),
married = c(TRUE, FALSE, TRUE)
)

# 打印数据框
print(df)

输出:

     name age married
1 Alice 25 TRUE
2 Bob 30 FALSE
3 Charlie 35 TRUE

在这个例子中,我们创建了一个包含三列的数据框:name(姓名)、age(年龄)和 married(婚姻状况)。每一列的数据类型分别为字符型、数值型和逻辑型。

访问数据框中的数据

访问列

可以通过列名来访问数据框中的某一列:

r
# 访问name列
df$name

输出:

[1] "Alice"   "Bob"     "Charlie"

访问行

可以使用行索引来访问数据框中的某一行:

r
# 访问第一行
df[1, ]

输出:

   name age married
1 Alice 25 TRUE

访问特定元素

可以通过行和列的索引来访问数据框中的特定元素:

r
# 访问第一行第二列的元素
df[1, 2]

输出:

[1] 25

修改数据框

添加新列

可以通过赋值操作来添加新列:

r
# 添加一个新列salary
df$salary <- c(50000, 60000, 70000)

# 打印修改后的数据框
print(df)

输出:

     name age married salary
1 Alice 25 TRUE 50000
2 Bob 30 FALSE 60000
3 Charlie 35 TRUE 70000

修改现有列

可以通过赋值操作来修改现有列的值:

r
# 修改age列的值
df$age <- c(26, 31, 36)

# 打印修改后的数据框
print(df)

输出:

     name age married salary
1 Alice 26 TRUE 50000
2 Bob 31 FALSE 60000
3 Charlie 36 TRUE 70000

数据框的常用操作

筛选数据

可以使用条件语句来筛选数据框中的行:

r
# 筛选出年龄大于30的行
df[df$age > 30, ]

输出:

     name age married salary
2 Bob 31 FALSE 60000
3 Charlie 36 TRUE 70000

排序数据

可以使用 order() 函数对数据框进行排序:

r
# 按age列升序排序
df[order(df$age), ]

输出:

     name age married salary
1 Alice 26 TRUE 50000
2 Bob 31 FALSE 60000
3 Charlie 36 TRUE 70000

实际应用场景

假设你有一份学生成绩单,包含学生的姓名、科目和成绩。你可以使用数据框来存储和处理这些数据:

r
# 创建学生成绩单数据框
grades <- data.frame(
student = c("Alice", "Bob", "Charlie", "Alice", "Bob", "Charlie"),
subject = c("Math", "Math", "Math", "Science", "Science", "Science"),
score = c(90, 85, 88, 92, 87, 89)
)

# 打印数据框
print(grades)

输出:

  student subject score
1 Alice Math 90
2 Bob Math 85
3 Charlie Math 88
4 Alice Science 92
5 Bob Science 87
6 Charlie Science 89

你可以使用数据框进行各种操作,例如计算每个学生的平均成绩:

r
# 计算每个学生的平均成绩
aggregate(score ~ student, data = grades, FUN = mean)

输出:

  student score
1 Alice 91.0
2 Bob 86.0
3 Charlie 88.5

总结

数据框是R语言中处理结构化数据的重要工具。通过本文,你已经学会了如何创建、访问、修改和操作数据框。数据框在数据分析、统计建模和数据可视化中有着广泛的应用,掌握数据框的基本操作是学习R语言的重要一步。

附加资源与练习

  • 练习1:创建一个包含5名学生信息的数据框,包括姓名、年龄和成绩。然后筛选出成绩大于80分的学生。
  • 练习2:使用 aggregate() 函数计算每个学生的总成绩。
  • 附加资源:阅读R官方文档中关于数据框的部分,了解更多高级操作和函数。
提示

在实际数据分析中,数据框是最常用的数据结构之一。熟练掌握数据框的操作将大大提高你的数据分析效率。