R统计分析基础
介绍
R是一种功能强大的编程语言,广泛用于统计分析、数据可视化和数据科学。它的开源特性、丰富的包生态系统以及强大的社区支持,使其成为数据分析和统计建模的首选工具。本文将带你了解R统计分析的基础知识,帮助你快速上手。
R中的数据类型
在R中,数据以不同的类型存储。以下是几种常见的数据类型:
- 数值型(Numeric):用于存储数字,可以是整数或浮点数。
- 字符型(Character):用于存储文本数据。
- 逻辑型(Logical):用于存储布尔值(
TRUE
或FALSE
)。 - 因子型(Factor):用于存储分类数据。
r
# 示例:创建不同类型的数据
num <- 3.14 # 数值型
char <- "Hello, R!" # 字符型
logical <- TRUE # 逻辑型
factor <- factor(c("Low", "Medium", "High")) # 因子型
基本操作
向量操作
向量是R中最基本的数据结构,可以存储一组相同类型的数据。你可以对向量进行各种操作,例如算术运算、逻辑运算和索引。
r
# 创建向量
vec1 <- c(1, 2, 3, 4, 5)
vec2 <- c(6, 7, 8, 9, 10)
# 向量加法
vec_sum <- vec1 + vec2
print(vec_sum) # 输出:7 9 11 13 15
# 向量索引
print(vec1[3]) # 输出:3
数据框
数据框(Data Frame)是R中用于存储表格数据的常用结构。它类似于Excel表格,每一列可以是不同的数据类型。
r
# 创建数据框
df <- data.frame(
Name = c("Alice", "Bob", "Charlie"),
Age = c(25, 30, 35),
Score = c(85, 90, 95)
)
# 查看数据框
print(df)
统计函数
R提供了丰富的统计函数,用于计算均值、中位数、标准差等统计量。
r
# 计算均值
mean_value <- mean(vec1)
print(mean_value) # 输出:3
# 计算标准差
sd_value <- sd(vec1)
print(sd_value) # 输出:1.581139
实际案例:分析学生成绩
假设我们有一组学生的成绩数据,我们希望计算平均成绩、最高成绩和最低成绩。
r
# 学生成绩数据
scores <- c(85, 90, 78, 92, 88, 76, 95, 89, 84, 91)
# 计算平均成绩
mean_score <- mean(scores)
print(mean_score) # 输出:86.8
# 计算最高成绩
max_score <- max(scores)
print(max_score) # 输出:95
# 计算最低成绩
min_score <- min(scores)
print(min_score) # 输出:76
提示
你可以使用 summary()
函数快速获取数据的统计摘要。
r
summary(scores)
总结
本文介绍了R统计分析的基础知识,包括数据类型、基本操作、统计函数以及一个实际案例。通过这些内容,你可以开始使用R进行简单的统计分析。
附加资源
练习
- 创建一个包含5个元素的数值向量,并计算其均值和标准差。
- 使用
data.frame()
创建一个包含姓名、年龄和成绩的数据框,并计算平均成绩。 - 使用
summary()
函数分析一个包含10个随机数的向量。
警告
在编写代码时,确保使用正确的语法和数据类型,以避免错误。