跳到主要内容

R统计分析基础

介绍

R是一种功能强大的编程语言,广泛用于统计分析、数据可视化和数据科学。它的开源特性、丰富的包生态系统以及强大的社区支持,使其成为数据分析和统计建模的首选工具。本文将带你了解R统计分析的基础知识,帮助你快速上手。

R中的数据类型

在R中,数据以不同的类型存储。以下是几种常见的数据类型:

  1. 数值型(Numeric):用于存储数字,可以是整数或浮点数。
  2. 字符型(Character):用于存储文本数据。
  3. 逻辑型(Logical):用于存储布尔值(TRUEFALSE)。
  4. 因子型(Factor):用于存储分类数据。
r
# 示例:创建不同类型的数据
num <- 3.14 # 数值型
char <- "Hello, R!" # 字符型
logical <- TRUE # 逻辑型
factor <- factor(c("Low", "Medium", "High")) # 因子型

基本操作

向量操作

向量是R中最基本的数据结构,可以存储一组相同类型的数据。你可以对向量进行各种操作,例如算术运算、逻辑运算和索引。

r
# 创建向量
vec1 <- c(1, 2, 3, 4, 5)
vec2 <- c(6, 7, 8, 9, 10)

# 向量加法
vec_sum <- vec1 + vec2
print(vec_sum) # 输出:7 9 11 13 15

# 向量索引
print(vec1[3]) # 输出:3

数据框

数据框(Data Frame)是R中用于存储表格数据的常用结构。它类似于Excel表格,每一列可以是不同的数据类型。

r
# 创建数据框
df <- data.frame(
Name = c("Alice", "Bob", "Charlie"),
Age = c(25, 30, 35),
Score = c(85, 90, 95)
)

# 查看数据框
print(df)

统计函数

R提供了丰富的统计函数,用于计算均值、中位数、标准差等统计量。

r
# 计算均值
mean_value <- mean(vec1)
print(mean_value) # 输出:3

# 计算标准差
sd_value <- sd(vec1)
print(sd_value) # 输出:1.581139

实际案例:分析学生成绩

假设我们有一组学生的成绩数据,我们希望计算平均成绩、最高成绩和最低成绩。

r
# 学生成绩数据
scores <- c(85, 90, 78, 92, 88, 76, 95, 89, 84, 91)

# 计算平均成绩
mean_score <- mean(scores)
print(mean_score) # 输出:86.8

# 计算最高成绩
max_score <- max(scores)
print(max_score) # 输出:95

# 计算最低成绩
min_score <- min(scores)
print(min_score) # 输出:76
提示

你可以使用 summary() 函数快速获取数据的统计摘要。

r
summary(scores)

总结

本文介绍了R统计分析的基础知识,包括数据类型、基本操作、统计函数以及一个实际案例。通过这些内容,你可以开始使用R进行简单的统计分析。

附加资源

练习

  1. 创建一个包含5个元素的数值向量,并计算其均值和标准差。
  2. 使用 data.frame() 创建一个包含姓名、年龄和成绩的数据框,并计算平均成绩。
  3. 使用 summary() 函数分析一个包含10个随机数的向量。
警告

在编写代码时,确保使用正确的语法和数据类型,以避免错误。