Prometheus 术语表

Prometheus 是一个开源的系统监控和警报工具包，最初由SoundCloud开发，现已成为云原生计算基金会（CNCF）的一部分。它通过收集和存储时间序列数据，帮助用户监控其应用程序和基础设施的健康状况。为了更好地理解Prometheus的工作原理，我们需要熟悉一些关键术语。本文将逐一介绍这些术语，并通过实际案例帮助您更好地掌握它们。

1. 时间序列（Time Series）

时间序列是Prometheus中最基本的概念。它是由一系列时间戳和对应的值组成的数据点集合。每个时间序列都有一个唯一的标识符，称为指标名称（Metric Name），以及一组标签（Labels），用于区分不同的维度。

示例

假设我们有一个指标 http_requests_total，它记录了HTTP请求的总数。这个指标可能带有以下标签：

method="GET"
status="200"
endpoint="/api/v1/users"

时间序列数据可能如下所示：

http_requests_total{method="GET", status="200", endpoint="/api/v1/users"} 100
http_requests_total{method="GET", status="200", endpoint="/api/v1/users"} 105
http_requests_total{method="GET", status="200", endpoint="/api/v1/users"} 110

2. 指标（Metric）

指标是Prometheus中用于表示某种系统状态的度量值。它由一个名称和一组标签组成。指标可以是计数器（Counter）、仪表盘（Gauge）、直方图（Histogram）或摘要（Summary）等类型。

示例

计数器（Counter）：用于记录累积值，例如HTTP请求总数。
仪表盘（Gauge）：用于记录瞬时值，例如当前内存使用量。
直方图（Histogram）：用于记录值的分布情况，例如请求延迟。
摘要（Summary）：类似于直方图，但计算的是分位数。

3. 标签（Labels）

标签是键值对，用于区分同一指标的不同维度。标签可以帮助我们更细致地分析和查询数据。例如，http_requests_total 指标可以带有 method、status 和 endpoint 等标签。

提示

标签的选择非常重要，过多的标签可能会导致性能问题，因此需要谨慎设计。

4. 抓取（Scraping）

Prometheus通过抓取目标端点来收集指标数据。目标端点通常是暴露了指标数据的HTTP服务。Prometheus会定期向这些端点发送HTTP请求，获取最新的指标数据。

示例

假设我们有一个暴露指标的服务，地址为 http://example.com/metrics。Prometheus的配置文件可能如下所示：

yaml
scrape_configs:
  - job_name: 'example'
    static_configs:
      - targets: ['example.com:80']

5. 查询语言（PromQL）

PromQL是Prometheus的查询语言，用于从时间序列数据库中提取和分析数据。它支持多种操作符和函数，可以帮助用户进行复杂的数据分析。

示例

以下是一个简单的PromQL查询，用于获取过去5分钟内HTTP请求的总数：

promql
sum(rate(http_requests_total[5m]))

6. 警报（Alerting）

Prometheus支持基于查询结果的警报功能。用户可以定义警报规则，当某个条件满足时，Prometheus会触发警报并发送通知。

示例

以下是一个警报规则的示例，当HTTP请求的错误率超过5%时触发警报：

yaml
groups:
- name: example
  rules:
  - alert: HighErrorRate
    expr: sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) > 0.05
    for: 10m
    labels:
      severity: critical
    annotations:
      summary: "High error rate detected"
      description: "The error rate is above 5% for the past 10 minutes."

7. 实际案例

假设我们有一个Web应用程序，需要监控其HTTP请求的响应时间和错误率。我们可以使用Prometheus来实现以下监控：

记录HTTP请求总数：使用计数器 http_requests_total。
记录请求延迟：使用直方图 http_request_duration_seconds。
设置警报：当错误率超过5%时触发警报。

配置示例

yaml
scrape_configs:
  - job_name: 'web_app'
    static_configs:
      - targets: ['webapp.example.com:8080']

rule_files:
  - 'alerts.rules'

警报规则

yaml
groups:
- name: web_app_alerts
  rules:
  - alert: HighErrorRate
    expr: sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) > 0.05
    for: 10m
    labels:
      severity: critical
    annotations:
      summary: "High error rate detected"
      description: "The error rate is above 5% for the past 10 minutes."

总结

通过本文，您已经了解了Prometheus中的一些关键术语，包括时间序列、指标、标签、抓取、PromQL和警报。这些概念是理解和使用Prometheus的基础。希望本文能帮助您更好地掌握Prometheus的核心功能。

附加资源

练习

尝试在本地环境中部署Prometheus，并配置一个简单的抓取任务。
使用PromQL查询过去1小时内某个指标的平均值。
创建一个警报规则，当某个指标的值超过阈值时触发警报。

通过实践，您将更深入地理解Prometheus的工作原理和应用场景。

1. 时间序列（Time Series）​

示例​

2. 指标（Metric）​

示例​

3. 标签（Labels）​

4. 抓取（Scraping）​

示例​

5. 查询语言（PromQL）​

示例​

6. 警报（Alerting）​

示例​

7. 实际案例​

配置示例​

警报规则​

总结​

附加资源​

练习​