Elasticsearch 桶聚合

Elasticsearch 是一个强大的分布式搜索和分析引擎，广泛用于日志分析、全文搜索和数据可视化等场景。在 Elasticsearch 中，桶聚合（Bucket Aggregations） 是一种用于将文档分组到不同“桶”中的聚合方式。每个桶代表一组满足特定条件的文档。桶聚合可以帮助我们对数据进行分类、分组和统计分析。

什么是桶聚合？

桶聚合的核心思想是将文档按照某种规则分组，形成多个“桶”。每个桶包含一组满足特定条件的文档。例如，你可以按日期范围、数值区间、地理位置或特定字段的值来分组文档。

桶聚合的结果通常是一个包含多个桶的列表，每个桶都有一个键（key）和对应的文档数量（doc_count）。桶聚合可以嵌套使用，从而支持更复杂的分组和分析。

常见的桶聚合类型

Elasticsearch 提供了多种桶聚合类型，以下是一些常见的类型：

Terms Aggregation：按字段的值分组文档。
Range Aggregation：按数值范围分组文档。
Date Range Aggregation：按日期范围分组文档。
Histogram Aggregation：按数值间隔分组文档。
Date Histogram Aggregation：按时间间隔分组文档。
Geo Distance Aggregation：按地理位置距离分组文档。

接下来，我们将通过示例逐步讲解这些桶聚合的使用方法。

1. Terms Aggregation（词条聚合）

Terms Aggregation 是最常用的桶聚合之一，它根据字段的值对文档进行分组。例如，假设我们有一个存储用户购买记录的索引，我们可以按 product_category 字段对购买记录进行分组。

示例：按产品类别分组

{
  "size": 0,
  "aggs": {
    "product_categories": {
      "terms": {
        "field": "product_category.keyword"
      }
    }
  }
}

输入：假设索引中有以下文档：

[
  {"product_category": "Electronics", "price": 100},
  {"product_category": "Clothing", "price": 50},
  {"product_category": "Electronics", "price": 200},
  {"product_category": "Books", "price": 20}
]

输出：

{
  "aggregations": {
    "product_categories": {
      "buckets": [
        {"key": "Electronics", "doc_count": 2},
        {"key": "Clothing", "doc_count": 1},
        {"key": "Books", "doc_count": 1}
      ]
    }
  }
}

提示

terms 聚合默认返回前 10 个桶。你可以通过 size 参数调整返回的桶数量。

2. Range Aggregation（范围聚合）

Range Aggregation 允许你按数值范围对文档进行分组。例如，我们可以按价格区间对购买记录进行分组。

示例：按价格区间分组

{
  "size": 0,
  "aggs": {
    "price_ranges": {
      "range": {
        "field": "price",
        "ranges": [
          {"to": 50},
          {"from": 50, "to": 100},
          {"from": 100}
        ]
      }
    }
  }
}

输入：使用前面的购买记录数据。

输出：

{
  "aggregations": {
    "price_ranges": {
      "buckets": [
        {"key": "*-50.0", "to": 50, "doc_count": 1},
        {"key": "50.0-100.0", "from": 50, "to": 100, "doc_count": 1},
        {"key": "100.0-*", "from": 100, "doc_count": 2}
      ]
    }
  }
}

3. Date Histogram Aggregation（日期直方图聚合）

Date Histogram Aggregation 按时间间隔对文档进行分组，常用于时间序列数据分析。例如，我们可以按天、周或月对日志数据进行分组。

示例：按天分组日志数据

{
  "size": 0,
  "aggs": {
    "logs_per_day": {
      "date_histogram": {
        "field": "timestamp",
        "calendar_interval": "day"
      }
    }
  }
}

输入：假设索引中有以下日志数据：

[
  {"timestamp": "2023-10-01T12:00:00Z", "message": "Log 1"},
  {"timestamp": "2023-10-01T15:00:00Z", "message": "Log 2"},
  {"timestamp": "2023-10-02T09:00:00Z", "message": "Log 3"}
]

输出：

{
  "aggregations": {
    "logs_per_day": {
      "buckets": [
        {"key_as_string": "2023-10-01T00:00:00Z", "key": 1696118400000, "doc_count": 2},
        {"key_as_string": "2023-10-02T00:00:00Z", "key": 1696204800000, "doc_count": 1}
      ]
    }
  }
}

实际应用场景

桶聚合在实际中有广泛的应用场景，例如：

电商数据分析：按产品类别、价格区间或购买日期对销售数据进行分析。
日志分析：按时间间隔对日志数据进行分组，统计每天的日志数量。
用户行为分析：按地理位置或用户年龄段对用户行为数据进行分组。

总结

桶聚合是 Elasticsearch 中用于对文档进行分组和分类的强大工具。通过 Terms、Range、Date Histogram 等聚合类型，我们可以轻松地对数据进行多维度的分析。掌握桶聚合的使用方法，可以帮助你更好地理解和挖掘数据中的价值。

附加资源与练习

练习：尝试在自己的 Elasticsearch 索引中创建一个桶聚合查询，按某个字段的值对文档进行分组。
深入学习：阅读 Elasticsearch 官方文档了解更多桶聚合类型和高级用法。
扩展练习：结合 Metric Aggregations（指标聚合），在桶聚合的基础上计算每个桶的统计指标（如平均值、总和等）。

警告

在使用桶聚合时，注意字段的数据类型和分词器设置，避免因字段类型不匹配导致查询失败。

什么是桶聚合？​

常见的桶聚合类型​

1. Terms Aggregation（词条聚合）​

示例：按产品类别分组​

2. Range Aggregation（范围聚合）​

示例：按价格区间分组​

3. Date Histogram Aggregation（日期直方图聚合）​

示例：按天分组日志数据​

实际应用场景​

总结​

附加资源与练习​