Elasticsearch 聚合概述

Elasticsearch 是一个强大的分布式搜索和分析引擎，广泛用于处理大规模数据集。除了全文搜索功能外，Elasticsearch 还提供了强大的聚合（Aggregation）功能，用于对数据进行分组、统计和分析。聚合是 Elasticsearch 中非常重要的功能之一，能够帮助我们从海量数据中提取有价值的信息。

什么是聚合？

聚合是一种对数据进行分组、统计和分析的操作。它类似于 SQL 中的 GROUP BY 和聚合函数（如 COUNT、SUM、AVG 等），但 Elasticsearch 的聚合功能更加灵活和强大。通过聚合，我们可以对数据进行多维度的分析，例如计算平均值、求和、分组统计等。

Elasticsearch 的聚合功能分为两大类：

指标聚合（Metric Aggregations）：用于计算数值型指标，如平均值、最大值、最小值等。
桶聚合（Bucket Aggregations）：用于将数据分组到不同的“桶”中，每个桶代表一个分组。

聚合的基本结构

在 Elasticsearch 中，聚合是通过 aggs 关键字来定义的。一个聚合查询通常包含以下几个部分：

聚合名称：为聚合指定一个名称，方便在结果中识别。
聚合类型：指定聚合的类型，如 terms、avg、sum 等。
字段：指定要对哪个字段进行聚合。

以下是一个简单的聚合查询示例：

{
  "size": 0,
  "aggs": {
    "avg_price": {
      "avg": {
        "field": "price"
      }
    }
  }
}

在这个示例中，我们对 price 字段进行平均值计算，并将结果命名为 avg_price。

备注

size: 0 表示不返回具体的文档内容，只返回聚合结果。这在处理大数据集时非常有用，可以减少网络传输的开销。

指标聚合示例

指标聚合用于计算数值型指标。以下是一些常见的指标聚合类型：

avg：计算平均值。
sum：计算总和。
min：计算最小值。
max：计算最大值。
stats：计算多个统计指标，包括平均值、总和、最小值、最大值等。

示例：计算平均价格

假设我们有一个商品索引，每个商品都有一个 price 字段。我们可以使用 avg 聚合来计算所有商品的平均价格：

{
  "size": 0,
  "aggs": {
    "avg_price": {
      "avg": {
        "field": "price"
      }
    }
  }
}

输出结果：

{
  "aggregations": {
    "avg_price": {
      "value": 45.67
    }
  }
}

在这个示例中，avg_price 的值为 45.67，表示所有商品的平均价格为 45.67。

桶聚合示例

桶聚合用于将数据分组到不同的“桶”中。以下是一些常见的桶聚合类型：

terms：根据字段的值进行分组。
range：根据数值范围进行分组。
date_histogram：根据日期进行分组。

示例：按类别分组统计商品数量

假设我们有一个商品索引，每个商品都有一个 category 字段。我们可以使用 terms 聚合来统计每个类别下的商品数量：

{
  "size": 0,
  "aggs": {
    "categories": {
      "terms": {
        "field": "category.keyword"
      }
    }
  }
}

输出结果：

{
  "aggregations": {
    "categories": {
      "buckets": [
        {
          "key": "electronics",
          "doc_count": 120
        },
        {
          "key": "clothing",
          "doc_count": 80
        },
        {
          "key": "books",
          "doc_count": 50
        }
      ]
    }
  }
}

在这个示例中，categories 聚合返回了三个桶，分别表示 electronics、clothing 和 books 三个类别的商品数量。

实际应用场景

场景 1：电商网站的商品分析

假设你正在为一个电商网站开发数据分析功能，你需要统计每个类别的商品数量、平均价格以及价格分布。你可以使用以下聚合查询来实现：

{
  "size": 0,
  "aggs": {
    "categories": {
      "terms": {
        "field": "category.keyword"
      },
      "aggs": {
        "avg_price": {
          "avg": {
            "field": "price"
          }
        },
        "price_range": {
          "range": {
            "field": "price",
            "ranges": [
              { "to": 50 },
              { "from": 50, "to": 100 },
              { "from": 100 }
            ]
          }
        }
      }
    }
  }
}

在这个查询中，我们首先按类别分组，然后对每个类别计算平均价格，并统计价格在不同范围内的商品数量。

场景 2：日志分析

假设你正在分析服务器日志，你需要统计每个小时的请求数量。你可以使用 date_histogram 聚合来实现：

{
  "size": 0,
  "aggs": {
    "requests_per_hour": {
      "date_histogram": {
        "field": "timestamp",
        "calendar_interval": "hour"
      }
    }
  }
}

这个查询将返回每个小时的请求数量，帮助你分析服务器的负载情况。

总结

Elasticsearch 的聚合功能非常强大，能够帮助我们从海量数据中提取有价值的信息。通过指标聚合和桶聚合，我们可以对数据进行多维度的分析，满足各种业务需求。

提示

在实际使用中，建议结合 Kibana 等可视化工具，将聚合结果以图表的形式展示出来，这样可以更直观地理解数据。

附加资源与练习

官方文档：阅读 Elasticsearch 官方文档以深入了解聚合功能。
练习：尝试在你的 Elasticsearch 索引中创建一个聚合查询，统计某个字段的平均值、最大值和最小值。

通过不断练习和实践，你将能够熟练掌握 Elasticsearch 的聚合功能，并应用于实际项目中。

什么是聚合？​

聚合的基本结构​

指标聚合示例​

示例：计算平均价格​

桶聚合示例​

示例：按类别分组统计商品数量​

实际应用场景​

场景 1：电商网站的商品分析​

场景 2：日志分析​

总结​

附加资源与练习​