Elasticsearch 学习笔记

Elasticsearch 可以用于快速地储存、搜索和分析海量数据。这里会将其简称为 ES。大部分DSL在 Kibana Dev Tools 中执行。

👉文章列表
Elasticsearch 7 学习笔记 ⏬ 快速上手 Index、Type、Document 安装与启动 Kibana 的使用 下载历史版本 文档唯一性 默认端口与端口设置 创建和删除索引 自定义 mapping 和 settings 设置索引副本数量和分片数量 查看所有索引 数据类型 字符串类型 keyword 、text 数组 添加和更新文档 通过 _bulk 批量添加文档 使用 from 、size 进行分页查询 查询中使用 sort 进行排序 查询结果只展示部分字段 查询结果中展示 _version 字段 使用 ignore_above 限制字符串长度 动态映射 精确搜索/全文搜索示例
客户端 ⏬ Python 客户端 Java TransportClient API 客户端 Java REST Client API 客户端
其他 ⏬ ES 6 快速上手 ES 5 快速上手

Elasticsearch 7 : 文档唯一性


一般说法是下面三个字段在一个ES实例/集群中是全局唯一的:

index + type + 文档 _id

但是实际上是:

index + type + 分片标识 + 文档 _id

以下为验证:

创建有10个分片的 index:

PUT student
{
  "mappings" : {
    "properties" : {
      "uid": {
        "type" : "integer"
      },
      "name" : {
        "type" : "keyword"
      },
      "age" : {
        "type" : "integer"
      }
    }
  },
  "settings" : {
    "index" : {
      "number_of_shards" : 10,
      "number_of_replicas" : 1
    }
  }
}

添加记录1:

POST student/_doc/1?routing=1
{
  "uid": 1,
  "name": "张三",
  "age": 10
}

查询中带上指定 explain 为 true,响应中能看到文档属于哪个 shard:

# 请求
GET student/_search
{
  "query": {
    "match": {
      "uid": 1
    }
  },
  "explain": true
}

# 响应
{
  "took" : 9,
  "timed_out" : false,
  "_shards" : {
    "total" : 10,
    "successful" : 10,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 1.0,
    "hits" : [
      {
        "_shard" : "[student][8]",
        "_node" : "wFhSfuLwR3OX21eldbRIHg",
        "_index" : "student",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 1.0,
        "_routing" : "1",
        "_source" : {
          "uid" : 1,
          "name" : "张三",
          "age" : 10
        },
        "_explanation" : {
          "value" : 1.0,
          "description" : "uid:[1 TO 1]",
          "details" : [ ]
        }
      }
    ]
  }
}

添加记录2:

POST student/_doc/1?routing=2
{
  "uid": 1,
  "name": "张三",
  "age": 10
}

注意,和记录1相比,除了 routing ,其他均没有变化。

我们再次查询_id为1的记录,会发现有两条,唯一区别是 _shard_routing值不相同:

# 请求
GET student/_search
{
  "query": {
    "match": {
      "uid": 1
    }
  },
  "explain": true
}

# 响应
{
  "took" : 565,
  "timed_out" : false,
  "_shards" : {
    "total" : 10,
    "successful" : 10,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score" : 1.0,
    "hits" : [
      {
        "_shard" : "[student][7]",
        "_node" : "wFhSfuLwR3OX21eldbRIHg",
        "_index" : "student",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 1.0,
        "_routing" : "2",
        "_source" : {
          "uid" : 1,
          "name" : "张三",
          "age" : 10
        },
        "_explanation" : {
          "value" : 1.0,
          "description" : "uid:[1 TO 1]",
          "details" : [ ]
        }
      },
      {
        "_shard" : "[student][8]",
        "_node" : "wFhSfuLwR3OX21eldbRIHg",
        "_index" : "student",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 1.0,
        "_routing" : "1",
        "_source" : {
          "uid" : 1,
          "name" : "张三",
          "age" : 10
        },
        "_explanation" : {
          "value" : 1.0,
          "description" : "uid:[1 TO 1]",
          "details" : [ ]
        }
      }
    ]
  }
}

( 本文完 )

文章目录