Elasticsearch 学习笔记

Elasticsearch 可以用于快速地储存、搜索和分析海量数据。这里会将其简称为 ES。大部分DSL在 Kibana Dev Tools 中执行。

👉文章列表
Elasticsearch 7 学习笔记 ⏬ 快速上手 Index、Type、Document 安装与启动 Kibana 的使用 下载历史版本 文档唯一性 默认端口与端口设置 创建和删除索引 自定义 mapping 和 settings 设置索引副本数量和分片数量 查看所有索引 数据类型 字符串类型 keyword 、text 数组 添加和更新文档 通过 _bulk 批量添加文档 使用 from 、size 进行分页查询 查询中使用 sort 进行排序 查询结果只展示部分字段 查询结果中展示 _version 字段 使用 ignore_above 限制字符串长度 动态映射 精确搜索/全文搜索示例
客户端 ⏬ Python 客户端 Java TransportClient API 客户端 Java REST Client API 客户端
其他 ⏬ ES 6 快速上手 ES 5 快速上手

Elasticsearch 7 : 事务日志 translog


ES 基于 Lucene 实现索引数据和查询数据,Lucene 在 commit 时才会将数据写入磁盘。

以索引数据为例:

  1. 数据写入Lucene 内存,返回索引数据成功。
  2. 到一定程度后,Lucene 进行 commit,将内存内容flush到磁盘。

可能会出现,返回成功了,但是 commit 失败(比如断电),从而导致数据丢失。

ES 提供了事务日志(transaction log, 简写为 translog),保障数据不丢失。

  1. 数据写入Lucene 内存,然后写入 translog 成功,此时才会返回索引数据成功。
  2. 到一定程度后,Lucene 进行 commit,将内存内容flush到磁盘。

tranlog 默认是直接写磁盘的,所以即使因为断电等原因 Lucene commit 失败,也可以恢复数据。

配置介绍:

配置 说明
index.translog.durability 默认为 request,每一次数据修改请求,都会将对应 translog 刷盘。这是最稳妥的一个配置,不会丢数据,但性能稍差。
另一个配置是async,每隔一段时间进行一次刷盘操作,时间间隔配置在index.translog.sync_interval中。
index.translog.sync_interval translog 刷盘间隔时间。默认5s,不能小于100ms
index.translog.flush_threshold_size 当需要从 translog 恢复数据时,如果 translog 太长,会导致恢复时间过长。
该配置可以设置当 translog 达到多大时,Lucene 进行一次 commit 刷盘操作。这样可以保证最坏的情况下恢复数据,对应鹅 translog 的最大大小。默认为 512mb 。

( 本文完 )

文章目录