摘要: 原創出處 bysocket.com 「公眾號:泥瓦匠BYSocket 」歡迎關注和轉載,保留摘要,謝謝!

  • ES 基礎
  • ES 集群
  • ES 集群上業務優化

一、ES 基礎

ES 的安裝下載,網上一大片,我這邊不在重複。可以看看我以前做的小筆記:

Spring Boot 2.0 M7 整合 ES 5 、Kibana 和 X-pack

其中 ES 三大要素:

  • 文檔(Document)文檔,在面向對象觀念就是一個對象。在 ES 裡面,是一個大 JSON 對象,是指定了唯一 ID 的最底層或者根對象。文檔的位置由 _index、_type 和 _id 唯一標識。文檔元數據:
    • _index :文檔在哪存放
    • _type : 文檔表示的對象類別
    • _id :文檔唯一標識

  • 索引(Index)索引,用於區分文檔成組,即分到一組的文檔集合。索引,用於存儲文檔和使文檔可被搜索。比如項目索引命名為 project ,交易索引命名為 trade 等。
  • 類型(Type)類型,用於區分索引中的文檔,即在索引中對數據邏輯分區。比如設計項目分為 ui 、 ux 這些類型。可以放在該類目進行區分。但一般操作,很少用到這麼複雜的。

可見, _index 索引的重要性。避免某個索引存儲不相關的數據。

二、ES 集群

ES 集群搭建,文章很多。我這邊也不一一列舉了。先看 ES 集群分散式圖

集群(Cluster)

跟伺服器集群類似,多個 ElasticSearch 運行實例(節點 Node)的組合體是 ElasticSearch 集群。

ElasticSearch 是天然分散式的,可以通過水平擴容為集群添加更多節點。

ElasticSearch 集群是去中心化的,只有一個主節點(Master)。而且主節點是動態選舉,因此不會出現單點故障。

那節點是什麼?

節點(Node)

上面說過,一個 ElasticSearch 運行實例就是節點。任何節點都可以被選舉成為主節點。主節點負責集群內所以變更,比如文檔的增加、刪除等。所以集群不會因為主節點流量的增大成為瓶頸。因為任何節點都會成為主節點。

如圖,P1 P2 P0 是節點內的主分片,其他 R 是副分片。

那分片是什麼?

分片(Shard)

分片,是 ES 節點中最小的工作單元。分片僅保存全部數據的一部分。分片包括主分片和副分片,主分片是副分片的拷貝。主分片和副分片基本沒有大的區別。

如果是全文搜索,會查詢到每個分片,然後將每個分片的結果進行全局地收集,並處理返回。

舉個例子:比如新建了一個索引 project , 存儲項目相關的數據。那具體的某個 project A 的數據會被切分,存儲在不同的分片上。那麼根據 project A 的 _id 如何路由到具體的分片上呢?

分片的路由公式是這樣的:

shard = hash(routing) % number_of_primary_shards

  • hash 函數生成數字,經過取余演算法得到餘數。餘數就是分片的位置。
  • routing 是可變值,支持自定義。默認文檔 _id
  • number_of_primary_shards 主分片的數量

三、ES 集群上業務優化

倘若如果剛剛那個例子,一個索引 project , 存儲項目相關的數據。項目的數量級越來越大,億量級,萬億量級。那一個大索引的查詢啥的都會出現瓶頸。這時候該怎麼優化呢?

這時候是不是想到了,一句常說的:空間換時間。

這時候是不是也想到了,MySQL 分庫

所以大索引的拆分,也不是很難。類似分片的路由規則,根據具體業務指定即可。

這裡,我們可以定義 1000 個索引,分別名為 project_1、project_2、project_3…

然後在 ES 集群上面架一層簡單的 proxy 。裡面核心的業務路由規則可以這樣:

index_id = project_id % 1000

  • project_id 項目自增 ID
  • index_id 得出來的索引對應的 ID

總結一張圖:

  • ES proxy 層:做總索引和真正分索引的映射
  • ES 索引配置管理:做索引與業務的映射
  • ES 集群:就是上面講的

參考資料

  • elastic.co/guide/en/ela

以下專題教程也許您會有興趣

  • 《Spring Boot 2.x 系列教程》 bysocket.com/springboot
  • 《Java 核心系列教程》 bysocket.com/archives/2

(關注微信公眾號,領取 Java 精選乾貨學習資料) (添加我微信:bysocket01。加入純技術交流群,成長技術)
推薦閱讀:
相关文章