DolphinDB與MongoDB在時序數據上的對比測試

DolphinDB和MongoDB都是為大數據而生的資料庫。但是兩者有這較大的區別。前者是列式存儲的多模型資料庫，主要用於結構化時序數據的高速存儲、查詢和分析。後者是文檔型的NoSQL資料庫，可用於處理非結構化和結構化的數據，可以根據鍵值快速查找或寫入一個文檔。MongoDB有著自己最合適的應用場景。但是市場上缺少優秀的大數據產品，不少用戶試圖使用MongoDB來存儲和查詢物聯網和金融領域的結構化時序數據。本測試的目的是評估MongoDB是否適合此類海量時序數據集。

時間序列資料庫DolphinDB和MongoDB在時序資料庫集上的對比測試，主要結論如下：

DolphinDB的數據導入速度比MongoDB高出兩個數量級。數據量越大，性能差距越明顯。數據導出方面，DolphinDB比MongoDB快50倍左右。
磁碟空間佔用方面，MongoDB佔用磁碟是DolphinDB的2~3倍。
資料庫查詢性能方面，DolphinDB在4個查詢性能測試中速度比MongoDB快30倍；在5個查詢性能測試中速度比MongoDB快10~30倍；在12個查詢性能測試中速度比MongoDB快數倍；僅在兩個點查詢測試中，DolphinDB慢於MongoDB。

1. 測試環境

本次測試在單機上進行，測試設備配置如下：

主機：DELL OptiPlex 7060

CPU：Intel(R) Core(TM) i7-8700 [email protected]，6核12線程

內存：32 GB (8GB x 4, 2,666 MHz)

硬碟： 2T HDD (222MB/s讀取；210MB/s寫入)

OS：Ubuntu 18.04 LTS

DolphinDB選用Linux0.89作為測試版本，所有節點最大連接數為128，數據副本設置為2，設置1個控制節點，1個代理節點，3個數據節點。

MongoDB選用Linux4.0.5社區版作為測試版本，shard集群線程數為12，所有伺服器的最大連接數均為128。MongoDB的shard集群設置為1個config伺服器，1個mongos路由伺服器，3個分片伺服器，其中config伺服器設置為有1個主節點和2個從節點的replica集群，3個分片伺服器均設置為有1個主節點，1個從節點，1個仲裁節點的replica集群。DolphinDB和MongoDB的參數配置請參考附錄1。

2. 數據集

本報告測試了DolphinDB和MongoDB在小數據量級（4.2GB）和大數據量級（62.4GB）下的性能。

對於大小兩種數據集，我們測試兩種資料庫在磁碟分區情況下的性能，查詢時間均包含了磁碟IO的時間。為了保證測試的公平，我們在測試前通過linux命令：sync,echo1,2,3 | tee /proc/sys/vm/drop_caches清空頁面緩存，目錄緩存和硬碟緩存，隨後依次執行13條查詢，並記錄執行的時間。

以下是兩個數據集的表結構和分區方法：

設備感測器信息小數據集（CSV文件，4.2G, 3千萬條數據）

我們選用TimescaleDB官網提供的devices_readings_big.csv（以下簡稱readings數據集）和device_info_big.csv（以下簡稱info數據集）設備感測器數據作為小數據測試集。readings數據集包含3,000個設備在10,000個時間間隔（2016.11.15-2016.11.19）上的感測器信息，包括感測器時間，設備ID，電池，內存，CPU等時序統計信息。info數據集包括3,000個設備的設備ID，版本號，製造商，模式和操作系統等統計信息。

數據來源：https://docs.timescale.com/v1.1/tutorials/other-sample-datasets

數據集共3千萬條數據（4.2G），壓縮包內包含一張設備信息表和一張設備感測器信息記錄表，表結構以及分區方式如下：

readings數據集