台湾 || 语言: 大陆简体港澳繁體台灣正體

如何度量兩個排序列表的相似性？

雪花臺灣 2019-06-21 05:56

在某些情況下，我們需要度量兩個排序列表的距離，或者說相似程度。比如，在信息檢索領域，我們可能需要計算在某個查詢條件下系統給出的文檔的排序列表與一個預先定義好的「完美」排序列表的接近程度。或者我們可能需要比較不同搜索引擎的結果。又或者，在推薦系統中，我們需要監控某次演算法迭代（A/B測試）中，新演算法針對某個用戶給出的推薦列表與舊演算法給出的推薦列表的差異程度，以便決定是否要觸發自動報警。

在信息檢索領域，我們常用MAP、MRR、NDCG來評估排序演算法的好壞，然而這些指標依賴人工標註的query與document的相關性檔位（relevance level）。當沒有此標註數據，或者我們要評估的排序列表跟相關性無關，並且我們剛好有一個待比較的基準列表時，該如何評估它們之間的距離呢？how to measure the similarity between two rank list?

定義這樣一個排序列表之間比較的指標，我們期待它能滿足以下幾個方面：

豐富度（Richness）

能夠支持元素加權、位置加權等
Support element weights, position weights, etc.

簡潔性（Simplicity）

易於理解
Be simple to understand

普適性（Generalization）

也能支持不考慮權重的情況
Collapse to a natural metric with no weights are present
Should behave similar to other approaches
Allows us to select a metric best suited to the problem

滿足距離定義的基本屬性（Satisfy Basic Properties）

Scale free, invariant under relabeling, triangle inequality...

排序列表距離度量大致可以分為兩大類方法: (1) 基於排序之間的相互關係（Ranked Correlation）；(2) 基於集合的度量（Set Based Measure）。

一、Rank Correlation

基於Rank correlation的距離度量方法本質上是量化任意兩個不同元素在兩個待比較的排序列表中的相對位置，例如，兩者保持相同順序的概率等。

1. 肯德爾等級相關係數（Kendall Tau）

我們可以用逆序對數量來量化兩個排序列表的不一致程度。

設 A 為一個有 n 個數字的有序集 (n>1)，其中所有數字各不相同。如果存在正整數 i, j 使得 1 ≤ i < j ≤ n 而且 A[i] > A[j]，則這個有序對稱為 A 的一個逆序對，也稱作逆序數。

逆序數有時候也叫做肯德爾等級相關係數。直接用逆序數來度量量列表之間的距離有個問題，就是不同長度的列表scale不一致。然而，多數情況下，我們希望用一個統一的量綱來度量列表距離。

圖1. Kendall Tau

au = P(C)-P(D)=frac{C}{N}-frac{D}{N}=frac{C-D}{N} — 圖1. Kendall Tau

相關文章