數據量較大，特徵較複雜時如何聚類?

做了個草圖，如data1和2的feature1到5相同，data1和5的feature1，2，5相同，根據所有data特徵的相似程度聚類，希望通過聚類找到實際業務中需要解決的那一類數據（從單條數據難以定位出來，所以考慮聚類能否解決問題）。且實際需要解決的數據量較大，特徵也比較複雜，多為字元串或列表（特徵數量在幾十個，特徵大部分無需考慮語義，只需考慮兩條數據的特徵是否相同即可）。

想請各位指點的問題1.此類問題（數據量較大）是否應以聚類解決，以何種演算法比較合適；2.對於字元串列表等特徵應如何處理然後用於演算法

小白初次提問，希望各位大佬多多指教，如果認為問題描述不夠清楚，我也會及時補充