数据量较大，特征较复杂时如何聚类?

做了个草图，如data1和2的feature1到5相同，data1和5的feature1，2，5相同，根据所有data特征的相似程度聚类，希望通过聚类找到实际业务中需要解决的那一类数据（从单条数据难以定位出来，所以考虑聚类能否解决问题）。且实际需要解决的数据量较大，特征也比较复杂，多为字元串或列表（特征数量在几十个，特征大部分无需考虑语义，只需考虑两条数据的特征是否相同即可）。

想请各位指点的问题1.此类问题（数据量较大）是否应以聚类解决，以何种演算法比较合适；2.对于字元串列表等特征应如何处理然后用于演算法

小白初次提问，希望各位大佬多多指教，如果认为问题描述不够清楚，我也会及时补充