确定大型数据集的余弦相似度
machine-learning 203
原文标题 :Determining cosine similarity for large datasets
我目前正在使用超过 250 万张图像的数据集,其中我使用图像本身作为相互比较,用于基于内容的推荐引擎。
我使用以下代码使用一些预先计算的嵌入来计算余弦相似度。
cosine_similarity = 1-pairwise_distances(embeddings, metric='cosine')
但是我的问题是,目前我估计需要大约 11,000GB 的内存来创建这个相似度矩阵;
是否有任何替代方法可以在我的数据集中的每个数据点之间获取相似性度量,或者是否有其他方法可以完成整个过程?