如何在Python中实现余弦相似度 – CodesCode

余弦相似性是一种必不可少的工具，具有广泛的应用，从简化大型数据集中的搜索到理解自然语言

余弦相似度有几个实际应用，并且通过使用嵌入向量，我们可以以编程方式比较实际意义。Python是数据科学中最流行的语言之一，并且提供了各种库来轻松计算余弦相似度。在本文中，我们将讨论如何使用Scikit-Learn和NumPy库在Python中实现余弦相似度。

什么是余弦相似度？

余弦相似度是n维空间中两个非零向量之间的相似度度量。它在各种应用中被用于文本分析和推荐系统，以确定两个向量在向量空间中的方向上的相似度。

余弦相似度公式

计算两个向量A和B之间的余弦相似度使用以下公式：

余弦相似度(A, B) = (A · B) / (||A|| * ||B||)

在这个公式中，A · B代表向量A和B的点积。这是通过将两个向量的相应分量相乘并将结果求和来计算的。||A||代表向量A的欧氏范数（大小），它是其分量平方和的平方根。它的计算公式为||A|| = √(A₁² + A₂² + … + Aₙ²)。||B||代表向量B的欧氏范数（大小），以与||A||相同的方式计算。

如何计算余弦相似度

要计算余弦相似度，首先完成两个向量的点积计算。然后，将其除以它们的模的乘积。结果值将在-1到1的范围内，其中：

如果余弦相似度为1，则表示向量具有相同的方向，完全相似。
如果余弦相似度为0，则表示向量彼此垂直，没有相似性。
如果余弦相似度为-1，则表示向量具有相反的方向，完全不相似。

在文本分析中，余弦相似度用于测量文档向量之间的相似度，其中每个文档在高维空间中表示为一个向量，每个维度对应于语料库中的一个术语或单词。通过计算文档向量之间的余弦相似度，可以确定两个文档在彼此之间的相似度或不相似度。

计算余弦相似度的库

NumPy：非常适合数值操作，并且经过了优化，速度很快。
scikit-learn：提供各种机器学习算法，并在其度量包中包含余弦相似度的方法。

以下是一些示例，展示了如何使用Python计算余弦相似度。我们将使用我们现在熟悉的两个书评向量[5,3,4]和[4,2,4]。

纯Python

虽然我们之前是手动计算的，但计算机当然也可以做到！以下是使用纯Python计算余弦相似度的方法，不需要额外的库：

A = [5, 3, 4]B = [4, 2, 4]# 计算点积dot_product = sum(a*b for a, b in zip(A, B))# 计算每个向量的模magnitude_A = sum(a*a for a in A)**0.5magnitude_B = sum(b*b for b in B)**0.5# 计算余弦相似度cosine_similarity = dot_product / (magnitude_A * magnitude_B)print(f"使用标准Python计算的余弦相似度：{cosine_similarity}")

NumPy

嵌入向量通常具有许多维度-上百个、上千个，甚至更多！使用NumPy，可以使用数组操作来计算余弦相似度，这些操作经过了高度优化。

import numpy as npA = np.array([5, 3, 4])B = np.array([4, 2, 4])dot_product = np.dot(A, B)magnitude_A = np.linalg.norm(A)magnitude_B = np.linalg.norm(B)cosine_similarity = dot_product / (magnitude_A * magnitude_B)print(f"使用NumPy计算的余弦相似度：{cosine_similarity}")

</br

Scikit-Learn

Scikit-Learn的 cosine_similarity 函数使得计算高度优化的余弦相似度操作变得更加容易：

from sklearn.metrics.pairwise import cosine_similarityA = np.array([[5, 3, 4]])B = np.array([[4, 2, 4]])cosine_similarity_result = cosine_similarity(A, B)print(f"Cosine Similarity using scikit-learn: {cosine_similarity_result[0][0]}")