余弦相似度

  1. 1. 定义
  • 性质
    1. 1. 应用
    2. 2. 应用举例(文本相似度计算)
      1. 2.1. 算法
      2. 2.2.

  • 余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为-1到1之间。

    注意这上下界对任何维度的向量空间中都适用,而且余弦相似性最常用于高维正空间。例如在信息检索中,每个词项被赋予不同的维度,而一个维度由一个向量表示,其各个维度上的值对应于该词项在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。

    另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,会用到它来度量集群内部的凝聚力。 [1]

    定义

    两个向量间的余弦值可以通过使用欧几里得点积公式求出:

    image-20230203223601982

    给定两个属性向量,AB,其余弦相似性θ由点积和向量长度给出,如下所示:

    image-20230203223612400

    这里的 分别代表向量A和B的各分量。

    性质

    余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越接近;越趋近于-1,他们的方向越相反;接近于0,表示两个向量近乎于正交

    应用

    计算文本相似度

    应用举例(文本相似度计算)

    算法

    1. 分词
    2. 合并
    3. 计算特征值
    4. 向量化
    5. 计算向量夹角余弦值

    对于两段文本A和B,对其进行分词,得到两个词列表:

    对两个词列表进行合并去重,得到输入样本中的所有词:

    计算特征值:

    选取词频作为特征值

    向量化

    计算余弦值

    分词

    1
    2
    3
    A=[今天, 天气, 真好, 适合, 去, 逛街, 也, 适合, 晒太阳]
    B=[今天, 天气, 不错, 适合, 去, 玩, 也, 适合, 去, 晒太阳]
    C=[小明, 不, 喜欢, 和, 小, 红, 玩, 因为, 小明, 不, 喜欢, 太阳]

    合并并去重

    1
    [今天, 天气, 真好, 适合, 去, 逛街, 也, 晒太阳, 小明, 不, 喜欢, 和, 小, 红, 玩, 因为, 太阳, 不错]

    特征值(词频)计算

    1
    2
    3
    4
    5
    F(A) = [今天:1, 天气:1, 真好:1, 适合:2, 去:1, 逛街:1, 也:1, 晒太阳:1, 小明:0, 不:0, 喜欢:0, 和:0, 小:0, 红:0, 玩:0, 因为:0, 太阳:0, 不错:0]

    F(B) = [今天:1, 天气:1, 真好:0, 适合:2, 去:2, 逛街:0, 也:1, 晒太阳:1, 小明:0, 不:0, 喜欢:0, 和:0, 小:0, 红:0, 玩:1, 因为:0, 太阳:0, 不错:1]

    F(C) = [今天:1, 天气:1, 真好:0, 适合:2, 去:2, 逛街:0, 也:1, 晒太阳:1, 小明:2, 不:2, 喜欢:2, 和:1, 小:1, 红:1, 玩:2, 因为:1, 太阳:1, 不错:1]

    向量化

    计算余弦

    AB的夹角的余弦更趋近于1,所以相似度更高。