相似度计算工具使用教程:3种常用算法,计算相似度

比较两段文字,算出0~1 的相似度。支持三种算法:余弦相似度(按词、侧重名词动词)、Jaccard(词集合交集/并集)、Levenshtein 编辑距离(改多少字能变成对方)

界面

上边两框,下边算法和结果
上方:输入文本
两个并排的框:文本框 1、文本框 2。
把要比的两段文字分别贴进去(或自己输入)。没有「导入文件」按钮,内容靠输入/粘贴。
下方:算法设置
下拉选一种算法:余弦相似度算法、Jaccard 相似度、Levenshtein 距离(编辑距离)。
选好后点 计算相似度。
计算结果
一条进度条 + 一个数值(0.0000~1.0000)。颜色会随相似度变(如高绿、低红)。
旁边 详细信息 里会写:用的哪个算法、相似度数值、文本 1/2 的字符数。
底部 状态栏,计算完会提示「计算完成!相似度:x.xxxx」。
若手文本工具箱字数统计功能演示.png

三种算法有啥区别?(选哪个)

  • 余弦相似度算法:按「词」来比,且会过滤只保留名词、动词等,适合看两段话「说的内容」像不像。中文会先分词。
  • Jaccard 相似度:把两段话各自拆成词集合,算「交集/并集」比例。词重叠越多,相似度越高。
  • Levenshtein 距离(编辑距离):看最少要「改多少字」能把一段变成另一段,再换算成 0~1。更偏「字面」像不像,长短差很多时数值可能偏低。
一般先试「余弦相似度」或「Jaccard」;想看「改几个字能一样」时用 Levenshtein。

3 步计算相似度

1. 两段文字放进两个框 文本框 1 放第一段,文本框 2 放第二段。
2. 选算法 在「算法设置」里选一种:余弦相似度 / Jaccard / Levenshtein。
3. 点「计算相似度」 点绿色 计算相似度,等几秒,看进度条和数值;详细信息里会写算法和长度。

使用场景

两版文案、两篇稿子像不像:给出一个具体数字
洗稿/抄袭粗判:相似度很高(如 >0.8)可再人工细看
同一主题不同写法:看内容相似度(余弦/Jaccard)或字面相似度(Levenshtein)

小提示

两段都为空或有一段为空时会提示「请输入两段文本」。
文本特别长时计算可能稍慢,状态栏会显示「正在计算...」。