- 按"包含":或一句包含另一句
- 长得差不多:字不一样,但是意思差不多(去掉虚词后)
- 抗干扰:两行一样,只是多了一些标点符号
效果展示

逻辑
智能文本去重工具:每行当作一条文本,先分词(中文用 jieba),再比「词」是否一样。词完全相同、顺序不同 → 可判为重复;勾选「包含关系检测」后,一句是另一句的「子集」也能判重复。去重后保留一条(可选保留最短或最长),结果可保存,还会生成重复分析报告。
界面
顶部 — 去重设置
一排选项:分词时去除重复词汇、保留最短文本(否则保留最长)、虚词过滤、标点符号过滤、包含关系检测。 右边四个按钮:清空、导入文件、开始去重、保存结果。
左侧 — 输入文本(每行一个) 每行一条,直接输入或粘贴,或点 导入文件 选 txt。
右侧 — 去重结果 点 开始去重 后,保留下来的行会出现在这里。
底部 统计:原始行数、有效行数、重复行数、去重后行数、去重率。
选项(按需勾)
分词时去除重复词汇:比如「苹果苹果香蕉」分词后只保留「苹果香蕉」再参与比较,建议勾上。
保留最短文本:勾上则重复时保留最短的那条;不勾保留最长的。
虚词过滤:过滤「的、了、在、和」等虚词后再比,这样「若手软件专注于效率提升」和「若手软件专注效率提升」可以判成重复。不影响「的士」「大地」这类实词里的字。
标点符号过滤:去掉标点再比,「若手-软件」和「若手软件」可判重复。
包含关系检测:一句里的词完全被另一句包含(或反过来)时也算重复,例如「若手软件」和「若手软件专注效率提升」。数据量很大(如超过 5000 行)时可能较慢,会弹窗提示。
3 步完成去重
1. 把内容放进左边 每行一条,输入或粘贴,或 导入文件。
2. 勾好选项 一般可勾:分词时去除重复词汇、虚词过滤、标点符号过滤。需要识别「谁包含谁」时再勾包含关系检测;想留短句就勾保留最短文本。
3. 点「开始去重」 点绿色 开始去重,等一会右边出结果,底部会显示去重率和行数。弹窗会提示「去重完成」。要留底就 保存结果(会生成一个去重结果文件 + 一个「_分析.txt」重复分析)。
使用场景
名单、关键词、每行一条的文案去重
同一句话换顺序、换标点、多几个「的」「了」——都能识别成重复
两句意思一样一句更短:用「保留最短」只留短的那句
导出后看「_分析.txt」知道哪些被归为同一组重复
TIPS
大文件(上万行)建议先试一小段,确认选项效果再全量跑。勾了「包含关系检测」且行数很多时,工具会提醒可能较慢。