文本去重工具使用教程:excel删不掉的重复,用它!

基于中文分词的智能去重工具,能识别因词序变化、包含关系、虚词/标点干扰造成的近似重复,提供灵活的去重选项(保留最短/最长、过滤虚词/标点等)

不只检查「完全一样」的行,还能:

  • 按"词序":词一样、顺序不一样
  • 按"包含":或一句包含另一句
  • 长得差不多:字不一样,但是意思差不多(去掉虚词后)
  • 抗干扰:两行一样,只是多了一些标点符号

效果展示

若手文本工具箱文本去重功能演示.png


逻辑

智能文本去重工具:每行当作一条文本,先分词(中文用 jieba),再比「词」是否一样。词完全相同、顺序不同 → 可判为重复;勾选「包含关系检测」后,一句是另一句的「子集」也能判重复。去重后保留一条(可选保留最短或最长),结果可保存,还会生成重复分析报告。


界面

  • 顶部 — 去重设置

    一排选项:分词时去除重复词汇保留最短文本(否则保留最长)虚词过滤标点符号过滤包含关系检测 右边四个按钮:清空导入文件开始去重保存结果

  • 左侧 — 输入文本(每行一个) 每行一条,直接输入或粘贴,或点 导入文件 选 txt。

  • 右侧 — 去重结果 开始去重 后,保留下来的行会出现在这里。

  • 底部 统计:原始行数、有效行数、重复行数、去重后行数、去重率。


选项(按需勾)

  • 分词时去除重复词汇:比如「苹果苹果香蕉」分词后只保留「苹果香蕉」再参与比较,建议勾上。

  • 保留最短文本:勾上则重复时保留最短的那条;不勾保留最长的。

  • 虚词过滤:过滤「的、了、在、和」等虚词后再比,这样「若手软件专注于效率提升」和「若手软件专注效率提升」可以判成重复。不影响「的士」「大地」这类实词里的字。

  • 标点符号过滤:去掉标点再比,「若手-软件」和「若手软件」可判重复。

  • 包含关系检测:一句里的词完全被另一句包含(或反过来)时也算重复,例如「若手软件」和「若手软件专注效率提升」。数据量很大(如超过 5000 行)时可能较慢,会弹窗提示。


3 步完成去重

1. 把内容放进左边 每行一条,输入或粘贴,或 导入文件

2. 勾好选项 一般可勾:分词时去除重复词汇、虚词过滤、标点符号过滤。需要识别「谁包含谁」时再勾包含关系检测;想留短句就勾保留最短文本。

3. 点「开始去重」 点绿色 开始去重,等一会右边出结果,底部会显示去重率和行数。弹窗会提示「去重完成」。要留底就 保存结果(会生成一个去重结果文件 + 一个「_分析.txt」重复分析)。


使用场景

  • 名单、关键词、每行一条的文案去重

  • 同一句话换顺序、换标点、多几个「的」「了」——都能识别成重复

  • 两句意思一样一句更短:用「保留最短」只留短的那句

  • 导出后看「_分析.txt」知道哪些被归为同一组重复


TIPS

  • 大文件(上万行)建议先试一小段,确认选项效果再全量跑。勾了「包含关系检测」且行数很多时,工具会提醒可能较慢。

  • 保存时若提示文件被占用,先关闭正在打开该文件的程序。