通用教程
Overview
软件介绍
智能语义去重
- 字不一样、意思一样也能去重
- 词序不同:苹果香蕉 = 香蕉苹果
- 包含关系:旅游哪里好 ≈ 国内旅游哪里好
- 伪长尾、标点差异均可识别
智能分组
- 海量关键词自动分类,分组一键完成
- 关键词结构自动发现,助力用户需求挖掘
- 种子词手动分组,双模式分类更精细
- 多进程加速,数十万级关键词快速搞定
一站式文本处理
- 9 大工具:组合、分词、分组、对比、去重、排序、统计、相似度、DOC图片提取
- 文本对比 7 种模式:谁在谁里、谁独有、交集、并集、对称差
- 自定义顺序、数字部分、行反转特色排序
关键词组合
将多个关键词列表进行组合,适用于长尾关键词扩展、矩阵关键词生成、内容批量创作等场景
- 逻辑:每个列表的所有关键词拼接组合一次,组合条数 = 各列表长度相乘。
- 顺序组合:按列表先后拼接,如 [北京,上海] + [旅游,美食] → 北京旅游、北京美食、上海旅游、上海美食。
- 随机组合:每条内部词序随机打乱,组合条数不变,不固定谁前谁后。最多 4 个列表。

文本分词
对文本/关键词分词,统计词频和词性,适用于关键词分析、关键词分组(为分组提供种子词)等场景。
- 分词:jieba 分词、词性标注、词频统计。
- 不拆分词:将指定词「保护起来」视为整体,如品牌名、专有名词。
- 停用词:剔除「的、是、在、了」等无意义词,不参与词频。
- 过滤:最小字数(如设为 2 则过滤单字)、纯数字、纯字母、标点符号。
- 导出:txt 只有词,csv 含词频词性;种子词可导出/追加到分组工具。5 万行以上多进程。

文本分组
根据配置智能分组,或者根据种子词进行手动分组,适用于关键词分类、用户需求挖掘、内容整理、等场景

- 智能分组:无需种子词。 最小词频:出现 N 次以上的词才当分组用。
- 组合词数:2~3 个词作为分组依据(如 北京+公司、北京+公司+地址)。
- 分组最小词数:每组最少 N 个词,少于则归入「其他」。
- 相似度再分组:对「其他」启用二次分组,阈值越高越严格。
- 手动分组:种子词来自输入或分词导出;
- 只匹配第一个:每个关键词只分配一次;
- 匹配所有:可分配多次。支持十万级、数十万级关键词,多进程。
文本对比
对两份文本(A、B)按行对比,找出「谁在谁里」「谁独有」「共有」「全部」「对称差」等结果,适用于名单核对、版本差异、去重补全等场景
- 7 种模式:A 在 B 中(共同项)、A 不在 B 中(A 独有)、B 在 A 中、B 不在 A 中(B 独有)、交集(完全相同)、并集(合并去重)、对称差(两版差异)。
- 匹配:精确、部分、相似度。
- 可选项:去重、过滤空行、忽略大小写、长度过滤。

文本去重
针对字不一样、意思一样的去重(常规去重只能识别完全相同的字符串)。
支持:
- 词序不同(苹果香蕉 = 香蕉苹果)
- 包含关系(旅游哪里好 ≈ 国内旅游哪里好)
- 重复叠词(苹果苹果香蕉 → 苹果香蕉)
- 伪长尾(旅游的公司 = 旅游公司)
- 标点差异(若手 - 软件 = 若手软件)
保留:可选最短 / 最长(核心词 or 长尾词)。

文本排序
数据整理、内容排序
常规:字母、长度、数字(看行里第一个数字)正序/倒序。
特色:行反转(首行变末行)、自定义顺序(填 高,中,低 等,按从左到右排)、数字部分排序(行里所有数字拼成数再排,如 1苹2果3→123)、特殊字符排序(按特殊字符个数)。支持先去重后排序。

字数统计
篇幅评估、用词分析、编码检查。统计:字符、词、行、句、段及编码;字符频率、词频。

相似度计算
查重、改写对比、语义相近判断。两段文本算出一个 0~1 的相似度数值。
- 算法:余弦相似度(用词是否相近)、Jaccard(共有词占比)、Levenshtein 编辑距离(逐字对比,适合短句)。
- 与文本对比的区别:对比按行比对,关心谁多谁少、交并差;相似度关心「有多像、像到什么程度」。

DOC 图片批量提取
从 Word 文档(.docx / .doc)中批量提取嵌入的图片,保存到文档同名文件夹,不用一张张截图或右键另存为。
- 批量处理:拖拽导入文件或整个文件夹,多份文档一次提取,实时显示每个文件的处理状态。
- 命名规则:文件名顺序 / 纯数字顺序 / 图片原名 / 时间戳顺序,按需选择。
- 输出格式:Original(保持原图格式)/ PNG / JPEG / BMP,可统一转换。
- 双格式支持:.docx 直接提取;.doc 老格式需本机安装 Word,自动调用转换后提取。

Changelog
更新记录
展示最近几个版本的核心变更,更多历史版本可在文档中心查看。
2026-02-25 v1.2.0
重构软件界面,新增批量DOC提图功能
2026-02-04 v1.1.7
当前稳定版本。包含 8 大功能:智能语义去重、智能分组、关键词组合、关键词分词、文本对比、文本排序、文本统计、相似度计算。支持大文件多进程处理。
FAQ
常见问题
智能去重按词汇构成判断,词序不同也能识别。例如「关键词去重测试」「测试关键词去重」会被视为同一语义,只保留一条。普通去重只能识别完全相同的字符串。
智能分组模式无需种子词,自动根据分词和高频词组合分组。手动分组模式需要输入种子词,可选「只匹配第一个」或「匹配所有」。
分词 5 万行以上、分组支持十万级甚至数十万级关键词,均会启用多进程。去重适合 10 万行以内;更大文件建议分批。对比可设置行数限制避免卡顿。
依赖 jieba 分词结果。专业术语、新词若分词不一致,可能漏判。可添加自定义不拆分词列表,或检查分词结果。
主要针对中文。英文在分词、去重场景建议用空格分割。对比、排序、统计对中英文均适用。
关闭正在打开该文件的程序(如 Excel、记事本),或换其它路径保存。确保目标文件夹有写入权限。
Service
服务保障
💯 兼容性保证
若软件与用户电脑不兼容或无法正常使用,自购买之日起 24 小时内提供全额退款服务。
🛠️ 远程技术支持
提供 QQ 或向日葵远程服务,确保及时解决使用中的任何问题。
✨ 功能定制开发(免费 + 增值)
- 基础定制免费:高需求功能持续更新添加
- 深度开发服务:专业级需求提供付费解决方案
