标书查重分成三个大项,元数据、目录、正文(包括文字和图片)。 先不设计查重逻辑,我们先来设计前端展示效果,要有简洁清爽,符合用户使用习惯,先mock假数据。 **元数据** - 多份文件元数据内容可能不一致,有wps、有word,有doc、有docx,要交叉比对多份文件中可能重复的元数据 **目录** - 筛选出多份文件中完全一样的目录 **正文** - 正文按照句子拆分,交叉比对完全一样的句子,这里要设计忽略清单、批量忽略的功能,比如有些句子是摘抄自招标文件,多份投标文件可能都会摘抄投标文件中的相同内容 --- 仿照“技术方案”中的样式和功能,实现“标书查重”页面,页面布局是我给你的草图,可以上传招标文件和投标文件,招标文件只能上传一份,投标文件可以上传多份,上传后先不做任何处理,因为上传的文件可以删除,用户要删除了就白处理了,此页面就是上传文件的页面,处理我们放到下一步中。 使用说明部分内容如下,设计较美观的样式: ``` 从元数据、目录、正文、图片四个维度筛查重复项: - 同设备、同用户、同一个WPS账号、时间相近等问题,一秒锁定。 - 可选上传招标文件,多份投标文件都引用了招标文件中的内容,不算重复 - 图片给予哈希校验,只能识别同一张图片,截图、压缩等相似图片筛不出来 ``` --- # 元数据 我们分步骤开发元数据、目录、正文、图片四个子模块。 先来开发元数据: - 第一次从从step01跳转到02,即元数据是待分析和分析中状态时,并发执行文件内容提取和元数据提取,两条任务是并发的,但是两条并发内的多份文件是线性提取的。 - 对所有文件的正文内容进行提取 - 对投标文件的元数据提取(尽可能多的提取元数据)。 - 交叉对比多份投标文件的元数据,以表格的形式横向对比元数据,如果用户选择的文件过多,可以展示横向滚动条 - 对重复的元数据项标红 - 正文提取保留图片 # 目录 现在开发目录部分查重,在元数据提取完成后自动开始目录查重分析。 关于文档中目录的提取,你有好的方案吗 # 正文和图片 接下来开发正文和图片比对,也是用程序进行比对,不用调AI接口,正文和图片可以并发执行要求如下: ## 正文 ### 显示效果 上面用紧凑的布局显示所有投标文件,并用ABC英文字母给每份投标文件编号。 下面是重复句子的列表(没有重复的不显示),然后后面显示有该句子的投标文件编号。 重复句子可能很多,要加分页。 ### 比对方案 - 按句子比对 - 参考招标文件,投标文件中引用招标文件中的句子,不算重复 - 忽略掉图片 - 文件内容可能非常多,要设计优化算法,提升执行效率 ## 图片 ### 显示效果 显示效果和正文差不多,下面显示的是图片而不是句子。 ### 比对方案 - 比对图片hash值,筛选出同一张图片