标书查重.md 3.1 KB

标书查重分成三个大项,元数据、目录、正文(包括文字和图片)。

先不设计查重逻辑,我们先来设计前端展示效果,要有简洁清爽,符合用户使用习惯,先mock假数据。

元数据

  • 多份文件元数据内容可能不一致,有wps、有word,有doc、有docx,要交叉比对多份文件中可能重复的元数据

目录

  • 筛选出多份文件中完全一样的目录

正文

  • 正文按照句子拆分,交叉比对完全一样的句子,这里要设计忽略清单、批量忽略的功能,比如有些句子是摘抄自招标文件,多份投标文件可能都会摘抄投标文件中的相同内容

仿照“技术方案”中的样式和功能,实现“标书查重”页面,页面布局是我给你的草图,可以上传招标文件和投标文件,招标文件只能上传一份,投标文件可以上传多份,上传后先不做任何处理,因为上传的文件可以删除,用户要删除了就白处理了,此页面就是上传文件的页面,处理我们放到下一步中。 使用说明部分内容如下,设计较美观的样式:

从元数据、目录、正文、图片四个维度筛查重复项:
- 同设备、同用户、同一个WPS账号、时间相近等问题,一秒锁定。
- 可选上传招标文件,多份投标文件都引用了招标文件中的内容,不算重复
- 图片给予哈希校验,只能识别同一张图片,截图、压缩等相似图片筛不出来

元数据

我们分步骤开发元数据、目录、正文、图片四个子模块。 先来开发元数据:

  • 第一次从从step01跳转到02,即元数据是待分析和分析中状态时,并发执行文件内容提取和元数据提取,两条任务是并发的,但是两条并发内的多份文件是线性提取的。
    • 对所有文件的正文内容进行提取
    • 对投标文件的元数据提取(尽可能多的提取元数据)。
  • 交叉对比多份投标文件的元数据,以表格的形式横向对比元数据,如果用户选择的文件过多,可以展示横向滚动条
  • 对重复的元数据项标红
  • 正文提取保留图片

目录

现在开发目录部分查重,在元数据提取完成后自动开始目录查重分析。 关于文档中目录的提取,你有好的方案吗

正文和图片

接下来开发正文和图片比对,也是用程序进行比对,不用调AI接口,正文和图片可以并发执行要求如下:

正文

显示效果

上面用紧凑的布局显示所有投标文件,并用ABC英文字母给每份投标文件编号。 下面是重复句子的列表(没有重复的不显示),然后后面显示有该句子的投标文件编号。 重复句子可能很多,要加分页。

比对方案

  • 按句子比对
  • 参考招标文件,投标文件中引用招标文件中的句子,不算重复
  • 忽略掉图片
  • 文件内容可能非常多,要设计优化算法,提升执行效率

图片

显示效果

显示效果和正文差不多,下面显示的是图片而不是句子。

比对方案

  • 比对图片hash值,筛选出同一张图片