标书查重分成三个大项,元数据、目录、正文(包括文字和图片)。
先不设计查重逻辑,我们先来设计前端展示效果,要有简洁清爽,符合用户使用习惯,先mock假数据。
元数据
目录
正文
仿照“技术方案”中的样式和功能,实现“标书查重”页面,页面布局是我给你的草图,可以上传招标文件和投标文件,招标文件只能上传一份,投标文件可以上传多份,上传后先不做任何处理,因为上传的文件可以删除,用户要删除了就白处理了,此页面就是上传文件的页面,处理我们放到下一步中。 使用说明部分内容如下,设计较美观的样式:
从元数据、目录、正文、图片四个维度筛查重复项:
- 同设备、同用户、同一个WPS账号、时间相近等问题,一秒锁定。
- 可选上传招标文件,多份投标文件都引用了招标文件中的内容,不算重复
- 图片给予哈希校验,只能识别同一张图片,截图、压缩等相似图片筛不出来
我们分步骤开发元数据、目录、正文、图片四个子模块。 先来开发元数据:
现在开发目录部分查重,在元数据提取完成后自动开始目录查重分析。 关于文档中目录的提取,你有好的方案吗
接下来开发正文和图片比对,也是用程序进行比对,不用调AI接口,正文和图片可以并发执行要求如下:
上面用紧凑的布局显示所有投标文件,并用ABC英文字母给每份投标文件编号。 下面是重复句子的列表(没有重复的不显示),然后后面显示有该句子的投标文件编号。 重复句子可能很多,要加分页。
显示效果和正文差不多,下面显示的是图片而不是句子。