维普重复率检测

2024-09-12

维普重复率检测（共3篇）

1.维普重复率检测篇一

关于对2011年上半年答辩的博士、硕士学位论文

进行重复率问题检测的通知

新农大学位办通知[2011]3号

各相关学院：

为保证我校研究生培养质量，端正学术学风，防止学术不端行为，我办仍对所有参加答辩的博士、硕士学位论文进行重复率问题检测。现就有关事项通知如下：

1.进行重复率问题检测的学位论文word电子版命名规则为：“作者姓名_学号_论文题目.doc”或者“作者姓名-学号-论文题目.doc”。

论文电子版请只保留封面、摘要、目录、正文和参考文献，将独创性声明页、课题支撑、致谢和个人简介等页全部去除。

请一定使用word自带的自动生成目录的功能完成论文的目录，以方便检测（这样系统会自动按章进行检测，比较准确，否则系统无法分辨章节，会按照字数分为段落，致使检测结果不易读解）。

2.导师应责成学生对存在问题论文的重复部分认真进行比对，确实有问题的要对学生进行严肃的批评教育并监督学生重新修改。修改后的论文须重新提交进行一次检测，由此产生的费用由研究生或导师承担。

3.是否已通过重复率问题检测是答辩前资格审查的项目之

一。检测不达标或未参加检测的，需延期三个月答辩。

4.试行的相关标准及要求：

（1）总复制比在25%以下（博士论文20%以下），且文章中后部分的文字复制比在15%以下（博士论文10%以下），中英文摘要、结论部分文字复制比在5%以下的，视为合格。

（2）总复制比在25%至50%之间（博士论文20%-45%），且文章中后部分的文字复制比在25%以下（博士论文20%以下），中英文摘要、结论部分文字复制比在5%以下的，需在规定的时间内修改论文，并重新参加一次检测。

（3）总复制比超过50%（博士论文45%）的，由导师决定：要么让研究生在答辩前规定的时间内对论文进行重大修改，导师审阅通过后再重新提交进行一次检测，合格后参加答辩；要么不参加本次答辩，让研究生对论文进行认真修改，参加下一次的答辩。

5.因系统分配的检测有限额，故重新进行检测的次数均为一次，一般不进行超限额检测，其他未尽事宜，请与学位办联系，电话8762488。

二〇一一年三月二十四日

2.维普重复率检测篇二

一、系统功能比较

对于常见的文件格式.doc/.pdf/.txt, 四个系统都支持上传, 知网和维普支持.zip和.rar压缩包格式文件上传。在操作方式上, 四个系统都支持单篇检测和批量检测功能, 对于批量检测功能, 知网:上传论文一步;万方:创建任务、添加论文和开始检测三步;维普:提交论文、确认检测文档和开始检测三步;大雅:任务名、选择文件和上传三步。知网系统的操作方式最简单直接, 而维普系统的操作是最慢的。

二、指标体系比较

知网:复制比 (总复制比、去除引用文献检测结果复制比、去除本人文献检测结果复制比) 、总检测指标 (重合字数、总字数、总段落数、疑似段落数、前部重合字数、后部重合字数) 、子检测指标 (重合字数、小段落数、大段落数、最大段长、平均段长、前部重合度、后部重合度) 、相似片段分布;维普:相似比 (总相似比、自写率、复写率、引用率) , 相似片断 (包括:期刊库片断、硕博库片断、互联网片断、高校特色片断、自建库片断) , 字数 (包括:总字数、重复字数、总章节数、疑似章节数) ;万方:相似比 (总相似比、参考文献相似比、排除参考文献相似比) , 相似片段分布;大雅:相似度 (总相似度、过滤参考文献后相似度) 、重复字数和过滤参考文献后的重复字数, 相似片段分布。在实际操作中, 高校论文管理机构最关注的指标是“去除本人文献检测结果复制比”和“相似片段分布”, 其中“去除本人文献检测结果复制比”只有知网系统有, 而维普系统缺乏相似片段分布图。因此, 从指标体系看, 知网的指标体系最详细, 指标维度最多, 也最符合实际需求。

三、多篇论文检测结果比较

我们从2015年毕业的研究生学位论文中挑选出20篇学位论文, 分别在四个系统中进行了检测, 20篇学位论文的检测平均复制比, 知网系统18.94%, 维普系统18.8%, 万方系统4.64%, 大雅系统2.91%。从比较结果可以看出, 知网和维普的检测复制比较高、性能较优, 而万方和大雅的检测复制比都比较低、性能较差。其中检测性能较好的知网系统和维普系统, 两者结果相似的论文数是6个占2.31%, 知网比维普复制比多的论文数量和维普比知网复制比多的论文数量相同。可见, 这两个系统的检测结果各有侧重, 性能相当。

四、单篇论文检测结果比较

我们选取了一篇项目管理专业的研究生学位论文《雇佣关系模式与组织认同、工作绩效关系研究》 (以下简称”学位论文A”) 在四个系统上分别检测, 同时下载检测报告进行分析比较。从论文检测速度上看, 大雅速度最快只用5s时间, 维普速度最慢使用200s时间, 如果大批量论文检测以维普系统的检测速度肯定无法完成。从论文检测结果上看, 同一篇论文四个系统的复制比, 知网和维普的结果接近检测复制比高, 性能优;万方和大雅的检测复制比低, 性能差。我们对检测报告进行了详细分析, 发现学位论文A跟一篇公开收录的学位论文B有较大的相似性, 但就这两篇学位论文的对比结果, 对四个系统的检测报告进行分析, 得出“跟最相似文献的重复率对比”的指标, 从跟最相似文献的重复率对比上看, 结果从高到低分别是:知网、万方、大雅、维普, 知网和万方的结果较接近, 性能较优。从章节分析能力看, 同样排版的学位论文, 只有维普系统正确区分出论文章节, 知网和万方按照自己标准分段, 而大雅系统没有进行任何分段, 章节分析能力上维普系统最优。从报告长度和内容上看, 知网和维普系统的检测报告都多达六十多页, 比较详细;但万方和大雅只有十页左右, 太简单。

五、结语

本文对国内主流的四个学位论文相似性检测系统———知网系统、万方系统、维普系统、大雅系统进行了分析与比较, 从各方面比较结果看, 知网系统的优势是期刊和论文数据库非常全面、检测结果比较准确, 缺点是章节分析能力不佳;万方系统的优势是研究生论文数据库全, 缺点是期刊数据库太少、检测结果不准;维普系统的优势是章节分析能力好, 缺点是检测技术速度太慢, 相似性统计数据不准;大雅系统的优势是电子图书数据库全, 缺点是论文和期刊数据库太少、检测结果不准。综合比较而言, 每个系统都有待改进的地方, 但知网系统的性能最优、综合性能最佳。

参考文献

[1]张旻浩, 高国龙, 钱俊龙.国内外学术不端文献检测系统平台的比较研究[J].中国科技期刊研究, 2011, 4:514~521

[2]孔媛媛, 王昆, 徐小龙.高校研究生学术道德和学术规范工作的制度建设和措施[J].教育教学论坛, 2014, 50:271~272

[3]李志明.知网、万方、维普论文相似性检测系统比较研究[J].大学图书情报学刊, 2015, 1:61~64

3.维普重复率检测篇三

引言

随着互联网的发展，网络上的文本信息越来越容易复制，由此产生了大量的重复网页和镜像文档，这一方面增加了网络爬虫的负担，另一方面降低了用户体验。因此，越来越多的学者关注重复网页检测这一领域。

对于重复网页可以定义为内容完全重复和近似重复，对于完全重复的网页可以计算其MD5值，通过比较网页问MD5值是否相等即可作出判断。因此，本文只讨论近似重复网页的检测。大量重复网页的产生基本上是通过用户，如一些新闻文章、热门事件及经典文章等，也就是说一般重复网页改动比较小，如加入引文信息、插入广告导航等。

本文把相似网页的比较转换成二元分类问题，即两张网页相似标记为+1(相似)，否则标记为-1(小相似)。SVM(Support Vector Machine)算法在文本分类中取得了较好的效果。因此，本文采用SVM算法对每对网页分类，通过训练数据的学习得到分类判别函数，由判别函数对新的数据进行计算。

1相关研究

目前，对重复网页检测问题已经提出了很多解决方案:有基于字符串比较的方法，即按小同粒度提取指纹，有基于词频统计的方法，还有基于聚类的方法等。

Border提出将文本中连续的n个term序列作为文本的一个特征，称之为二shingleo M-Theobald等人提出的SpotSig算法，以停用词作为先行词，提取其后的k个词形成一个个特征，使用Jaccard计算相似度。

哈工大张刚等人把句号作为一个提取位置，分别在句号两边L/2长的词串构成网页的一个特征。清华大学吴平博等人提取每个句子中首尾字符作为特征串。彭渊等人提出将两篇文档的最长公共子序列(LCS)作为特征码。

2算法实现过程

2. 1特征码提取

网页通常由以下几部分组成:标题、正文内容、链接和广告等。正文是原始网页中真正描述主题的部分。本文采用通用网页正文抽取算法州提取网页的正文内容，网页中其余部分当作噪音过滤掉。

从长段落中提取特征码，可以减少一些次要特征，使计算更简洁。长段落定义:段落的长度要大于设定的阈值或以句号、问号、感叹号分割得到的句子数大于设定的阈值。

提取出长段落后，以逗号、句号、感叹号和问号分割得到每个句子，提取每个句子首尾各L/2个字作为特征码;把各个特征码按序组成特征串，该特征串代表了该篇文档。

2. 2相似度计算

在比较特征串差异性的基础上得到网页的相似度。目前，比较文本之问差异算法主要有两大类:一类是基于最短编辑距离算法;一类是基于最长公共子串算法。最短编辑距离算法是以字符串八变成另一个字符串B的过程中，通过插入字符、删除字符、替换字符等操作的次数表示两个字符串的差异，数值越小字符串的差异越小算法表示字符串八和字符串B的.最长公共子串长度，数值越大字符串的差异越小。

通用的做法是根据以上计算出的相似度数值，作一些规范化处理后与阈值比较。但是在现实中阈值的设定往往是依靠经验来设置的，因此很难设定准确，这样就有误差。本文采用了监督学习算法，通过学习得到的判别函数来判断文档是否相似，避免了人为设定阈值带来的风险。

2. 3支持向量机(SVM )

2. 3. 1 SVM简介

支持向量机是一种二元分类模型，它的基本模型是定义在特征空间上的问隔最大的线性分类器。在重复网页检测应用中，我们把每对网页中计算出的特征定义如过程中，通过插入字符、删除字符、替换字符等操作的次数表示两个字符串的差异，数值越小字符串的差异越小算法表示字符串八和字符串B的最长公共子串长度，数值越大字符串的差异越小。

2. 3. 2操作流程

SVM在重复网页检测应用中的大致流程，主要分为训练阶段和测试阶段。训练阶段主要从预先给定的数据集中学习并建立分类器，得到判别函数。因此，训练数据的好坏对于分类器的性能至关重要。测试阶段用来分类未知结果的数据集，可以判断出文档集中与输入文档重复的文档，即把文档集中每个文档与输入的文档使用判别函数计算

2. 4算法描述

本文算法大致分为3大步:提取特征串、衡量指标和构造分类器。

3结语

【维普重复率检测】推荐阅读：

重复作文11-19