会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
热词
    • 17. 发明申请
    • Detecting duplicate and near-duplicate files
    • 检测重复和近似重复的文件
    • US20080044016A1
    • 2008-02-21
    • US11499260
    • 2006-08-04
    • Monika H. Henzinger
    • Monika H. Henzinger
    • H04N7/167
    • G06F17/3089G06F17/2211
    • Near-duplicate documents may be identified by processing an accepted set of documents to determine a first set of near-duplicate documents using a first technique, and processing the first set to determine a second set of near-duplicate documents using a second technique. The first technique might be token order dependent, and the second technique might be order independent. The first technique might be token frequency independent, and the second technique might be frequency dependent. The first technique might determine whether two documents are near-duplicates using representations based on a subset of the words or tokens of the documents, and the second technique might determine whether two documents are near-duplicates using representations based on all of the words or tokens of the documents. The first technique might use set intersection to determine whether or not documents are near-duplicates, and the second technique might use random projections to determine whether or not documents are near-duplicates.
    • 可以通过处理接受的一组文档来确定近似重复的文档,以使用第一技术来确定第一组近似重复的文档,并且使用第二技术来处理第一组以确定第二组近似重复的文档。 第一种技术可能取决于令牌顺序,第二种技术可能是独立的。 第一种技术可能是令牌频率无关,第二种技术可能是频率依赖性的。 第一种技术可以基于文档的单词或令牌的子集来确定两个文档是否是近似重复的,并且第二种技术可以使用基于所有单词或令牌的表示来确定两个文档是否是近似重复的 的文件。 第一种技术可能使用集合交集来确定文档是否是近似重复的,第二种技术可能使用随机投影来确定文档是否是重复的。