会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
热词
    • 9. 发明专利
    • 一種基於相似度比對的內容分析方法
    • 一种基于相似度比对的内容分析方法
    • TW201324199A
    • 2013-06-16
    • TW100145882
    • 2011-12-13
    • 中華電信股份有限公司CHUNGHWA TELECOM CO., LTD.
    • 謝秉諺張明哲徐克華張保忠
    • G06F17/27
    • 本發明係為一種基於相似度比對的內容分析方法,此方法針對一文件進行字詞正規化、停用字詞過濾等前處理之後,依主要之文件領域,以該領域之常用字詞建立預建字詞庫,以預建之中文字庫、中文詞庫以及英文字庫計算各字詞於文件中出現之次數,而未出現於預建字詞庫者則另行計算其出現次數,取出現次數較多者作為內文關鍵字詞。取得兩種相異來源之特徵後,依其重要性給予不同之權重,並按照給定之相似度公式,計算出其與其他文件間之相似度,若超過一指定門檻,即表示偵測到相似文件,遂歸於同類以協助文件分類工作。
    • 本发明系为一种基于相似度比对的内容分析方法,此方法针对一文档进行字词范式、停用字词过滤等前处理之后,依主要之文档领域,以该领域之常用字词创建预建字词库,以预建之中文本库、中文词库以及英文本库计算各字词于文档中出现之次数,而未出现于预建字词库者则另行计算其出现次数,取出现次数较多者作为内文关键字词。取得两种相异来源之特征后,依其重要性给予不同之权重,并按照给定之相似度公式,计算出其与其他文档间之相似度,若超过一指定门槛,即表示侦测到相似文档,遂归于同类以协助文档分类工作。