会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
热词
    • 8. 发明申请
    • Web forum crawler
    • 网页论坛抓取工具
    • US20070208703A1
    • 2007-09-06
    • US11368261
    • 2006-03-03
    • Bin ShiGu XuWei-Ying Ma
    • Bin ShiGu XuWei-Ying Ma
    • G06F17/30
    • G06F17/30864Y10S707/99934Y10S707/99936
    • A crawling system crawls a web site initially in a pattern detection phase and subsequently in a pattern usage phase. The pattern detection phase attempts to identify patterns of references to pages that contain informational content of interest and patterns of references to pages that contain little informational content of interest. During the pattern usage phase, the crawling system crawls the web site. When the crawling system encounters a reference contained on an accessed page, the crawling system determines whether the reference matches a reference pattern. If the reference matches a reference pattern associated with pages that contain informational content of interest, the crawling system accesses the referenced page. If, however, the reference matches a reference pattern of pages with little informational content, then the crawling system discards that reference without accessing the referenced page.
    • 爬行系统首先在模式检测阶段中抓取网站,然后在模式使用阶段中。 模式检测阶段尝试识别对包含感兴趣的信息内容的页面的引用模式,以及对包含很少的感兴趣的信息内容的页面的引用模式。 在模式使用阶段,爬网系统抓取网站。 当爬网系统遇到访问页面上的引用时,爬网系统会确定引用是否与引用模式匹配。 如果引用匹配与包含感兴趣的信息内容的页面相关联的引用模式,则爬行系统访问所引用的页面。 但是,如果引用匹配具有少量信息内容的页面的引用模式,则爬行系统将丢弃该引用而不访问引用的页面。