基本信息:
- 专利标题: TEXT SAMPLE ENTRY GROUP FORMULATION
- 专利标题(中):文本采样入组组态
- 申请号:PCT/US2014062309 申请日:2014-10-27
- 公开(公告)号:WO2015065859A2 公开(公告)日:2015-05-07
- 发明人: PETCULESCU CRISTIAN , DUMITRU MARIUS , PARASCHIV VASILE , NETZ AMIR , SANDERS PAUL JONATHON
- 申请人: MICROSOFT CORP
- 专利权人: MICROSOFT CORP
- 当前专利权人: MICROSOFT CORP
- 优先权: US201314066505 2013-10-29
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
Storing text samples in a manner that the text samples may be quickly searched. The text samples are assigned a text sample identifier and are each parsed to thereby extract text components from the text samples. Text components that have the same content are assigned the same text component identifier. For each parsed text component, a text component entry is created that includes the assigned text component identifier as well as the text sample identifier for the text sample from which the text component was parsed. A text sample entry group is created for each text sample that contains the text component entries in sequence for the text components found within the text sample. The text sample entry groups are stored so as to be scannable during a future search.
摘要(中):
以可以快速搜索文本样本的方式存储文本样本。 为文本样本分配一个文本样本标识符,并分别对其进行解析,从而从文本样本中提取文本组件。 具有相同内容的文本组件被分配相同的文本组件标识符。 对于每个已解析的文本组件,将创建一个文本组件条目,其中包含分配的文本组件标识符以及从中分析文本组件的文本样本的文本样本标识符。 为每个文本样本创建文本样本条目组,其中包含文本样本中找到的文本组件的文本组件条目。 存储文本样本条目组,以便在将来搜索期间可扫描。
IPC结构图谱:
G | 物理 |
--G06 | 计算;推算;计数 |
----G06F | 电数字数据处理 |
------G06F17/00 | 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法 |
--------G06F17/30 | .信息检索;及其数据库结构 |