专利智能全文检索系统是888集团电子游戏具有自主知识产权的智能全文检索引擎系统。他接纳了自然语言处置惩罚与智能检索手艺,实现了却构化与非结构化数据的统一治理、实时动态索引、中文字词混淆索引、漫衍式与负载平衡和快速返回效果等,可知足海量专利和非专利文献重大检索需求的智能全文检索引擎系统。
主要特点
1) 全方位检索手段:提供了多达40多种检索运算符。包括外部特征与文本内容的种种逻辑组合检索、位置检索、二次检索(检索历史引用)、词根检索、巨细写敏感检索。
2) 多种检索入口:属性字段检索(如分类检索)、要害词检索、位置检索(犹如段检索)、多字段“与或非”组合检索、二次检索(渐进检索)、巨细写敏感检索、中文简繁体扩展检索、支持超长检索表达式等。
3) 知识扩展检索:检索时能够应用同义辞书、反义辞书和主题辞书举行自动或函数式的扩展检索。
4) 基于本钱优化的盘问算法:高效的索引压缩手艺、SKIP索引跳跃式扫描手艺、多库并行检索手艺、表达式优化手艺、效果共享手艺、CACHE手艺。CACHE手艺支持更多的并发用户会见,大大提高了综合盘问速率。
5) 支持对检索效果的种种排序:检索效果与检索词的相关度排序;基于字段的排序;后进先出的快速排序。同时对多库检索效果可以举行混排。LIFO(后进先出的快速排序)对现实运行系统的性能提高有很着述用。TOP N排序可通过效果纪录数的镌汰以镌汰检索历史的存储来提高检索速率。
6) 支持检索效果的分类统计,支持用正则表达式来筛选分类统计的目的字段值,并支持抽取部分子串组成新的种别。
7) 支持短语级别(INCLUDE函数)和词级别(LIKE函数)的“相似性”检索,INCLUDE函数支持CHAR字段的运算。支持英文的同根词检索。在没有词根索引的情形下,也能检索与输入的词具有相同词根的其它词。支持拼写组合的检索,允许基于“毗连规则”、“扫除规则”与“选择规则”的三种拼写组合。
8) 支持基于BIT字段的虚拟逻辑字段的检索,并支持着实体字段之间的逻辑关系与排序加权。
9) 实现 “同字段”的限制运算,支持重大条件下的检索需求。
TRS Image Retrieval System (TRS IRS) 是由888集团电子游戏推出的新一代图像检索系统,实现了图像数据的有用治理,提供基于内容的图像检索功效,实现基于颜色、纹理、形状、结构、图元等底层特征的图像检索,同时团结SQL检索,实现了元数据和图像数据的统一治理,团结了古板基于文本检索和现在基于内容检索的优势:
1) 高智能性:多种特征自由组合,适用差别场景;
2) 高掷中率:一次检索规模内90%相同相似图像泛起在效果集的前15%中;
3) 大数据量:单台检索引擎可装载亿级的图像数据;
4) 并行盘算:具有并行盘算能力,充分使用多核CPU资源;
5) 易扩展性:具有易扩展的系统架构设计,可知足大数据量及用户的处置惩罚
6) 快速响应:99%的检索请求都可以在2秒内完成;
给定检索图像,最理想的检索效果是知足要求的比照设计在所有图像中与检索图像的相似度最高,可是由于图像属性的重大性,这种理想的效果往往不可实现,因此,准确性主要反应在比照设计泛起在相似度排序的位置占所有图像的比例。权衡该比例有两个因素,一个是平均值,另一个是方差。平均值反应排序的精度,方差反应差别检索图像的检索精度的稳固性。另外,由于用户可以对部分检索效果举行正负样本标定,系统可以凭证标定效果举行重排序,重排序后是否能够对系统性能带来改善也是准确性的指标之一。现在,系统可以包管90%的比照文件泛起在检索效果的前15%。
盘算机在执行检索,现实上就是图像特征相似度的盘算。因此图像特征能否准确表征图像,就成为影响图像检索准确性的要害。TRS IRS拥有完善的特征算法库,包括:
1) 颜色特征可以形貌图像的颜色组成及其漫衍,在所有的特征中具有最优的鲁棒性;
2) 纹理特征反应图像中同质征象的视觉特征,与物体的位置,走向尺寸和形状有关;
3) 形状特征以图像中物体或区域的外轮廓为基础,知足对旋转和缩放的无关性;
4) 结构特征反应的是图像的轮廓漫衍情形,与轮廓中填充的颜色无关;
5) 图元特征是一种基于图像支解头脑的图像形貌算法。颜色、纹理、形状、结构特征属于图像的全局特征,基于图像的整体来形貌图像,无法知足图像局部细节检索的要求,图元特征则能很好的解决这一问题。
6) 语义特征由图像的语义标签天生,也就是以要害词作为语义特征,它可以充分使用古板的图像检索系统的标注信息;
7) 深度特征是基于深度卷积神经网络(CNN)训练出来的特征,由于CNN具有优异的跨域特征(或通用性),从预训练的CNN提取的特征可以被普遍应用到各个领域的种种数据集;诰砘窬绲纳疃妊盎竦玫奶卣鞑坏岢至艘欢ǖ奈裙绦,并且还包括了更多的高层语义信息,可以有用地缩小底层特征与高层语义之间的鸿沟。
TRS深度文本挖掘软件是基于深度神经网络手艺的新一代文本挖掘软件,集成了开源深度神经网络框架TensorFlow,通过对行业大数据的深度学习,实现自动分类、语义相似度盘算、文本摘要、自动校对、辞书挖掘等功效的优化。
DL-CKM使用的深度模子包括卷积神经网络(CNN)、是非时影象网络(LSTM)、词嵌入(Word Embedding)、循环神经网络(RNN)等。
主要特点
1) 融合了自然语言处置惩罚、机械学习、数据挖掘、深度神经网络等手艺,并一连追踪最新的前沿手艺,一直更新产品。
2) 富厚的语言学知识,包括分词辞书、多行业主题词辞书、语义辞书、多语翻译辞书等多种辞书。
3) 完整的文本挖掘功效?椋喊ㄎ奶熘袄唷⑽谋揪劾唷⑽谋菊⑾嗨莆谋炯焖鳌⑿畔⒊槿 ⒂镆骞叵党槿 ⑶樾髌饰觥⒅悄芪蚀稹⒒敌挛判醋鳌⑷让欧⒚鳌⑽闹质侗稹⑵匆艏焖鳌⑾喙囟逃锛焖鳌ⅲㄕ治)知识校对 、数据比对、高速串匹配、跨语言盘问翻译、语义辞书挖掘、新闻短问题天生等功效。
4) 高效的文本处置惩罚速率:对大都功效?槎,单文本挖掘效劳器平均能抵达每秒几百条文本的处置惩罚能力。
5) 支持Kubernetes集群,提供docker安排,包管集群以高可用的、可伸缩和容错的方法举行安排和运行。
6) 提供国产化介质,支持Intel、NV、热潮和龙芯等差别系统结构的国产化硬件情形。
TRS企业搜索应用适配器(TRS Search Adapter)软件是一款由TRS自主设计研发,具有强盛数据集成能力的数据集成平台。TRS Search Adapter能资助企业修正数据质量、搜集大都据源、转换数据形态,提升数据的使用价值。
主要特点
降低本钱
1) 统一数据处置惩罚框架顺应恣意数据处置惩罚需求
2) 强盛的数据处置惩罚能力
提高效率
1) 基于图形化的数据流程界说
2) 支持多线程数据处置惩罚
扩展性高
1) 可扩展远程执行引擎实现多机安排
2) 插件式数据处置惩罚节点可以顺应多种数据集成配景
专利智能全文检索系统是888集团电子游戏具有自主知识产权的智能全文检索引擎系统。他接纳了自然语言处置惩罚与智能检索手艺,实现了却构化与非结构化数据的统一治理、实时动态索引、中文字词混淆索引、漫衍式与负载平衡和快速返回效果等,可知足海量专利和非专利文献重大检索需求的智能全文检索引擎系统。
主要特点
1) 全方位检索手段:提供了多达40多种检索运算符。包括外部特征与文本内容的种种逻辑组合检索、位置检索、二次检索(检索历史引用)、词根检索、巨细写敏感检索。
2) 多种检索入口:属性字段检索(如分类检索)、要害词检索、位置检索(犹如段检索)、多字段“与或非”组合检索、二次检索(渐进检索)、巨细写敏感检索、中文简繁体扩展检索、支持超长检索表达式等。
3) 知识扩展检索:检索时能够应用同义辞书、反义辞书和主题辞书举行自动或函数式的扩展检索。
4) 基于本钱优化的盘问算法:高效的索引压缩手艺、SKIP索引跳跃式扫描手艺、多库并行检索手艺、表达式优化手艺、效果共享手艺、CACHE手艺。CACHE手艺支持更多的并发用户会见,大大提高了综合盘问速率。
5) 支持对检索效果的种种排序:检索效果与检索词的相关度排序;基于字段的排序;后进先出的快速排序。同时对多库检索效果可以举行混排。LIFO(后进先出的快速排序)对现实运行系统的性能提高有很着述用。TOP N排序可通过效果纪录数的镌汰以镌汰检索历史的存储来提高检索速率。
6) 支持检索效果的分类统计,支持用正则表达式来筛选分类统计的目的字段值,并支持抽取部分子串组成新的种别。
7) 支持短语级别(INCLUDE函数)和词级别(LIKE函数)的“相似性”检索,INCLUDE函数支持CHAR字段的运算。支持英文的同根词检索。在没有词根索引的情形下,也能检索与输入的词具有相同词根的其它词。支持拼写组合的检索,允许基于“毗连规则”、“扫除规则”与“选择规则”的三种拼写组合。
8) 支持基于BIT字段的虚拟逻辑字段的检索,并支持着实体字段之间的逻辑关系与排序加权。
9) 实现 “同字段”的限制运算,支持重大条件下的检索需求。
TRS Image Retrieval System (TRS IRS) 是由888集团电子游戏推出的新一代图像检索系统,实现了图像数据的有用治理,提供基于内容的图像检索功效,实现基于颜色、纹理、形状、结构、图元等底层特征的图像检索,同时团结SQL检索,实现了元数据和图像数据的统一治理,团结了古板基于文本检索和现在基于内容检索的优势:
1) 高智能性:多种特征自由组合,适用差别场景;
2) 高掷中率:一次检索规模内90%相同相似图像泛起在效果集的前15%中;
3) 大数据量:单台检索引擎可装载亿级的图像数据;
4) 并行盘算:具有并行盘算能力,充分使用多核CPU资源;
5) 易扩展性:具有易扩展的系统架构设计,可知足大数据量及用户的处置惩罚
6) 快速响应:99%的检索请求都可以在2秒内完成;
给定检索图像,最理想的检索效果是知足要求的比照设计在所有图像中与检索图像的相似度最高,可是由于图像属性的重大性,这种理想的效果往往不可实现,因此,准确性主要反应在比照设计泛起在相似度排序的位置占所有图像的比例。权衡该比例有两个因素,一个是平均值,另一个是方差。平均值反应排序的精度,方差反应差别检索图像的检索精度的稳固性。另外,由于用户可以对部分检索效果举行正负样本标定,系统可以凭证标定效果举行重排序,重排序后是否能够对系统性能带来改善也是准确性的指标之一。现在,系统可以包管90%的比照文件泛起在检索效果的前15%。
盘算机在执行检索,现实上就是图像特征相似度的盘算。因此图像特征能否准确表征图像,就成为影响图像检索准确性的要害。TRS IRS拥有完善的特征算法库,包括:
1) 颜色特征可以形貌图像的颜色组成及其漫衍,在所有的特征中具有最优的鲁棒性;
2) 纹理特征反应图像中同质征象的视觉特征,与物体的位置,走向尺寸和形状有关;
3) 形状特征以图像中物体或区域的外轮廓为基础,知足对旋转和缩放的无关性;
4) 结构特征反应的是图像的轮廓漫衍情形,与轮廓中填充的颜色无关;
5) 图元特征是一种基于图像支解头脑的图像形貌算法。颜色、纹理、形状、结构特征属于图像的全局特征,基于图像的整体来形貌图像,无法知足图像局部细节检索的要求,图元特征则能很好的解决这一问题。
6) 语义特征由图像的语义标签天生,也就是以要害词作为语义特征,它可以充分使用古板的图像检索系统的标注信息;
7) 深度特征是基于深度卷积神经网络(CNN)训练出来的特征,由于CNN具有优异的跨域特征(或通用性),从预训练的CNN提取的特征可以被普遍应用到各个领域的种种数据集;诰砘窬绲纳疃妊盎竦玫奶卣鞑坏岢至艘欢ǖ奈裙绦,并且还包括了更多的高层语义信息,可以有用地缩小底层特征与高层语义之间的鸿沟。
TRS深度文本挖掘软件是基于深度神经网络手艺的新一代文本挖掘软件,集成了开源深度神经网络框架TensorFlow,通过对行业大数据的深度学习,实现自动分类、语义相似度盘算、文本摘要、自动校对、辞书挖掘等功效的优化。
DL-CKM使用的深度模子包括卷积神经网络(CNN)、是非时影象网络(LSTM)、词嵌入(Word Embedding)、循环神经网络(RNN)等。
主要特点
1) 融合了自然语言处置惩罚、机械学习、数据挖掘、深度神经网络等手艺,并一连追踪最新的前沿手艺,一直更新产品。
2) 富厚的语言学知识,包括分词辞书、多行业主题词辞书、语义辞书、多语翻译辞书等多种辞书。
3) 完整的文本挖掘功效?椋喊ㄎ奶熘袄唷⑽谋揪劾唷⑽谋菊⑾嗨莆谋炯焖鳌⑿畔⒊槿 ⒂镆骞叵党槿 ⑶樾髌饰觥⒅悄芪蚀稹⒒敌挛判醋鳌⑷让欧⒚鳌⑽闹质侗稹⑵匆艏焖鳌⑾喙囟逃锛焖鳌ⅲㄕ治)知识校对 、数据比对、高速串匹配、跨语言盘问翻译、语义辞书挖掘、新闻短问题天生等功效。
4) 高效的文本处置惩罚速率:对大都功效?槎,单文本挖掘效劳器平均能抵达每秒几百条文本的处置惩罚能力。
5) 支持Kubernetes集群,提供docker安排,包管集群以高可用的、可伸缩和容错的方法举行安排和运行。
6) 提供国产化介质,支持Intel、NV、热潮和龙芯等差别系统结构的国产化硬件情形。
TRS企业搜索应用适配器(TRS Search Adapter)软件是一款由TRS自主设计研发,具有强盛数据集成能力的数据集成平台。TRS Search Adapter能资助企业修正数据质量、搜集大都据源、转换数据形态,提升数据的使用价值。
主要特点
降低本钱
1) 统一数据处置惩罚框架顺应恣意数据处置惩罚需求
2) 强盛的数据处置惩罚能力
提高效率
1) 基于图形化的数据流程界说
2) 支持多线程数据处置惩罚
扩展性高
1) 可扩展远程执行引擎实现多机安排
2) 插件式数据处置惩罚节点可以顺应多种数据集成配景
TRS检索引擎作为S系统的发念头,提供专利种种数据的索引和检索效劳,包括专利分类号、通告日、申请人、设计人等结构化数据的元数据检索,以及专利名称、摘要、权力要求书、说明书等非结构化数据的全文检索。
搜索引擎功效实现了91个索引库、23.1亿条索引纪录、超20T的数据量,日均会见量2500万次,总请求平均响应时间低于60毫秒,纪录读取平均响应时间低于50毫秒。
特点:
支持跨语言检索
支持数值规模检索
提供盘问和统计剖析功效
支持文本搜索,支持机械附图搜索
支持要害词检索,支持语义检索
现在,已经处置惩罚了近大几百万件适用新型申请。其中有10%左右的申请被判断为保存高相似度(四五星)文献,高相似度文献识别的准确率基本是100%。
发明机检报告系统也已经上线,累计已处置惩罚发明申请几百万万件(含历史申请),其中有凌驾10%以上的申请被判断为四五级,即确定为剽窃。四五级识别的准确率基本是100%。
时间 | 申请件数(万件) | 四五星文献检出量(件) | 四五星文献检出率 |
2013 | 83 | 72464 | 8.7% |
2014 | 101 | 48147 | 4.8% |
2015 | 109 | 121993 | 11% |
2016 | 138 | 247962 | 17% |
2017 | 157 | 118115 | 7.5% |
2018.1~11 | 198 | 275844 | 13.8% |
机检报告系统为专利审查事情提供了强有力的智能支持,降低审查开销,增进审查资源的有用使用,切实推动专利审查质量的提升。
D系统基于盘算机图形图像识别与检索手艺,依据一定的规则通过对外观设计专利的图形图像举行自动识别和基本判断,快速做出相同/相近似的起源判断,准确过滤无价值的设计,将有价值的检出工具框定在最小规模内,使审查员对检索系统检出的有限数目工具举行相同/相近似的人工判断。
外观设计专利数据具有数据量大,数据类型重大、图像没有统一标准等特征,因此在外观设计专利数据上举行图像检索有很大的手艺难度。D系统二期虽具备图形检索的功效,但保存检索效率慢、检索规模受限和检索效果欠佳等问题。
888集团电子游戏经由多年的研究实践,实现前沿的图形比对和图像检索手艺,通过基于图形内容的检索,知足了审查用户对检索效率和准确率需求;团结审查员检索报告的汇总、剖析和总结,形成了新的检索模式进而提高检索效率;并集成同近义词扩展、跨语言扩展等辅助手艺,进一步提升了检索体验。现在图像检索系统的D系统三期,支持包括中国、美国、日本、韩国、德国、WIPO、中国香港、中国澳门、中国台湾等十多个国家、组织和地区的外观设计专利数据检索。
图像检索系统中在库专利文献数凌驾900万件,视图数目在4500万幅以上,数据容量达5T以上,实现了“90%的图形检索使命都在5秒内完成检索响应”的性能指标,逾越了“90%以上的比照文件泛起在检索效果的前15%”的准确率指标。
DI Inspiro充分借鉴了海内外著名信息检索系统的先进功效,并且针对海内用户的使用习惯举行了改良性设计。具有数据周全可靠、功效专业、检索效率高、用户界面友好等特点,是企事业单位研发工程师、专利治理职员和专利咨询师等相关职员举行手艺调研、竞争性剖析和执法危害预警的有力工具。
DI Inspiro提供了快捷检索、表格检索、号单检索、可视化检索、化学结构检索和生物序列检索等多种检索方法。别的,DI Inspiro还配备了功效强盛的辅助盘问工具,可实现IPC、专利权人、同义词、国别代码、省市代码、号码等字段的扩展检索。用户可以对检索效果举行导出、珍藏、统计筛选和在线剖析,还可以对检索战略和效果在线自建数据库导航树,实现生涯和预警。
系统主要提供如下效劳:
近似检索:在申请商标前,检索被申请商标是否有相同近似,阻止申请人的时间和经济损失;
综合检索:用户检索商标的基本信息及其他营业信息;
状态检索:检索商标的营业流程;
通告检索:检索通告信息;
过失反。喝羰欠⒚魃瘫晷畔⒂形,可以通过填写反响单,商标局举行核实后会举行更正。
商标网上检索自动化系统提供五种检索效劳及过失信息反响功效,检索效劳包括:商标近似检索、商标综合信息检索、商标状态检索、商标通告检索和商品/效劳项目检索。
商标网上检索系统将接纳国产化、自主化为主的可扩展、动态设置手艺蹊径。
专利导航剖析系统实现了专利信息资源整合,依据规则粗加工和自动标引,从工业生长偏向、都会工业定位、工业生长路径三个维度提供决议参考。专利导航剖析系统主要由数据交流系统、智能辅助标引系统和导航剖析系统组成。
数据交流系统通过WEB Service接口按期从国家平台获取中外文专利题录文摘数据,同时挪用智能辅助标引系统获取手艺分支,凭证泉源EXCEL历史标引数据标引手艺分支,以及提取都会、发明人等导航剖析要害属性后,写入宣布剖析库,完成数据交流。
智能辅助标引系统在基于规则(检索表达式),完成手艺分支标引;
导航剖析系统基于现有专利数据剖析,剖析维度为手艺分支表、IPC分类、都会、申请人等相关属性。
导航剖析分为工业生长偏向、都会工业定位、工业生长路径三大?。每个?橄阜治舾勺悠饰,划分天生图表及表格。用户可以对响应的剖析举行单项及多项下载操作。