QQ在线咨询
销售咨询热线
028-85276549
18008045416
您好,欢迎您访问我们的网站,我们将竭诚为您服务!
中文 EN 服务热线:18227665503

行业动态

当前位置 / 首页 行业动态

专利文献中的技术和竞争情报的发掘(二)

发布时间:2020-08-18

专利数据: 

专利文件包含结构化和非结构化数据。1显示了专利文件的首页示例。第一页由严格构成的书目数据,无标题的书名和摘要组成。 专利文件中还包含对发明的描述,权利要求(专利的法律保护的简洁定义)和附图。在不同的专利组织之间,编号和公开的做法差异很大。但是,用于分析的基本属性可以在所有专利文件中找到,并且在某种程度上由不同的数据库生产者进行了标准化。1中介绍的专利申请是根据《专利合作条约》(PCT)发布的。专利文件中的字段均以国际编号标识。 

 

结构化数据:

  专利文件包含识别号。优先权数据(30)由分配给申请专利的第一个申请的优先权编号和相应的日期组成。受理后18个月内,该文档在发布时会提供一个出版物编号。 发布日期是指相应的日期。颁发专利权日期是专利被授予的日期,通常是在专利申请后35年,具体取决于各专利局。

  

  专利受让人或申请人(71)是拥有发明权利和专利申请权的组织或个人。合作开发的发明被分配给所有相关方。发明人(7275 )是开发了相关发明的研究人员。 

图片1.png 

  发明根据与之相关的技术进行分类。 最常用的是国际专利分类(IPC51)。许多专利组织已经创建了他们自己的分类系统,例如美国专利商标局(美国专利分类)和欧洲专利局(ECLA欧洲分类)。 一些数据库生产者还创建了自己的分类系统,以简化相关文档的搜索和分析。 

 

2.非结构化数据:

标题(54)和摘要(57)是以自然语言描述的发明。它们是非结构化的文本,它们的提供信息的方式在很大程度上取决于作者。»  

 

专利文献的分析工具:

  公开的专利文件总数为6000万。这还不包括从未获得专利的申请。 数量正在加速增长。» 手动查找和分析所有相关专利是不可能的。许多解决方案提供者已经认识到对专利分析和评估工具的需求。 新的解决方案不断地推向市场。包括用于读取和评估单个专利的工具(例如ScioSphereSTN ViewerPat ),以及用于分析专利文件集合的工具。 后一种类型的解决方案仍可以大致分为两类。 检索和制作专利文件基本统计信息的工具(例如LexisNexisQPatPat ),以及专利的可视化和渐进分析工具。 前者仅处理结构化形式的数据,而后者还分析非结构化文本数据。这些工具通过以下两种情况,评估了它们从公司日常业务相关的专利文件中提供技术和商业智能的能力。了解相关技术领域的最新水平对于公司的创新过程至关重要。对发达技术和产品的了解可以防止重叠的研发项目,从而避免不必要的投资。同样重要的是对在该领域活动的其他参与者的认可。对竞争对手的研发和市场策略进行基准测试和评估有助于管理自己的流程,并为合作或交叉许可找到可能的参与者。该分析以专利分析师的观点为基础,他对专利数据有基本的了解,但对数据挖掘技术或测试工具没有特殊的了解。 除了评估分析结果及其对技术和商业智能的价值外,还通过回答以下问题来比较其可用性:  

该工具易于使用吗?开始分析之前,是否需要大量阅读手册?»   

该工具支持哪种数据格式? 在使用该工具分析数据之前是否需要对数据进行处理?»   

该工具是否可以用于改进搜索,即通过排除由于搜索配置文件过大而进入的文档来集中结果?  

 

数据挖掘

      至今为止,各种文献中与处理专利相关数据有关的术语的使用非常混乱。术语“数据挖掘”,“专利挖掘”,“文本挖掘”和“可视化”用于处理专利文档,等等,不一而足。本文将尝试对术语进行一些解释,并解释为什么选择“数据挖掘”作为研究对象。定义“数据挖掘”一词的含义如下:“数据挖掘是对(通常是较大的)观测数据集的分析,以发现不可怀疑的关系,并以新颖的方式总结数据。 而对“文本挖掘”的定义:“文本挖掘可以广义地定义为一个知识密集型过程,在此过程中,用户可以使用一套分析工具随时间与文档集合进行交互。以类似于数据挖掘的方式,文本挖掘试图通过识别和探索有趣的模式来从数据源中提取有用的信息。 但是,在进行文本挖掘的情况下,数据源是文档集合,并且有趣的模式不在正式的数据库记录中找到,而是在这些集合中文档的非结构化文本数据中找到。聚类是将对象分组的过程。这是通过对对象进行分类来完成的。聚类和分类之间的区别在于,“在分类问题中,我们提供了一组预分类的训练示例,并且系统的任务是学习类别的描述,以便能够对新的未标记对象进行分类。在集群的情况下,问题是将给定的未标记集合分为没有任何先验信息的有意义的集群。视觉数据探索的概念是“视觉化”,“以某种视觉形式呈现数据,使人类能够深入了解数据,得出结论并直接与数据进行交互。”过去十年中可视化技术的发展使扩大低维数据的可视化成为可能,例如绘制年度属性的直方图,以创建高维文本数据的复杂可视化。»   专利文件包含结构化和非结构化数据。它们是“半结构化的”。专利的书目信息是结构化的,并遵循严格的格式。例如,它包含专利受让人和发明人的姓名,不同的标识符,例如优先权和公开号,年份和分类。非结构化数据是解释本发明和专利保护范围的文字,例如标题,摘要和声明。如果专利分析结果的可视化来自结构化的16个数据,则称为专利图;如果来自非结构化文本,则称为专利地图。从广义上讲,术语“地图”在两种情况下都经常使用。可视化对于低维和高维数据都是可能的,例如条形图和饼形图,用于结构化数据和专利态势,而地图,用于非结构化数据。首先根据最常见的单词术语对文本数据进行聚类,从而对文本数据进行分析。数据挖掘”一词是用于处理大量数据的高级术语,而“文本挖掘”是其子集,是指对非结构化数据的分析。»