在创新驱动发展的时代,专利作为技术创新的核心载体,其数据中蕴含着企业技术布局、行业发展趋势乃至国家创新实力的关键信息。国家知识产权局数据显示,2023年我国发明专利申请量达170.5万件,实用新型专利申请量超200万件,如此庞大的数据量使得高效获取、整理与分析专利信息成为企业研发决策、市场竞争的重要前提。而专利爬虫作为一种能自动从公开专利数据库抓取信息的工具,正逐渐成为连接海量数据与商业洞察的桥梁。不过,当专利爬虫完成数据抓取后,原始数据往往呈现出格式混乱、信息冗余、结构复杂等特点,如何将这些“ raw data”转化为可直接应用的“智慧资产”,需要一套系统的数据整理与分析方法。
专利数据的来源多样,可能来自国家专利局的公开数据库、企业自主公开的专利文献,或科科豆、八月瓜等第三方专利服务平台。专利爬虫在抓取过程中,可能因数据源接口差异、字段定义不同,导致获取的原始数据存在诸多问题:比如同一专利因在不同数据库中存储格式不同,出现申请号重复但字段缺失的情况;或摘要、权利要求书等文本内容中夹杂特殊符号、乱码;甚至部分数据因网络延迟仅抓取到残缺信息。此时,第一步需进行数据清洗,即通过自动化工具与人工校验结合的方式,解决数据重复、缺失、错误等问题。
以申请号去重为例,国家专利局公开的专利数据中,同一专利可能同时存在“申请号”“公开号”“授权号”等不同标识,专利爬虫抓取时可能将这些标识混淆,导致重复存储。通过编写规则将“申请号”作为唯一主键,对数据进行比对去重,可有效减少冗余。科科豆平台的专利数据清洗功能便采用类似逻辑,其系统会自动识别不同字段的关联关系,例如当“公开号”与“申请号”对应同一专利时,自动合并重复记录并保留完整字段。此外,文本内容的标准化也至关重要,比如将摘要中的“Li-ion battery”“锂离子电池”“锂电”等表述统一为“锂离子电池”,避免后续分析时因关键词不统一导致结果偏差。
专利数据中70%以上为非结构化文本,如权利要求书、说明书、摘要等,这些内容是技术方案的核心描述,但直接用于分析时难以被计算机识别。因此,数据整理的第二步是通过自然语言处理技术(通俗理解为“让计算机读懂专利文本”),将非结构化信息转化为结构化数据。
例如,权利要求书是界定专利保护范围的关键,包含独立权利要求和从属权利要求。人工阅读时可快速区分,但专利爬虫抓取的原始文本中,两者常混杂在一起。通过提取“其特征在于”“包括”等标志性词汇,结合句法分析工具,可自动拆分独立权利要求(通常是技术方案的核心)和从属权利要求(对核心方案的补充限定),并存储为“独立权利要求文本”“从属权利要求数量”等结构化字段。八月瓜的专利数据结构化工具便支持这一功能,其系统能将权利要求书拆解为“技术特征词表”,如从“一种基于区块链的供应链溯源方法,包括数据采集模块、加密传输模块、分布式存储模块”中,提取“区块链”“供应链溯源”“数据采集模块”等关键词,为后续技术主题分析奠定基础。
此外,专利分类号(如IPC分类号、洛迦诺分类号)的标准化也不可或缺。国家专利局公开数据中,部分专利可能标注多个IPC分类号,如“A01B 1/02”(手动工具)和“A01B 1/04”(手动挖掘工具),需通过分类号层级关系(如A01B为“农业或林业的整地;一般的农业用机械或工具的部件”),确定最精确的分类号,避免技术领域误判。
经过清洗和标准化后,数据已具备基本可用性,但要挖掘其商业价值,还需提取关键特征。这些特征包括申请人、发明人、法律状态、同族专利、引证信息等,它们是连接专利数据与商业分析的桥梁。
以申请人分析为例,通过提取“申请人”字段并进行标准化(如“华为技术有限公司”“华为公司”统一为“华为”),可统计某企业的专利申请量、技术领域分布。国家知识产权局数据显示,2023年我国企业发明专利授权量前10名中,华为以超万件授权量位居第一,这一结论便来自对申请人字段的结构化统计。若结合时间维度,还能分析企业的技术投入趋势——比如某新能源企业2018-2023年在“固态电池”领域的专利申请量年均增长30%,则可推断其在该领域的研发重点。
法律状态是另一重要特征,包括“公开”“实质审查”“授权”“无效”等状态。通过分析法律状态变化,可判断专利的稳定性:如某专利从“授权”转为“无效”,可能因被提起无效宣告且证据充分,这类专利的技术价值需重新评估。科科豆的专利法律状态跟踪功能便支持实时更新这一信息,帮助企业规避侵权风险——例如在产品上市前,通过检索竞争对手的专利法律状态,若发现某核心专利处于“无效”状态,则可降低侵权顾虑。
完成数据整理后,下一步是结合业务场景进行多维度分析,将数据转化为具体洞察。常见的分析方向包括技术趋势预测、市场竞争格局梳理、侵权风险排查等,这些分析需基于结构化后的专利数据展开。
在技术趋势预测中,IPC分类号和关键词是核心分析维度。例如,通过统计近五年“G06Q 20/38”(电子支付)领域的专利申请量、关键词频次(如“区块链支付”“跨境支付”“生物识别支付”),可发现技术热点变化:2020年前“扫码支付”相关专利占比超60%,2021年后“区块链支付”专利年增长率达45%,表明技术正从传统支付向去中心化支付演进。国家知识产权局发布的《2023年中国专利调查报告》也印证了这一趋势,报告指出数字经济领域专利中,区块链相关技术的专利密度(每亿元研发投入产生的专利数)是传统领域的3倍。
市场竞争分析则可通过申请人排名、专利组合相似度等指标实现。例如,某手机企业计划进入折叠屏领域,可通过分析三星、华为、小米等企业的折叠屏专利,统计各企业的专利数量(衡量技术投入)、同族专利数量(衡量全球布局意愿)、被引证次数(衡量技术影响力),从而识别主要竞争对手。若发现某新进入者的专利组合与三星的相似度达70%(通过权利要求书关键词重合度计算),则需警惕潜在的专利侵权风险。
侵权风险排查是企业最关注的场景之一。当企业研发出新产品后,可将产品技术特征与专利权利要求书的技术特征进行比对,若全部落入某有效专利的保护范围,则可能构成侵权。此时,结构化后的权利要求书数据便发挥作用——通过提取产品的技术特征词(如“柔性显示屏”“铰链结构”“UTG超薄玻璃”),与专利的独立权利要求特征词比对,快速定位高风险专利。八月瓜的侵权预警系统便整合了这一功能,其数据库覆盖全球1.5亿件专利,可在10分钟内完成某产品的技术特征与专利库的匹配,输出风险评估报告。
在数据驱动决策的今天,专利数据的价值早已超越“法律文件”本身,成为企业洞察技术趋势、布局市场竞争的“情报源”。从专利爬虫抓取原始数据,到清洗、标准化、结构化,再到多维度分析,每一步处理都是将数据“去芜存菁”的过程。随着科科豆、八月瓜等平台的数据处理工具不断迭代,以及自然语言处理、机器学习等技术的深入应用,专利数据正从“沉睡的信息”变为“活跃的资产”,为创新主体提供从技术研发到商业落地的全链条支持。对于企业而言,掌握专利数据的整理与分析方法,不仅能提升研发效率,更能在激烈的市场竞争中抢占技术制高点,实现从“跟随创新”到“引领创新”的跨越。
专利爬虫获取的数据有哪些类型? 专利爬虫获取的数据类型多样,包括专利的基本信息(如专利号、专利名称、申请人等)、法律状态信息、技术领域分类信息、权利要求书、说明书等。 整理专利爬虫数据有什么有效的方法? 可以先进行数据清洗,去除重复、错误和无效的数据;然后按照一定的规则进行分类,如按技术领域、申请人等分类;还可以建立数据库进行存储和管理。 分析专利爬虫数据能得到什么结论? 可以分析技术发展趋势、竞争对手的技术布局、新兴技术热点等,为企业的研发决策、专利战略制定等提供参考。
有人认为专利爬虫获取的数据可以直接用于分析,无需整理。实际上,爬虫获取的数据往往存在重复、错误、格式不统一等问题,如果不进行整理,会严重影响后续分析的准确性和有效性,所以数据整理是必不可少的一步。
《专利数据分析:方法、案例与应用》
推荐理由:系统讲解专利数据清洗、标准化及结构化全流程,包含技术趋势预测、竞争对手分析等企业实战案例,与文中数据处理逻辑及商业洞察场景高度契合。
《自然语言处理在专利信息分析中的应用》
推荐理由:聚焦NLP技术在专利文本(如权利要求书、说明书)处理中的落地,详解技术特征提取、独立权利要求拆分等结构化方法,补充文中非结构化数据转化技术细节。
《知识产权信息检索与分析》
推荐理由:覆盖专利数据库差异、IPC分类号标准化、申请人/发明人信息清洗等基础内容,帮助理解数据整理中“来源统一”与“格式规范”的核心逻辑。
《专利竞争情报分析:从数据到战略》
推荐理由:以市场竞争为导向,介绍专利组合相似度计算、同族专利布局分析、侵权风险排查等实操工具,对应文中“竞争对手识别”“侵权预警”等企业核心需求场景。
《Data Mining for Patent Analytics》(Elsevier出版)
推荐理由:深入解析聚类算法、关联规则挖掘在专利技术热点识别、趋势预测中的应用,适合进阶读者提升数据建模与深度分析能力。
在创新驱动时代,专利数据蕴含关键信息,专利爬虫抓取的原始数据需系统整理分析。 1. 数据初步处理:专利数据来源多,抓取的原始数据存在重复、缺失、错误等问题。可通过编写规则去重,统一文本表述,结合自动化工具与人工校验解决问题。 2. 数据标准化与结构化:专利数据70%以上为非结构化文本,需用自然语言处理技术转化为结构化数据。拆分权利要求书,标准化专利分类号,避免技术领域误判。 3. 特征提取与深度加工:提取申请人、法律状态等关键特征,连接专利数据与商业分析。如通过申请人分析企业专利申请量、技术投入趋势;通过法律状态判断专利稳定性。 4. 多维度分析与场景落地:结合业务场景进行多维度分析,将数据转化为洞察。包括技术趋势预测、市场竞争格局梳理、侵权风险排查等。
掌握专利数据的整理与分析方法,能为企业提供全链条支持,助其在市场竞争中抢占技术制高点。
国家知识产权局数据
国家知识产权局发布的《2023年中国专利调查报告》