news 2026/1/24 15:29:21

基于Google Patents Public Data的专利分析实战指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于Google Patents Public Data的专利分析实战指南

基于Google Patents Public Data的专利分析实战指南

【免费下载链接】patents-public-dataPatent analysis using the Google Patents Public Datasets on BigQuery项目地址: https://gitcode.com/gh_mirrors/pa/patents-public-data

Google Patents Public Data项目是一个基于BigQuery的强大专利分析平台,整合了来自政府机构、研究组织和私营公司的专利数据,为研究人员、数据分析师和企业提供了进行专利统计分析和深度挖掘的完整解决方案。

项目核心价值与应用场景

该项目为专利数据分析提供了三个核心功能模块:

专利景观分析(Patent Landscaping)- 通过机器学习方法自动发现与特定主题相关的专利,帮助企业快速构建特定技术领域的专利地图。

权利要求文本提取(Claim Text Extraction)- 提供与专利权利要求数据直接交互的能力,便于分析专利的核心保护范围。

权利要求广度模型(Claim Breadth Model)- 基于机器学习的专利价值评估工具,通过分析权利要求数据来估计专利的保护范围广度。

该流程图清晰地展示了专利主题分析的完整工作流程,从数据读取到模型训练,再到结果优化的全过程。

环境配置与项目部署

系统要求与依赖安装

项目支持Linux、Windows 10和MacOS系统,推荐使用Anaconda进行环境管理:

conda create -n patent-landscape python=3.6 conda activate patent-landscape

核心依赖包安装

# 安装TensorFlow和Keras pip install tensorflow conda install keras # 安装Google Cloud相关组件 pip install google-cloud google-cloud-storage google-api-python-client pandas-gbq # 安装科学计算和数据可视化库 conda install numpy pandas h5py scipy scikit-learn matplotlib seaborn

Google Cloud SDK配置

安装Google Cloud SDK并完成身份验证:

gcloud auth application-default login

实战操作:专利景观分析

获取项目代码

git clone https://gitcode.com/gh_mirrors/pa/patents-public-data cd patents-public-data

启动分析环境

export KERAS_BACKEND=tensorflow jupyter notebook

然后打开models/landscaping/LandscapeNotebook.ipynb文件开始专利景观分析。

权利要求广度模型应用

预处理数据管道

运行预处理管道生成训练数据:

export OUTPUT_PATH="$BUCKET/training-data/" python preprocess.py \ --output_path=$OUTPUT_PATH \ --project=$GCP_PROJECT \ --runner=DataflowRunner \ --pipeline_mode=train \ --query_kep_pct=0.6 \ --cpc_code_list='D,E,F,G,H'

模型训练与优化

进行本地训练验证:

gcloud ml-engine local train \ --package-path trainer \ --module-name trainer.task \ --job-dir './test' \ -- --train-files $GCS_TRAIN_FILES \ --eval-files $GCS_EVAL_FILES \ --cpc-embedding-vocab-file $CPC_EMBEDDING_VOCAB_FILE \ --train-steps 100 \ --train-batch-size=10 \ --eval-batch-size=10

高级功能与最佳实践

超参数调优

进行模型参数优化(注意可能产生费用):

export JOB_NAME=tuning_$(date +"%s") export GCS_JOB_DIR="$BUCKET/hptuning/$JOB_NAME" gcloud ml-engine jobs submit training $JOB_NAME \ --config hptuning_config.yaml \ --runtime-version 1.6 \ --job-dir $GCS_JOB_DIR \ --module-name trainer.task \ --package-path trainer/ \ --region us-central1 \ -- --train-steps 50000 \ --train-files $GCS_TRAIN_FILES \ --eval-files $GCS_EVAL_FILES \ --cpc-embedding-vocab-file $CPC_EMBEDDING_VOCAB_FILE

批量推理分析

使用训练好的模型进行批量预测:

export OUTPUT_PATH="$BUCKET/scored" export INPUT_FILE_PATTERN="$BUCKET/inference-data/*.tfrecord.gz" python ./batch_inference.py \ --model_version_str=$MODEL_VERSION_STR \ --input_file_pattern=$INPUT_FILE_PATTERN \ --output_path=$OUTPUT_PATH \ --num_workers=5 \ --project=$GCP_PROJECT \ --write_to_bigquery=True \ --output_dataset='sandbox' \ --output_table='claim_scores' \ --runner=DataflowRunner

技术要点与注意事项

性能优化策略

  • 合理设置数据处理批次大小
  • 利用BigQuery的分区和聚类功能
  • 实施缓存机制减少重复计算

成本控制建议

  • 设置计费预警和预算限制
  • 仅在必要时运行超参数调优
  • 及时清理不需要的存储数据

应用价值与商业意义

通过该平台,企业可以实现:

  • 技术趋势分析与预测
  • 竞争对手专利布局监控
  • 专利质量评估与投资决策
  • 研发方向规划与风险规避

该项目的完整工具链支持从基础查询到复杂机器学习应用的专利数据分析,为技术研究和商业分析提供强有力的数据支撑。

【免费下载链接】patents-public-dataPatent analysis using the Google Patents Public Datasets on BigQuery项目地址: https://gitcode.com/gh_mirrors/pa/patents-public-data

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/22 13:02:43

3分钟掌握Mermaid图表高清矢量图导出的终极方法

3分钟掌握Mermaid图表高清矢量图导出的终极方法 【免费下载链接】typora_plugin Typora plugin. feature enhancement tool | Typora 插件,功能增强工具 项目地址: https://gitcode.com/gh_mirrors/ty/typora_plugin 还在为技术文档中的图表导出质量发愁吗&a…

作者头像 李华
网站建设 2026/1/20 20:32:52

HTML5 Audio标签优雅播放IndexTTS 2.0生成结果

HTML5 Audio标签优雅播放IndexTTS 2.0生成结果 在短视频与虚拟人内容爆发式增长的今天,创作者们面临一个共同挑战:如何快速、精准地为画面配上富有情感且音色统一的语音?传统的配音方式依赖真人录制或通用TTS引擎,往往成本高、灵活…

作者头像 李华
网站建设 2026/1/19 18:59:02

Windows系统DLL文件修复终极指南:彻底解决应用程序依赖问题

Windows系统DLL文件修复终极指南:彻底解决应用程序依赖问题 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist DLL文件修复是Windows系统维护中的关键环…

作者头像 李华
网站建设 2026/1/20 18:35:39

Markdown浏览器插件快速配置与使用指南

Markdown浏览器插件快速配置与使用指南 【免费下载链接】markdown-viewer Markdown Viewer / Browser Extension 项目地址: https://gitcode.com/gh_mirrors/ma/markdown-viewer 还在为浏览Markdown文档而烦恼吗?这款功能强大的浏览器插件能让你直接在浏览器…

作者头像 李华
网站建设 2026/1/20 19:45:53

Chromedriver模拟用户操作测试TTS生成稳定性

Chromedriver 模拟用户操作测试 TTS 生成稳定性 在短视频、虚拟主播和有声书内容爆发的今天,语音合成(TTS)早已不再是“机械朗读”那么简单。用户期待的是个性化的音色、自然的情感表达,甚至能精准匹配画面节奏的配音——这些需求…

作者头像 李华
网站建设 2026/1/20 16:59:57

Win11Debloat深度体验:3分钟让你的Windows重获新生

你是否曾经打开新买的Windows电脑,却发现开始菜单里塞满了从未使用过的应用?系统运行越来越卡,C盘空间神秘消失,各种系统通知层出不穷?别担心,今天我要介绍的Win11Debloat工具,正是解决这些烦恼…

作者头像 李华