news 2026/4/18 4:33:16

news-please:革命性新闻爬虫工具,一站式解决新闻信息提取难题

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
news-please:革命性新闻爬虫工具,一站式解决新闻信息提取难题

news-please:革命性新闻爬虫工具,一站式解决新闻信息提取难题

【免费下载链接】news-pleasenews-please - an integrated web crawler and information extractor for news that just works项目地址: https://gitcode.com/gh_mirrors/ne/news-please

news-please 是一款开源、易用的新闻爬虫工具,能够从几乎任何新闻网站提取结构化信息。它可以递归跟踪内部超链接并读取 RSS 源,以获取最新以及旧的存档文章。只需提供新闻网站的根 URL,即可完全爬取该网站。news-please 结合了多个最先进的库和工具的强大功能,如 scrapy、Newspaper 和 readability。

🌟 核心功能亮点

自动提取丰富新闻属性

news-please 能够从新闻文章中提取多种属性,包括标题、作者、发布日期、内容文本、描述、顶部图片等。提取的文章样例可参考 sample.json,展示了工具输出的结构化数据格式。

多场景灵活应用

  • 库模式:Python 开发者可在自己的程序中使用其爬取和提取功能,轻松集成到现有项目中。
  • 通用爬取:支持通过根 URL 对新闻网站进行完整爬取,自动跟踪内部链接。
  • CommonCrawl 集成:能方便地从 commoncrawl.org 的大型新闻档案中爬取和提取文章,具体可查看 commoncrawl.py。

🚀 快速开始使用

简单安装步骤

news-please 运行在 Python 3.8+ 环境,通过 pip 即可轻松安装:

pip install news-please

两种使用方式

1. 库模式

在自己的代码中访问 news-please 的核心功能,从一个或多个新闻文章中提取半结构化信息。例如:

from newsplease import NewsPlease article = NewsPlease.from_url('https://example.com/news-article') print(article.title) print(article.text)
2. CLI 模式

通过命令行界面使用完整的网站提取或持续爬取模式:

news-please

默认情况下,结果以 JSON 文件形式存储在data文件夹中,同时也会存储原始 HTML 文件。

⚙️ 个性化配置指南

自定义爬取网站

修改sitelist.hjson文件,添加您选择的新闻媒体网页的根 URL,即可爬取指定网站。此外,还可以从 GDELT 项目中提取最新事件,相关实现见 gdelt_crawler.py。

数据存储选项

  • ElasticSearch 导出:在config.cfg中启用 ElasticSearch 存储,还将启用版本控制功能。
  • PostgreSQL 存储:打开相应的配置文件(库模式为config_lib.cfg,CLI 模式为config.cfg),将 PostgresqlStorage 模块添加到管道并调整数据库凭据。

🤝 参与贡献

如果您想为 news-please 做贡献,请先阅读相关贡献指南。项目欢迎各种形式的贡献,包括代码改进、文档完善等。

📋 注意事项

  • 运行过程中,按CTRL+C可在 5-60 秒内正常关闭进程;按两次CTRL+C将立即终止进程(不推荐)。
  • 配置目录默认位于~/news-please/config,可通过-c参数更改到自定义位置。若目录不存在,将在指定位置创建默认目录。

通过 news-please,无论是获取最新新闻动态,还是挖掘历史新闻数据,都能变得简单高效。这款强大的新闻爬虫工具,将为您的新闻信息提取工作带来革命性的改变。

【免费下载链接】news-pleasenews-please - an integrated web crawler and information extractor for news that just works项目地址: https://gitcode.com/gh_mirrors/ne/news-please

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 4:32:42

【万字文档+PPT+源码】基于springboot+vue个性化课程推荐系统-计算机专业项目设计分享

【万字文档PPT源码】基于springbootvue个性化课程推荐系统-计算机专业项目设计分享 【万字文档PPT源码】基于springbootvue个性化课程推荐系统-可用于毕设-课程设计-练手学习【万字文档PPT源码】基于springbootvue个性化课程推荐系统-计算机专业项目设计分享 摘 要 随着计算机…

作者头像 李华
网站建设 2026/4/18 4:29:19

如何优雅破解极域电子教室?JiYuTrainer让你重获课堂自由

如何优雅破解极域电子教室?JiYuTrainer让你重获课堂自由 【免费下载链接】JiYuTrainer 极域电子教室防控制软件, StudenMain.exe 破解 项目地址: https://gitcode.com/gh_mirrors/ji/JiYuTrainer 你是否曾在课堂上遇到过这样的尴尬时刻?老师开启全…

作者头像 李华
网站建设 2026/4/18 4:26:27

**发散创新:基于Rust实现的轻量级权限管理系统与MIT开源许可证实践**在现代分布式系统中,**权限管理**

发散创新:基于Rust实现的轻量级权限管理系统与MIT开源许可证实践 在现代分布式系统中,权限管理早已不是简单的“用户-角色-资源”映射问题,而是涉及细粒度控制、动态策略加载、多租户隔离等复杂场景。本文将带你深入一个基于 Rust 语言构建的…

作者头像 李华
网站建设 2026/4/18 4:25:41

Qwen3-VL-30B效果实测:复杂视觉问题解答,看它有多智能

Qwen3-VL-30B效果实测:复杂视觉问题解答,看它有多智能 1. 视觉语言模型的新标杆 当一张图片胜过千言万语时,我们需要的不仅是能"看见"的AI,更需要能"理解"和"思考"的AI。Qwen3-VL-30B作为通义千问…

作者头像 李华
网站建设 2026/4/18 4:19:51

从AD16升级到AD19,我踩过的那些坑和必须改的7个默认设置

从AD16升级到AD19:资深工程师的7个关键设置优化指南 每次Altium Designer的版本升级都像是一次小型的技术移民——新环境带来新功能的同时,也总伴随着各种"水土不服"。作为一名从AD16迁移到AD19的资深用户,我深刻理解那种"明明…

作者头像 李华