21
2025
04
01:44:27

狂揽 19.2k 星!一句话爬取网页数据,好强!

日常工作中,我们经常需要从网站上提取特定信息,无论是市场调研、数据分析还是内容聚合,都离不开这项工作。

然而,传统的网络爬虫开发复杂,需要编写大量代码来处理 HTML 解析、数据提取和错误处理,对于非专业开发者来说门槛很高。

现有的爬虫工具要么太简单功能有限,要么太复杂学习成本高,让许多技术小白望而却步。

幸运的是,一个名为ScrapeGraphAI的开源项目完美解决了这个问题。

它结合了大语言模型和图逻辑,创建了智能爬取管道,使我们只需用自然语言描述想要提取的信息,就能轻松完成网页数据爬取,极大地简化了整个过程。

ScrapeGraphAI Hero

主要功能

ScrapeGraphAI 提供了几种强大的爬取功能,满足不同场景的需求:

SmartScraperGraph:单页爬虫,只需提供用户提示和输入源,就能智能提取页面信息,适合从特定网页获取结构化数据。

SearchGraph:多页爬虫,自动从搜索引擎的前 n 个搜索结果中提取信息,非常适合进行广泛的主题研究和数据收集。


SpeechGraph:单页爬虫,不仅能从网站提取信息,还能将其转换为音频文件,适合创建有声内容或辅助视障人士获取信息。

SmartScraperMultiGraph:多页爬虫,给定一个自然语言提示,能够自动处理多个页面的信息提取。

多模型支持:可通过 API 使用不同的 LLM,如 OpenAI、Groq、Azure 和 Gemini,或者使用 Ollama 的本地模型,灵活选择适合自己需求和预算的方案。

安装指南

安装 ScrapeGraphAI 非常简单,只需一行命令即可完成。

首先确保已安装 Python 环境,然后在终端或命令提示符中执行以下命令:


pip install scrapegraphai

建议在虚拟环境中安装该库,以避免与其他库发生冲突。

如果需要使用本地模型,还需安装 Ollama 并下载相应的模型。

image-20250420181328412

使用示例

使用 ScrapeGraphAI 进行网页数据提取非常直观。以下是使用本地模型对单页爬取的简单示例:






















fromscrapegraphai.graphsimportSmartScraperGraphgraph_config= {"llm": {"model": "ollama/mistral","temperature": 0,"format": "json","base_url": "http://localhost:11434",    },"embeddings": {"model": "ollama/nomic-embed-text","base_url": "http://localhost:11434",    },"verbose": True,}smart_scraper_graph=SmartScraperGraph(prompt="列出所有项目及其描述",source="https://perinim.github.io/projects",config=graph_config)result=smart_scraper_graph.run()print(result)

写在最后

ScrapeGraphAI 让网页数据提取变得前所未有的简单高效。

无论是进行市场研究、内容聚合还是数据分析,这个工具都能大幅减少我们的开发时间和技术障碍。

特别是对于非专业开发者,只需用自然语言描述需求,就能获取结构化数据,实现更便捷、高效的信息获取和处理。

GitHub 项目地址:https://github.com/ScrapeGraphAI/Scrapegraph-ai




推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://zblog.hqyman.cn/post/10598.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: