狂揽 19.2k 星！一句话爬取网页数据，好强！-HQY 一个和谐有爱的空间

21

2025
04
01:44:27

狂揽 19.2k 星！一句话爬取网页数据，好强！

日常工作中，我们经常需要从网站上提取特定信息，无论是市场调研、数据分析还是内容聚合，都离不开这项工作。

然而，传统的网络爬虫开发复杂，需要编写大量代码来处理 HTML 解析、数据提取和错误处理，对于非专业开发者来说门槛很高。

现有的爬虫工具要么太简单功能有限，要么太复杂学习成本高，让许多技术小白望而却步。

幸运的是，一个名为ScrapeGraphAI的开源项目完美解决了这个问题。

它结合了大语言模型和图逻辑，创建了智能爬取管道，使我们只需用自然语言描述想要提取的信息，就能轻松完成网页数据爬取，极大地简化了整个过程。

主要功能

ScrapeGraphAI 提供了几种强大的爬取功能，满足不同场景的需求：

SmartScraperGraph：单页爬虫，只需提供用户提示和输入源，就能智能提取页面信息，适合从特定网页获取结构化数据。

SearchGraph：多页爬虫，自动从搜索引擎的前 n 个搜索结果中提取信息，非常适合进行广泛的主题研究和数据收集。

SpeechGraph：单页爬虫，不仅能从网站提取信息，还能将其转换为音频文件，适合创建有声内容或辅助视障人士获取信息。

SmartScraperMultiGraph：多页爬虫，给定一个自然语言提示，能够自动处理多个页面的信息提取。

多模型支持：可通过 API 使用不同的 LLM，如 OpenAI、Groq、Azure 和 Gemini，或者使用 Ollama 的本地模型，灵活选择适合自己需求和预算的方案。

安装指南

安装 ScrapeGraphAI 非常简单，只需一行命令即可完成。

首先确保已安装 Python 环境，然后在终端或命令提示符中执行以下命令：

pip install scrapegraphai

建议在虚拟环境中安装该库，以避免与其他库发生冲突。

如果需要使用本地模型，还需安装 Ollama 并下载相应的模型。

使用示例

使用 ScrapeGraphAI 进行网页数据提取非常直观。以下是使用本地模型对单页爬取的简单示例：

fromscrapegraphai.graphsimportSmartScraperGraphgraph_config= {"llm": {"model": "ollama/mistral","temperature": 0,"format": "json","base_url": "http://localhost:11434",    },"embeddings": {"model": "ollama/nomic-embed-text","base_url": "http://localhost:11434",    },"verbose": True,}smart_scraper_graph=SmartScraperGraph(prompt="列出所有项目及其描述",source="https://perinim.github.io/projects",config=graph_config)result=smart_scraper_graph.run()print(result)