ScrapydWeb

ScrapydWeb提供web抓取项目管理功能,可以在软件上添加多个地址执行抓取,可以在软件运行蜘蛛对网络采集,采集服务全部在软件上显示,您可以添加新的Scrapyd 项目到软件上分析,实现集群管理模式,方便对多个web项目抓取,抓取全部在软件显示,可以查看列表项目,可以查看志内容,可以通过可视化的界面查看志数据,可以结合统计表分析采集数据,可以建立分布式方案执行抓取任务,可以在Heku上Scrapyd设置集群,可以在web界面管理你的任务,结合定时功能可以在任意时间段运行蜘蛛执行抓取任务!

ScrapydWeb软件功能

一、Scrapyd集群管理

支持所有Scrapyd ON API

分组,过滤和选择任意数量的节点

只需单击几下即可在多节点上执行命令

二、Scrapy志分析

统计资料收集

进度可视化

志分类

三、增强功能

自动打包项目

与整合 LogParser

计时器任务

监控和警报

行动使用者介面

Web UI的基本身份验证

ScrapydWeb软件特色

支持定时任务计划定期运行蜘蛛程序

在数据库中坚持工作

适应于LogParser v0.8.1,如果可用,请在“统计”页面中显示Crawler.stats和Crawler.engine。

支持备份stats json文件,以防Scrapyd删除原始志文件

支持分别设置EMAIL_USERNAME (问题28)

为“作业,志和项目”页面引入新的UI

在“部署项目并运行Spider”页面中添加“从同步”页面复选框

将“概述”重命名为“”,将“仪表板”重命名为“作业”

ScrapydWeb教程

如何简单高效地部署和监控分布式爬虫项目

安装与设定

1、确保已在所有主机上安装并启动了Scrapyd。请注意,如果要远程访问Scrapyd,则必须手动将bind_address设置为,bind_address = 0.0.0.0重新启动Scrapyd,以使其在外部可见。

2、通过命令在您的主机之一上安装ScrapydWebpip install scrapydweb。

3、通过命令启动ScrapydWebscrapydweb。(将在第一次启动时生成一个配置文件以自定义设置。)

4、启用HTTP基本身份验证(可选)。

5、添加您的Scrapyd,支持字符串和元组格式,您可以附加用于访问Scrapyd的基本身份验证,以及用于分组或标记的字符串。

6、通过命令重新启动ScrapydWebscrapydweb。

访问网页界面

访问http://127.0.0.1:5000,使用上面的USERNAME / PWORD登录。

页面将自动显示所有Scrapyd的工作状态。

您可以通过分组和过滤来选择任意数量的Scrapyd,只需单击几下即可在群集上调用Scrapyd的HTTP ON API。

与LogParser集成后,“作业”页面可以自动显示您的抓取作业的页面和项目。

默认情况下,ScrapydWeb会定期创建您的抓取作业的快照并将其保存在数据库中,以避免在重新启动Scrapyd时丢失作业。(第12期)

部署项目

在将SCRAPY_PROJECTS_DIR选项设置为包含Scrapy项目的路径之后,ScrapydWeb将列出该目录中的所有项目,并选择最新修改的项目。只需选择一个项目并按按钮即可提交,在后台自动打包。

如果ScrapydWeb在远程上运行时正在本地开发Scrapy项目怎么办?除了上传egg文件,您还可以使用存档软件或通过tar命令将项目文件夹压缩为存档文件tar -czvf pjectname.tar.gz /home/username/mypjects/pjectname,上传。

您可以选择任意数量的Scrapyd来部署项目。

运行蜘蛛

依次从下拉框中选择一个项目,一个版本和一个Spider。

可以随意传递任何Scrapy设置或Spider参数。

支持基于APScheduler创建计时器任务。(如果要同时启动多个蜘蛛,请不要忘记调整Scrapyd的max-pc选项)

您可以选择任意数量的Scrapyd来运行蜘蛛。

志分析和可视化

如果在同一台计算机上运行Scrapyd和ScrapydWeb,建议设置SCRAPYD_LOGS_DIR和ENABLE_LOARSER选项,以便LogParser与ScrapydWeb一起自动启动。该LOARSER的子进程将在分析和定期增量指定目录Scrapy志文件,从而加快统计页的加载不消耗内存和带宽因请求原始志文件。

同样,在其余主机上安装并运行LogParser。

如果您使用的是Scrapy 1.5.1和更早版本,则LogParser可以通过Scrapy的内置telnet控制台收集Crawler.stats和Crawler.engine 。

计时器任务

任务的参数及其执行结果。

可以自由地暂停,继续,触发,停止,编辑和删除任务。

电邮

通过在询子过程中定期访问“统计”页面,ScrapydWeb可以在满足特定条件时您,并发送包含当前作业统计的电子邮件。

1、设置您的电子邮件帐户:

2、设置电子邮件工作时间和基本触发条件:

上面的设置意味着当当前时间满足工作的9点,12点和17点时,将每小时发送一次电子邮件。这也适用于工作完成的情况。

3、除了上面的基本触发器之外,ScrapydWeb 还提供了多种触发器来处理特定类型的志,包括’CRITICAL’,’ERROR’,’WARNING’,’REDIRECT’,’RETRY’和’IORE’。

上面的设置意味着,如果在Scrapy志中找到三个或更多关键志,ScrapydWeb将自动停止当前的抓取作业。如果满足电子邮件工作时间的条件,则会发送一封电子邮件。

移动UI界面

上一篇 2022-11-28

相关推荐

  • ScrapydWeb

    ScrapydWeb提供web抓取项目管理功能,可以在软件上添加多个地址执行抓取,可以在软件运行蜘蛛对网络采集,采集服务全部在软件上显示,您可以添加新的Scrapyd 项目到软...
正在提交中,请稍等片刻...

发表回复

请登录后评论...
登录后才能评论

评论列表 (0条)