陈奇网络工作室

爬行动物使用分享:风云二号卫星气象图

云计算

爬行动物简介

2016年,我在我的AlibabaCloud (阿里巴巴云) ECS上运行了一个长期性质的爬行动物计划。 内容是采集风云2号气象卫星照片,现在休假的时候才有时间回去看结果。 简单的统计如下:

照片总数: 45869个文件

最早文件: 201609131345.jpg

最晚文件: 201910091415.jpg

爬行动物的运行过程

1、资料来源:

当时意外地获得了长期有效的数据源,其URL参数是时间格式,也就是说具有明显的规律。 适合爬行动物运行

2、爬行动物运行:

这个爬行动物的运行条件其实有两个。 1定时下载; 2不停机运行;

因为是气象数据,当然要定时捕获,所以我写了windows服务,放在后台连续运行。 中途,因为服务器的其他问题中断过几次,但是没有花很长时间。 因此,成功地连续收集了很多数据。

另一个要求是不能关闭,程序必须连续运行。 我的最终方案是使用云服务器ECS部署执行。 执行时请避免PC长期接通电源。

3、存储处理:

首先,这个程序既然要长期运行,非常忌讳的是所有的结果都集中在一个本地文件夹里。 因此,我选择了AlibabaCloud (阿里巴巴云)对象存储OSS。 同时,因为必须不关机,所以我最终发现云服务器ECS对象存储OSS,ECS和OSS使用的是同一地区的,所以内部网可以立即传输。 这样,我在本地创建了临时存储器,导出OSS后,就不再占用本地硬盘了。 现在,在放心启动后,可以在“免维护”的状态下运行这几年。

4、爬行动物停下

爬行动物的停止不是我的本意,我在假期里看了日志才知道数据源失效了。 因此,本爬行动物保全了寿命。 你可以去找新的有效数据源,但是旧的数据行不通,所以暂时不找新的数据。

爬行动物的工作完成,最终成果下载

我选择了AlibabaCloud (阿里巴巴云)推荐的OSS客户端工具。 由于计划ECS和OSS位于同一地区,因此可以直接通过内部网下载到ECS。 速度还很快,工具显示超过了60MB/s秒。 工具部分截图:

为了避免OSS公共网络下载流量的费用支出(其实很穷。 直接下载6G大小的文件,忙的时候价格一张5美分) )在内部网下载了OSS数据后,走ECS带宽下载回到我的PC本地。 本地显示:

原文地址: 3359 www.open GPS.cn/blog/view.aspx? id=590? 文章的更新编辑遵循此链接。 欢迎来到源站原创文章!

详情请访问云服务器、域名注册、虚拟主机的问题,请访问西部数码代理商官方网站: www.chenqinet.cn

相关推荐

后台-系统设置-扩展变量-手机广告位-内容页底部广告位3