云计算
爬行动物简介
2016年,我在我的AlibabaCloud (阿里巴巴云) ECS上运行了一个长期性质的爬行动物计划。 内容是采集风云2号气象卫星照片,现在休假的时候才有时间回去看结果。 简单的统计如下:
照片总数: 45869个文件
最早文件: 201609131345.jpg
最晚文件: 201910091415.jpg
爬行动物的运行过程
1、资料来源:
当时意外地获得了长期有效的数据源,其URL参数是时间格式,也就是说具有明显的规律。 适合爬行动物运行
2、爬行动物运行:
这个爬行动物的运行条件其实有两个。 1定时下载; 2不停机运行;
因为是气象数据,当然要定时捕获,所以我写了windows服务,放在后台连续运行。 中途,因为服务器的其他问题中断过几次,但是没有花很长时间。 因此,成功地连续收集了很多数据。
另一个要求是不能关闭,程序必须连续运行。 我的最终方案是使用云服务器ECS部署执行。 执行时请避免PC长期接通电源。
3、存储处理:
首先,这个程序既然要长期运行,非常忌讳的是所有的结果都集中在一个本地文件夹里。 因此,我选择了AlibabaCloud (阿里巴巴云)对象存储OSS。 同时,因为必须不关机,所以我最终发现云服务器ECS对象存储OSS,ECS和OSS使用的是同一地区的,所以内部网可以立即传输。 这样,我在本地创建了临时存储器,导出OSS后,就不再占用本地硬盘了。 现在,在放心启动后,可以在“免维护”的状态下运行这几年。
4、爬行动物停下
爬行动物的停止不是我的本意,我在假期里看了日志才知道数据源失效了。 因此,本爬行动物保全了寿命。 你可以去找新的有效数据源,但是旧的数据行不通,所以暂时不找新的数据。
爬行动物的工作完成,最终成果下载
我选择了AlibabaCloud (阿里巴巴云)推荐的OSS客户端工具。 由于计划ECS和OSS位于同一地区,因此可以直接通过内部网下载到ECS。 速度还很快,工具显示超过了60MB/s秒。 工具部分截图:
为了避免OSS公共网络下载流量的费用支出(其实很穷。 直接下载6G大小的文件,忙的时候价格一张5美分) )在内部网下载了OSS数据后,走ECS带宽下载回到我的PC本地。 本地显示:
原文地址: 3359 www.open GPS.cn/blog/view.aspx? id=590? 文章的更新编辑遵循此链接。 欢迎来到源站原创文章!
详情请访问云服务器、域名注册、虚拟主机的问题,请访问西部数码代理商官方网站: www.chenqinet.cn