断点续传

一种网络传输策略
断点续传就是当爬虫软件遇到错误、线路中断或者遇到意外强制关闭后,下次开启程序依然可以从上一个断点处继续运行,这样可以在一定程度上减少用户的烦恼。[1]对于网页抓取技术而言,断点续传是实现爬虫软件中必要的手段之一。[1]
实现断点续传的方法为:每当程序执行到一定程度,例如系统抓取了1000条数据时,系统就将当前的参数保存到一个文件中,这个文件可以保存到本地,也可以保存到服务器上,文件中需要写入本次执行的全部必要参数,如检索的关键词、网址、开始检索的页数、当前检索到多少页、检索结果总页数、输出文件路径等。每次写断点时更新这个文件,如果程序关闭,下次执行时就先预读这个断点文件,然后从上次的断点位置重新开始抓取。[1]
断点续传包括FTP协议的断点续传和HTTP协议的断点续传。[2]

用途

有时用户上传下载文件需要历时数小时,万一线路中断,不具备断点续传的FTP服务器或下载软件就只能从头重传,比较好的FTP服务器或下载软件具有FTP断点续传能力,允许用户从上传下载断线的地方继续传送,这样大大减少了用户的烦恼。