用Wget下载文件

从网络上提取数据是数据科学家的重要任务之一。Wget是一个免费的实用程序,可以用于从网络上下载非交互式的文件。它支持HTTP、HTTPS和FTP协议,以及通过HTTP的代理进行文件检索。由于它是非交互式的,即使用户没有登录,它也可以在后台工作。所以下次当你想要下载一个网站或者一个页面上的所有图片时,wget可以帮助你。

一、安装

1
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple wget

二、使用

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import wget, tarfile
import os

# 网络地址
DATA_URL = 'http://www.robots.ox.ac.uk/~ankush/data.tar.gz'
# 本地硬盘文件
# DATA_URL = '/home/xxx/book/data.tar.gz'

out_fname = 'abc.tar.gz'
wget.download(DATA_URL, out=out_fname)
# 提取压缩包
tar = tarfile.open(out_fname)
tar.extractall()
tar.close()
# 删除下载文件
os.remove(out_fname)