python 爬虫重定向
Python爬虫在爬取网页时,常常会遇到重定向的情况。重定向是指要求的URL被服务器重定向到另外一个URL上。这时候候需要获得重定向后的URL,并对其进行爬取。下面我们来看一下怎样使用Python进行爬虫的重定向操作。
import requests url = 'http://www.example.com' response = requests.get(url, allow_redirects=False) if response.status_code == 302: new_url = response.headers['Location'] response = requests.get(new_url) print(response.text)
以上代码首先使用requests库向目标网站发送要求并关闭重定向功能。接着,判断返回状态码会不会为302重定向状态。如果是,则获得重定向的新URL并再次使用requests库发送要求。最后打印返回的内容。
另外,当需要允许重定向的时候,只需把allow_redirects参数设置为True便可:
response = requests.get(url, allow_redirects=True)
通过以上代码,我们可以轻松地应对Python爬虫中的重定向问题。需要注意的是,在处理重定向时,要避免进入死循环或堕入无穷重定向的情况,避免造成服务器负担。
文章来源:丸子建站
文章标题:python 爬虫重定向
https://www.wanzijz.com/view/72494.html