python 爬取地址
Python是一种广泛使用的编程语言,因其简单易学、多用处并具有良好的文档库而备受欢迎。Python常经常使用于网络数据收集,即爬取数据。那末,怎样使用Python爬取网站上的地址呢?
import requests from bs4 import BeautifulSoup # 获得页面链接 url = 'https://www.example.com/' res = requests.get(url) soup = BeautifulSoup(res.text, 'html.parser') # 找到所有地址 addresses = [] for link in soup.find_all('a'): addresses.append(link.get('href')) # 去除重复地址并输出 unique_addresses = list(set(addresses)) for address in unique_addresses: print(address)
上述代码使用了requests
库和bs4
库,前者用于获得页面链接,后者用于解析HTML。我们使用find_all()
方法找出HTML中所有的a
标签并获得其href
属性,即地址。为去除重复地址,使用Python中列表去重的方法(将列表转为集合,再转回列表)而得到区别的地址集。终究使用循环展现所有区别地址。
使用Python爬取地址其实不难,这是Python强大的网络数据收集功能的一部份。Python的利用场景非常多,如数据分析、计算机视觉、机器学习、自然语言处理、网络爬虫等等。我们可以尝试使用Python去实现自己的想法。
文章来源:丸子建站
文章标题:python 爬取地址
https://www.wanzijz.com/view/75290.html