python 爬取正文
Python是一种优秀的编程语言,可以用来实现很多功能,其中包括网络爬虫。在网络爬虫中,最关键的部份就是如何爬取正文内容。下面就来介绍一下使用Python如何爬取网页正文。 首先,我们需要导入所需的库。其中,Requests库用来发起HTTP要求,而BeautifulSoup库用来解析HTML文档:
import requests from bs4 import BeautifulSoup接着,我们发起HTTP要求,获得网页内容:
url = 'https://www.example.com/articles/12345' response = requests.get(url)以上代码可以获得URL为https://www.example.com/articles/12345的网页内容。接着,我们需要使用BeautifulSoup库来解析HTML文档:
soup = BeautifulSoup(response.text, 'html.parser')以上代码会将网页内容解析为一个BeautifulSoup对象。接下来,我们需要从该对象中提取正文内容。一般来讲,正文都包括在
标签中,因此我们可以通过查找
标签来提取正文内容:
paragraphs = soup.find_all('p')以上代码会将正文中的所有
标签提取出来。最后,我们可使用
标签将以上代码组合在一起,以便于显示和复制:import requests from bs4 import BeautifulSoup url = 'https://www.example.com/articles/12345' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') paragraphs = soup.find_all('p') for p in paragraphs: print(p.text)以上代码就能够爬取网页正文内容了。需要注意的是,区别网站的正文内容可能包括在区别的标签中,因此需要具体情况具体分析,针对性地进行解析。文章来源:丸子建站
文章标题:python 爬取正文
https://www.wanzijz.com/view/75004.html