python 爬虫智联

管理员 2023-08-21 08:03:05 软件开发 0 ℃ 0 评论 2950字收藏

python 爬虫智联

Python 爬虫可以用来快速获得互联网上的数据，在这篇文章中，我们将讨论怎样使用 Python 爬虫来获得智联招聘网站上的职位信息。

首先，我们需要安装以下 Python 第三方库：requests, BeautifulSoup 和 pandas。

pip install requests beautifulsoup4 pandas

接下来，我们需要向智联招聘网站发送 HTTP 要求，并解析返回的 HTML 文件以取得有关职位的信息。以下是示例代码：

import requests
from bs4 import BeautifulSoup
import pandas as pd
# 发送 HTTP 要求
def send_request(page):
url = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=90&cityId=489&workExperience=⑴&education=⑴&companyType=⑴&employmentType=⑴&jobWelfareTag=⑴&kw=数据分析师&kt=3&_v=0.69731083&x-zp-page-request-id=de023483e4024186a42d6db657b6d8a4⑴619680911164⑷15212'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
params = {'start': page}
res = requests.get(url, params=params, headers=headers)
return res.json()
# 解析 HTML，获得职位信息
def parse_data(data):
soup = BeautifulSoup(data['html'], 'html.parser')
job_list = soup.select('.contentpile__content__wrapper .contentpile__content__item')
result = []
for job in job_list:
jobname = job.select('.jobname__title')[0].text.strip()  # 职位名称
company = job.select('.jobname__company')[0].text.strip()  # 公司名称
salary = job.select('.contentpile__content__wrapper__item__info .job__saray')[0].text.strip()  # 薪资
edu = job.select('.contentpile__content__wrapper__item__info span')[0].text.strip()  # 学历要求
exp = job.select('.contentpile__content__wrapper__item__info span')[1].text.strip()  # 经验要求
welfare = [i.text for i in job.select('.job_welfare_item')]  # 福利待遇
result.append([jobname, company, salary, edu, exp, welfare])
return result
# 爬取多页数据
def crawl_data():
result = []
for page in range(1, 10):
print(f'正在爬取第 {page} 页数据...')
data = send_request(page)
data_list = parse_data(data)
result.extend(data_list)
return result
if __name__ == '__main__':
data = crawl_data()
df = pd.DataFrame(data, columns=['职位名称', '公司名称', '薪资', '学历要求', '经验要求', '福利待遇'])
df.to_csv('jobs.csv', index=False, encoding='utf⑻-sig')

代码如上，其中我们使用 BeautifulSoup 来解析 HTML 文件，并使用 pandas 将数据存储为 CSV 文件。在爬取进程中发现，智联招聘网站的 API 返回的是 JSON 格式的数据，因此我们使用 requests 库来发送 HTTP 要求，并将返回的 JSON 数据转换为 Python 对象。

通过以上代码，我们就可以够快速地获得智联招聘网站上的职位信息。固然，也能够根据自己的需要进行修改和优化。希望这篇文章能对大家有帮助。

文章来源：丸子建站

文章标题：python 爬虫智联

https://www.wanzijz.com/view/72947.html

python 爬虫智联

相关文章

随机看看

热门文章

热门标签