Ajax爬取动态数据和HTTPS自动默认证书
阅读原文时间:2023年07月08日阅读:3

Ajax数据爬取

  在spider爬取数据的过程中,有些网页的数据是利用Ajax动态加载出来的,所以,在网页源代码中可能不会看到这一部分的数据,因此,我们需要使用另外的方式进行数据多爬取。

  以豆瓣电影的网页源码获取为例 https://movie.douban.com/ ,我们查看网页源代码,会发现网页中所包含的数据根本不在源代码中,比如查询囧妈,会显示查询结果为0。这时候我们就要注意他可能是使用Ajax进行动态加载的数据。

  F12进入开发者工具,按照下图步骤进行查看

  双击第3步骤中的链接,会发现有一些tag标签,最后会发现有一些数据包含其中。

  有数据的这些连接就是Ajax动态加载的结果了。下面有一个小例子进行简单的运用。

1 '''
2 @Description: 爬取异步加载数据——以豆瓣网为例
3 @Version: 1.0
4 @Autor: Montoin Yan
5 @Date: 2020-02-01 18:18:05
6 @LastEditors : Montoin Yan
7 @LastEditTime : 2020-02-03 18:50:01
8 '''
9 from urllib import parse
10 from urllib.request import urlopen,Request
11 import simplejson
12 import random
13
14 #设置多个请求头,防止被反扒措施进行拦截
15 ua_list = [
16 "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0",
17 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.29 Safari/537.36",
18 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362",
19 "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400"
20 ]
21 #随机pick one
22 ua = random.choice(ua_list)
23
24 #以https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=10&page_start=0 为例
25 #将链接进行分割,将Ajax需要传递的参数存储到字典中
26 url = "https://movie.douban.com/j/search_subjects"
27 d = {
28 'type':'movie',
29 'tag':'热门',
30 'page_limit':'10',
31 'page_start':'0'
32 }
33 request = Request('{}?{}'.format(url,parse.urlencode(d)),headers={
34 'User-agent':ua
35 })
36
37 with urlopen(request) as response:
38 subjects = simplejson.loads(response.read())
39 print(len(subjects['subjects']))
40 s = subjects['subjects']
41 for i in s:
42 print(i)

  结果可以参照以下内容:


HTTPS跳过证书验证

  引用python自带的ssl库,进行不信任证书的忽略,以12306为例。

1 '''
2 @Description: HTTPS利用SSL库进行默认信任证书的模拟
3 @Version: 1.0
4 @Autor: Montoin Yan
5 @Date: 2020-02-03 20:18:52
6 @LastEditors : Montoin Yan
7 @LastEditTime : 2020-02-03 20:32:47
8 '''
9
10 from urllib.request import urlopen,Request
11 import random
12 import ssl
13
14 url = "http://www.12306.cn/mormhweb/"
15 ua_list = [
16 "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0",
17 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.29 Safari/537.36",
18 "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362",
19 "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400"
20 ]
21 #随机pick one
22 ua = random.choice(ua_list)
23 request = Request(url,headers={
24 'User-agent':ua
25 })
26
27 #忽略不信任的证书
28 context = ssl._create_unverified_context()
29
30 #利用urlopen的最后一个参数,强调上下文使得在链接传递的时候忽略证书
31 with urlopen(request,context=context) as response:
32 print(response._method)
33 print(response.read())

手机扫一扫

移动阅读更方便

阿里云服务器
腾讯云服务器
七牛云服务器