大战熟女丰满人妻av-荡女精品导航-岛国aaaa级午夜福利片-岛国av动作片在线观看-岛国av无码免费无禁网站-岛国大片激情做爰视频

專注Java教育14年 全國咨詢/投訴熱線:400-8080-105
動力節(jié)點LOGO圖
始于2009,口口相傳的Java黃埔軍校
首頁 hot資訊 網(wǎng)頁Cookie的獲取方式

網(wǎng)頁Cookie的獲取方式

更新時間:2021-11-11 09:12:19 來源:動力節(jié)點 瀏覽4943次

在爬蟲中cookie是非常有用的,可以解決反爬,封號等問題。接下來我們來說說獲取cookie的集中方式。

這里采用python2.7

第一種:mechanize

首先我們要使用mechanize,第一步:

pip install mechanize

第二步編寫獲取cookie代碼:

import os
import mechanize
import cookielib,re
br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.set_debug_http(True)
br.addheaders = [('User-agent', '用戶ua')]
br.set_proxies({"http": "代理"})
response = br.open('https://www.amazon.com')
cj = br._ua_handlers['_cookies'].cookiejar
for cookie in cj:
    print("cookieName:"+cookie.name)
    print("cookieValue:"+cookie.value)
cookie = [item.name + ":" + item.value for item in cj]
cookiestr={}
for item in cookie:
    name,value = item.split(":")
    cookiestr[name]=value

運行結(jié)果:

第二種:urllib

import urllib2
import cookielib
from http import cookiejar
from bs4 import BeautifulSoup
User_Agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
header = {}
header['User-Agent'] = User_Agent
cookie = cookiejar.CookieJar()
cookie_handle=urllib2.HTTPCookieProcessor(cookie)
cookie_opener = urllib2.build_opener(cookie_handle)
# proxy_support = urllib2.ProxyHandler({"http":"5.62.157.47:8085"})
# proxy_opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(cookie_opener)
# urllib2.install_opener(proxy_opener)
request = urllib2.Request("https://www.amazon.com",headers=header)
response = urllib2.urlopen(request)
for item in cookie:
    print('Name = ' +item.name)
    print('Value =' +item.value)

運行結(jié)果:

第三種:requests

import requests
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
r = requests.get('https://www.amazon.com', headers = headers)
for cookie in r.cookies:
    print(cookie.name)
    print(cookie.value)
    print("=========")

運行結(jié)果:

第四種:selenium(個人感覺這個雖然加載比較慢,但是獲取cookie最全)

pip install selenium

代碼:

from selenium import webdriver
driver = webdriver.Chrome(executable_path='d:/seop/chromedriver.exe')
driver.get("https://www.amazon.com")
#for c in cookiestr.keys():
#    driver.add_cookie({'name':c,'value':cookiestr[c]})
#driver.get("https://www.amazon.com")
cookie = [item["name"] + "=" + item["value"] for item in driver.get_cookies()]
cookiestr = ';'.join(item for item in cookie)

運行結(jié)果:

第五種:總覺得selenium比較慢,打開還要加載瀏覽器,于是嘗試了 htmlunit以及phantomjs

htmlunit

phantomjs

from selenium import webdriver
browser = webdriver.PhantomJS()
browser.get("https://www.amazon.com")
cookie = [item["name"] + "=" + item["value"] for item in browser.get_cookies()]
cookiestr = ';'.join(item for item in cookie)

運行結(jié)果:

第六種:scrapy

這邊我們簡單測試一下,首先你電腦已經(jīng)要安裝了scrapy,如果沒有安裝,pip install scrapy

然后我們輸入要獲取地址的cookie

scrapy shell "https://www.amazon.com"

cookie結(jié)果:

最后一種:chrome headless 使用無頭瀏覽器來獲取

這個目前我是在centos上面進行操作:

第一步:肯定你要安裝chrome啦

第二步:運行安裝腳本

curl https://intoli.com/install-google-chrome.sh | bash  

測試是否成功: 運行以下命令,如果成功會在當(dāng)前目錄下面保存百度的截圖

google-chrome-stable --no-sandbox --headless --disable-gpu --screenshot     https://www.baidu.com  

這里我們開始獲取cookie信息

first:

google-chrome-stable --no-sandbox --headless --disable-gpu --user-data-dir="$HOME/Library/Application Support/Google/Chrome/" --remote-debugging-port=9222  https://www.amazon.com

second: 這里我們主要是獲取websocket的url

curl -s localhost:9222/json 

third: 這邊要注意哦,要安裝wsc,安裝wsc之前記得要安裝npm哦,然后在執(zhí)行npm install -g wsc,然后在執(zhí)行以下命令

wsc ws://localhost:9222/devtools/page/D42AFC3C9AF9C8A1511ADC60850BD5A8

然后輸入:

{"id": 1, "method": "Network.getAllCookies"}

最后cookie結(jié)果:

目前嘗試了mechanize、urllib、selenium、headless chrome、requests、htmlunit、phantomjs、scrapy

目前已經(jīng)嘗試了以上八種,覺得還是selenium獲取cookie比較全,信息比較完整,獲取cookie的字段也是比較穩(wěn)定的,經(jīng)過研究cookie,就是selenium獲取cookie的速度比較慢,看看還有沒啥辦法優(yōu)化速度,繼續(xù)查閱別的方式來獲取cookie。

以上就是關(guān)于“網(wǎng)頁Cookie的獲取方式”的方法,如果您想了解更多相關(guān)知識,不妨來關(guān)注一下動力節(jié)點的Java在線學(xué)習(xí),希望對大家能夠有所幫助。

提交申請后,顧問老師會電話與您溝通安排學(xué)習(xí)

免費課程推薦 >>
技術(shù)文檔推薦 >>
主站蜘蛛池模板: 久久99精品久久久66 | 青草青青在线观看免费视频 | 日韩专区亚洲国产精品 | 亚洲一区二区三区久久久久 | 欧美一区二区三区成人看不卡 | 久久精品道一区二区三区 | 一级毛片无毒不卡直接观看 | 欧美一级毛片在线看视频 | 欧美夜夜撸 | 国产国拍亚洲精品午夜不卡17 | 欧美日韩国产欧美 | 老司机免费福利视频无毒午夜 | 国产高清国产专区国产精品 | 国产全黄一级毛片 | 天天干天天舔 | 天天伊人 | 欧美精品成人一区二区在线观看 | 99久久免费国内精品 | 国产精品成人一区二区 | 欧美性精品不卡在线观看 | 亚洲欧美一区二区三区国产精品 | 四虎网站最新地址 | 免费香蕉依人在线视频久 | 四虎影视在线麻豆国产 | 牛牛影视免费观看成人 | 亚洲香蕉久久一区二区三区四区 | 欧美视频亚洲视频 | 国产福利第一页 | 5252色欧美在线男人的天堂 | 99热久久国产综合精品久久国产 | 青青青爽在线视频观看 | www天天干| 欧美xxx午夜免费视频 | 在线观看 一区 | 日日干狠狠操 | 中国护士一级毛片免费版本 | 中文字幕在线观看一区二区 | 亚洲国产精品a在线 | 国产亚洲精品久久麻豆 | 精品九九久久 | 香蕉网伊 |