大战熟女丰满人妻av-荡女精品导航-岛国aaaa级午夜福利片-岛国av动作片在线观看-岛国av无码免费无禁网站-岛国大片激情做爰视频

專注Java教育14年 全國咨詢/投訴熱線:400-8080-105
動力節(jié)點LOGO圖
始于2009,口口相傳的Java黃埔軍校
首頁 學習攻略 Java學習 Java基礎學習:Java爬蟲高級教程

Java基礎學習:Java爬蟲高級教程

更新時間:2020-03-31 14:21:08 來源:動力節(jié)點 瀏覽2870次


  作為網(wǎng)絡爬蟲的入門采用Java開發(fā)語言,內容涵蓋了網(wǎng)絡爬蟲的原理以及開發(fā)邏輯,Java網(wǎng)絡爬蟲基礎知識,網(wǎng)絡抓包介紹,jsoup的介紹與使用,HttpClient的介紹與使用等內容。本課程在介紹網(wǎng)絡爬蟲基本原理的同時,注重具體的代碼實現(xiàn),加深讀者對爬蟲的理解,加強讀者的實戰(zhàn)能力。


  網(wǎng)絡爬蟲技術最廣泛的應用是在搜索引擎中,如百度、Google、Bing等,它完成了搜索過程中的最關鍵的步驟,即網(wǎng)頁內容的抓取。下圖為簡單搜索引擎原理圖。

Java基礎學習:Java爬蟲高級教程


  網(wǎng)絡爬蟲的作用,我總結為以下幾點:


  輿情分析:企業(yè)或政府利用爬取的數(shù)據(jù),采用數(shù)據(jù)挖掘的相關方法,發(fā)掘用戶討論的內容、實行事件監(jiān)測、輿情引導等。


  企業(yè)的用戶分析:企業(yè)利用網(wǎng)絡爬蟲,采集用戶對其企業(yè)或商品的看法、觀點以及態(tài)度,進而分析用戶的需求、自身產品的優(yōu)劣勢、顧客抱怨等。


  科研工作者的必備技術:現(xiàn)有很多研究都以網(wǎng)絡大數(shù)據(jù)為基礎,而采集網(wǎng)絡大數(shù)據(jù)的必備技術便是網(wǎng)絡爬蟲。利用網(wǎng)絡爬蟲技術采集的數(shù)據(jù)可用于研究產品個性化推薦、文本挖掘、用戶行為模式挖掘等。


  網(wǎng)絡爬蟲涉及的領域包括:

Java基礎學習:Java爬蟲高級教程

  網(wǎng)絡爬蟲的基本概念


  網(wǎng)絡爬蟲(WebCrawler),又稱為網(wǎng)絡蜘蛛(WebSpider)或Web信息采集器,是一種按照一定規(guī)則,自動抓取或下載網(wǎng)絡信息的計算機程序或自動化腳本,是目前搜索引擎的重要組成部分。


  狹義上理解:利用標準的HTTP協(xié)議,根據(jù)網(wǎng)絡超鏈接(如https://www.baidu.com/)和Web文檔檢索的方法(如深度優(yōu)先)遍歷萬維網(wǎng)信息空間的軟件程序。


  功能上理解:確定待爬的URL隊列,獲取每個URL對應的網(wǎng)頁內容(如HTML/JSON),解析網(wǎng)頁內容,并存儲對應的數(shù)據(jù)。


  網(wǎng)絡爬蟲的分類


  網(wǎng)絡爬蟲按照系統(tǒng)架構和實現(xiàn)技術,大致可以分為以下幾種類型:通用網(wǎng)絡爬蟲(GeneralPurposeWebCrawler)、聚焦網(wǎng)絡爬蟲(FocusedWebCrawler)、增量式網(wǎng)絡爬蟲(IncrementalWebCrawler)、深層網(wǎng)絡爬蟲(DeepWebCrawler)。實際的網(wǎng)絡爬蟲系統(tǒng)通常是幾種爬蟲技術相結合實現(xiàn)的。


  通用網(wǎng)絡爬蟲:爬行對象從一些種子URL擴充到整個Web,主要為門戶站點搜索引擎和大型Web服務提供商采集數(shù)據(jù)。


  通用網(wǎng)絡爬蟲的爬取范圍和數(shù)量巨大,對于爬行速度和存儲空間要求較高,對于爬行頁面的順序要求較低,通常采用并行工作方式,有較強的應用價值。


  聚焦網(wǎng)絡爬蟲,又稱為主題網(wǎng)絡爬蟲:是指選擇性地爬行那些與預先定義好的主題相關的頁面。


  和通用爬蟲相比,聚焦爬蟲只需要爬行與主題相關的頁面,極大地節(jié)省了硬件和網(wǎng)絡資源,保存的頁面也由于數(shù)量少而更新快,可以很好地滿足一些特定人群對特定領域信息的需求。


  通常在設計聚焦網(wǎng)絡爬蟲時,需要加入鏈接和內容篩選模塊。一個常見的案例是基于關鍵字獲取符合用戶需求的數(shù)據(jù),如下圖所示:

image.png

  增量網(wǎng)絡爬蟲:對已下載網(wǎng)頁采取增量式更新和只爬行新產生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面,歷史已經(jīng)采集過的頁面不重復采集。


  增量網(wǎng)絡爬蟲避免了重復采集數(shù)據(jù),可以減小時間和空間上的耗費。通常在設計網(wǎng)絡爬蟲時,需要在數(shù)據(jù)庫中,加入時間戳,基于時間戳上的先后,判斷程序是否繼續(xù)執(zhí)行。


  DeepWeb爬蟲:指大部分內容不能通過靜態(tài)鏈接獲取,只有用戶提交一些表單信息才能獲取的Web頁面。例如,需要模擬登陸的網(wǎng)絡爬蟲便屬于這類網(wǎng)絡爬蟲。另外,還有一些需要用戶提交關鍵詞才能獲取的內容,如京東淘寶提交關鍵字、價格區(qū)間獲取產品的相關信息。


  網(wǎng)絡爬蟲的流程


  網(wǎng)絡爬蟲基本流程可用下圖描述:

Java基礎學習:Java爬蟲高級教程

  具體流程為:


  需求者選取一部分種子URL(或初始URL),將其放入待爬取的隊列中。如在Java網(wǎng)絡爬蟲中,可以放入LinkedList或List中。


  判斷URL隊列是否為空,如果為空則結束程序的執(zhí)行,否則執(zhí)行第三步驟。


  從待爬取的URL隊列中取出待爬的一個URL,獲取URL對應的網(wǎng)頁內容。在此步驟需要使用響應的狀態(tài)碼(如200,403等)判斷是否獲取數(shù)據(jù),如響應成功則執(zhí)行解析操作;如響應不成功,則將其重新放入待爬取隊列(注意這里需要移除無效URL)。


  針對已經(jīng)響應成功后獲取到的數(shù)據(jù),執(zhí)行頁面解析操作。此步驟根據(jù)用戶需求獲取網(wǎng)頁內容里的部分數(shù)據(jù),如汽車論壇帖子的標題、發(fā)表的時間等。


  針對3步驟已解析的數(shù)據(jù),將其進行存儲。


  網(wǎng)絡爬蟲的爬行策略


  一般的網(wǎng)絡爬蟲的爬行策略分為兩種:深度優(yōu)先搜索(Depth-FirstSearch)策略、廣度優(yōu)先搜索(Breadth-FirstSearch)策略。


  深度優(yōu)先搜索策略:從根節(jié)點的URL開始,根據(jù)優(yōu)先級向下遍歷該根節(jié)點對應的子節(jié)點。當訪問到某一子節(jié)點URL時,以該子節(jié)點為入口,繼續(xù)向下層遍歷,直到?jīng)]有新的子節(jié)點可以繼續(xù)訪問為止。接著使用回溯的方法,找到?jīng)]有被訪問到的節(jié)點,以類似的方式進行搜索。下圖給出了理解深度優(yōu)先搜索的一個簡單案例:

Java基礎學習:Java爬蟲高級教程

  廣度優(yōu)先搜索策略:也稱為寬度優(yōu)先,是另外一種非常有效的搜索技術,這種方法按照層進行遍歷頁面。下圖可幫助理解廣度優(yōu)先搜索的遍歷方式:

Java基礎學習:Java爬蟲高級教程

  基于廣度優(yōu)先的爬蟲是最簡單的爬取網(wǎng)站頁面的方法,也是目前使用較為廣泛的方法。


  學習建議


  網(wǎng)絡爬蟲是入門某一門編程語言的實戰(zhàn)技術:很多學習編程語言(如Java)的同學,采用的方式只看書或在網(wǎng)絡上看一些Java視頻教程,而這將導致的后果就是面對一個具體項目時,不知道如何上手,尤其對新手而言?;蛘?,一段時間后,就將之前的書本內容或視頻內容遺忘了。


  為此,我建議這些學習者可采用網(wǎng)絡爬蟲技術入門某一門編程語言。因為爬蟲技術是個綜合性很強的技術,涉及到編程語言的很多方面。小編特別選用了Java作為開發(fā)語言,將帶大家深入了解Java網(wǎng)絡爬蟲背后的核心技術。學完該課程,相信您也已很好地入門Java編程語言。


  對于零基礎入門Java網(wǎng)絡爬蟲的同學,在學習過程中請注意以下幾點:


  理解爬蟲的基本原理。


  學習Java網(wǎng)絡爬蟲涉及的基礎知識:基礎不牢,地動山搖,學習和掌握網(wǎng)絡爬蟲的基礎知識很重要。


  吃透基本的爬蟲代碼,并在此基礎上進行改寫。


  不斷實戰(zhàn),發(fā)現(xiàn)爬蟲中涉及的新問題,并解決問題。


  以上就是動力節(jié)點java培訓機構小編介紹的“Java基礎學習:Java爬蟲高級教程”的內容,希望對大家有幫助,更多java最新資訊請繼續(xù)關注動力節(jié)點java培訓機構官網(wǎng),每天會有精彩內容分享與你。


提交申請后,顧問老師會電話與您溝通安排學習

免費課程推薦 >>
技術文檔推薦 >>
主站蜘蛛池模板: 国产成人精品aaaa视频一区 | 国产精品久久久久免费a∨ 国产精品久久久久免费视频 | 午夜香蕉成视频人网站高清版 | 久久精品国产一区二区小说 | 免费中文字幕在线观看 | 亚洲成人高清 | 国产成人经典三级在线观看 | 国产一区91 | 久久99久久99精品免费看动漫 | 欧美精品国产第一区二区 | 精品免费国产一区二区女 | 色悠久久久久综合网小说 | 免费视频不卡一区二区三区 | 国产成人精品午夜二三区 | 国产精品日本一区二区在线播放 | 射婷婷| 高清一级毛片 | 性欧美一级毛片欧美片 | 亚洲天堂二区 | 九九视频在线播放 | 爱爱视频免费网站 | 欧美日韩国产在线成人网 | 毛片在线播 | 中文字幕一区二区三区亚洲精品 | 99re这里只有精品在线 | 一级做a爱片特黄在线观看 一级做a爱片特黄在线观看免费看 | 二区中文字幕 | 国产成人h综合亚洲欧美在线 | 狠狠香蕉 | 四虎精品免费永久在线 | 黄色成人一级片 | 中国一级毛片录像 | 狠狠色婷婷综合天天久久丁香 | 成人免费观看网站 | 国产成人性毛片 | 日本裤袜xxxx视频 | 日韩欧美小视频 | 偷偷鲁影院手机在线观看 | 天天爽天天干 | a一级特黄日本大片 s色 | 射久久 |