<strike id="3tkic"><sup id="3tkic"></sup></strike>

  1. <ul id="3tkic"></ul>
      <b id="3tkic"><legend id="3tkic"></legend></b>
      <b id="3tkic"><meter id="3tkic"></meter></b>

    • <strike id="3tkic"></strike>

      <blockquote id="3tkic"></blockquote>

    • 亚洲AV无码国产在丝袜线观看_亚洲第一页A∨在线_亚洲国产人成在线观看69网站_无码日韩人妻AV一区免费l

      搜索引擎工作原理什么?網(wǎng)絡(luò)爬蟲(chóng),“蜘蛛”又是什么?

      2020/11/19 11:20:29   閱讀:3046    發(fā)布者:3046


      當(dāng)我們?cè)谳斎肟蛑休斎腙P(guān)鍵詞,點(diǎn)擊搜索或查詢時(shí),然后得到結(jié)果。深究其背后的故事,搜索引擎做了很多事情。

      首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁(yè)信息;同時(shí)對(duì)信息進(jìn)行提取和組織建立索引庫(kù);再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫(kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并將查詢結(jié)果返回給用戶。


      在搜索引擎網(wǎng)站,比如百度,在其后臺(tái)有一個(gè)非常龐大的數(shù)據(jù)庫(kù),里面存儲(chǔ)了海量的關(guān)鍵詞,而每個(gè)關(guān)鍵詞又對(duì)應(yīng)著很多網(wǎng)址,這些網(wǎng)址是百度程序從茫茫的互聯(lián)網(wǎng)上一點(diǎn)一點(diǎn)下載收集而來(lái)的,這些程序稱之為“搜索引擎蜘蛛”或“網(wǎng)絡(luò)爬蟲(chóng)”。

      這些勤勞的“蜘蛛”每天在互聯(lián)網(wǎng)上爬行,從一個(gè)鏈接到另一個(gè)鏈接,下載其中的內(nèi)容,進(jìn)行分析提煉,找到其中的關(guān)鍵詞,如果“蜘蛛”認(rèn)為關(guān)鍵詞在數(shù)據(jù)庫(kù)中沒(méi)有而對(duì)用戶是有用的便存入數(shù)據(jù)庫(kù)。反之,如果“蜘蛛”認(rèn)為是垃圾信息或重復(fù)信息,就舍棄不要,繼續(xù)爬行,尋找最新的、有用的信息保存起來(lái)提供用戶搜索。當(dāng)用戶搜索時(shí),就能檢索出與關(guān)鍵字相關(guān)的網(wǎng)址顯示給訪客。


      一個(gè)關(guān)鍵詞對(duì)用多個(gè)網(wǎng)址,因此就出現(xiàn)了排序的問(wèn)題,相應(yīng)的當(dāng)與關(guān)鍵詞最吻合的網(wǎng)址就會(huì)排在前面了。在“蜘蛛”抓取網(wǎng)頁(yè)內(nèi)容,提煉關(guān)鍵詞的這個(gè)過(guò)程中,就存在一個(gè)問(wèn)題:“蜘蛛”能否看懂。如果網(wǎng)站內(nèi)容是flash和js,那么它是看不懂的,會(huì)犯迷糊,即使關(guān)鍵字再貼切也沒(méi)用。相應(yīng)的,如果網(wǎng)站內(nèi)容是它的語(yǔ)言,那么它便能看懂,它的語(yǔ)言即SEO。

      搜索引擎的基本工作原理包括如下三個(gè)過(guò)程:

      • 抓取網(wǎng)頁(yè)。每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁(yè)抓取程序爬蟲(chóng)(spider)。爬蟲(chóng)Spider順著網(wǎng)頁(yè)中的超鏈接,從這個(gè)網(wǎng)站爬到另一個(gè)網(wǎng)站,通過(guò)超鏈接分析連續(xù)訪問(wèn)抓取更多網(wǎng)頁(yè)。被抓取的網(wǎng)頁(yè)被稱之為網(wǎng)頁(yè)快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁(yè)出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁(yè)。


      • 處理網(wǎng)頁(yè)。搜索引擎抓到網(wǎng)頁(yè)后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫(kù)和索引。其他還包括去除重復(fù)網(wǎng)頁(yè)、分詞(中文)、判斷網(wǎng)頁(yè)類型、分析超鏈接、計(jì)算網(wǎng)頁(yè)的重要度/豐富度等。


      • 提供檢索服務(wù)。用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫(kù)中找到匹配該關(guān)鍵詞的網(wǎng)頁(yè);為了用戶便于判斷,除了網(wǎng)頁(yè)標(biāo)題和URL外,還會(huì)提供一段來(lái)自網(wǎng)頁(yè)的摘要以及其他信息。

      亚洲AV无码国产在丝袜线观看_亚洲第一页A∨在线_亚洲国产人成在线观看69网站_无码日韩人妻AV一区免费l
      <strike id="3tkic"><sup id="3tkic"></sup></strike>

      1. <ul id="3tkic"></ul>
          <b id="3tkic"><legend id="3tkic"></legend></b>
          <b id="3tkic"><meter id="3tkic"></meter></b>

        • <strike id="3tkic"></strike>

          <blockquote id="3tkic"></blockquote>

        • 阿鲁科尔沁旗| 永德县| 东源县| 乐东| 西华县| 湾仔区| 沈阳市| 科技| 互助| 洮南市| 陵川县| 潮安县| 黄浦区| 花垣县| 英德市| 鹤庆县| 清水河县| 云林县| 开化县| 克拉玛依市| 晋江市| 桐梓县| 佛坪县| 东安县| 泰州市| 抚远县| 永和县| 黑龙江省| 呼图壁县| 岳阳县| 尖扎县| 嘉祥县| 平潭县| 威信县| 始兴县| 南郑县| 雷州市| 韶关市| 专栏| 乌拉特后旗| 大关县|