<strike id="3tkic"><sup id="3tkic"></sup></strike>

  1. <ul id="3tkic"></ul>
      <b id="3tkic"><legend id="3tkic"></legend></b>
      <b id="3tkic"><meter id="3tkic"></meter></b>

    • <strike id="3tkic"></strike>

      <blockquote id="3tkic"></blockquote>

    • 亚洲AV无码国产在丝袜线观看_亚洲第一页A∨在线_亚洲国产人成在线观看69网站_无码日韩人妻AV一区免费l

      摸清搜索引擎抓取規(guī)律才能更好地建設(shè)優(yōu)化網(wǎng)站

      2013/9/27 16:03:15   閱讀:2138    發(fā)布者:2138
      如何優(yōu)化好辛辛苦苦建設(shè)好的網(wǎng)站?其實不難,摸清楚搜索引擎的規(guī)律,才能更加有效地優(yōu)化網(wǎng)站。在我們看來,搜索引擎日復(fù)一日看似簡單的“抓取-入庫-查詢”的工作,其實各個環(huán)節(jié)暗含的算法是非常復(fù)雜的。搜索引擎抓取頁面工作靠蜘蛛完成,抓取動作很容易實現(xiàn),但是抓取哪些頁面,優(yōu)先抓取哪些頁面卻需要算法來決定,下面介紹幾個抓取算法: 
      1、寬度優(yōu)先抓取策略:
      我們都知道,大部分網(wǎng)站都是按照樹狀圖來完成頁面分布的,那么在一個樹狀圖的鏈接結(jié)構(gòu)中,哪些頁面會被優(yōu)先抓取呢?為什么要優(yōu)先抓取這些頁面呢?寬度優(yōu)先抓取策略就是按照樹狀圖結(jié)構(gòu),優(yōu)先抓取同級鏈接,待同級鏈接抓取完成后,再抓取下一級鏈接。
      一般來說,鏈接結(jié)構(gòu)可以由任何頁面的鏈接構(gòu)成,并不一定是網(wǎng)站內(nèi)部鏈接。這是一種理想化的寬度優(yōu)先抓取策略,在實際的抓取過程中,不可能想這樣完全寬度優(yōu)先,而是有限寬度優(yōu)先,比如首頁鏈接,內(nèi)頁鏈接,首頁內(nèi)鏈接,內(nèi)頁內(nèi)的次級鏈接等等。
      2、非完全遍歷鏈接權(quán)重計算:
      每個搜索引擎都有一套頁面權(quán)重,非google 算方法,并且經(jīng)常會更新。互聯(lián)網(wǎng)近乎無窮大,每天都會產(chǎn)生海量的新鏈接。搜索引擎對于鏈接權(quán)重的計算只能是非完全遍歷。為什么Google PR要三個月左右才更新一次?為什么百度大更新一個月1-2兩次?這就是因為搜索引擎采用了非完全遍歷鏈接權(quán)重算法來計算鏈接權(quán)重。其實按照目前的技術(shù),實現(xiàn)更快頻率的權(quán)重更新并不難,計算速度以及存儲速度完全跟得上,但為什么不去做?因為沒那么必要,或者已經(jīng)實現(xiàn)了,但不想公布出來。那,什么是非完全遍歷鏈接權(quán)重計算?
      我們將K數(shù)量的鏈接形成一個集合,R代表鏈接所獲得的S代表鏈接所包含的鏈接數(shù)量,Q代表是否參與傳遞,β代表阻尼因數(shù),那么鏈接所獲得的權(quán)重計算公式為:
      從公式 里可以發(fā)現(xiàn),決定鏈接權(quán)重的是Q,如果鏈接被發(fā)現(xiàn)作弊,或者搜索引擎人工清除,或者其他原因,Q被設(shè)為0,那么再多的外鏈都沒用。β是阻尼因數(shù),主要作用是防止權(quán)重0的出現(xiàn),導(dǎo)致鏈接無法參與權(quán)重傳遞,以及防止作弊的出現(xiàn)。阻尼因數(shù)β一般為0.85。為什么會在網(wǎng)站數(shù)量上乘以阻尼因數(shù)?因為一個頁面內(nèi)并非所有的頁面都參與權(quán)重傳遞,搜索引擎會將已經(jīng)過濾過的鏈接再度剔除15%。
      但這種非完全遍歷權(quán)重計算需要積累到一定數(shù)量的鏈接后才能再次開始計算,所以一般更新周期比較慢,無法滿足用戶對即時信息的需求。所以在此基礎(chǔ)上,出現(xiàn)了實時權(quán)重分配抓取策略。即當(dāng)蜘蛛完成抓取頁面并入口后,馬上進(jìn)行權(quán)重分配,將權(quán)重重新分配待抓取鏈接庫,然后蜘蛛根據(jù)權(quán)重高低來進(jìn)行抓取。
      3、社會工程學(xué)抓取策略
      社會工程學(xué)策略,就是在蜘蛛抓取的過程中,加入人工智能,或者通過人工智能培訓(xùn)出來的機(jī)器智能,來確定抓取的優(yōu)先度。目前我已知的抓取策略有:
      a、熱點優(yōu)先策略:對于爆發(fā)式的熱點關(guān)鍵詞進(jìn)行優(yōu)先抓取,而且不需要經(jīng)過嚴(yán)格的去重和過濾,因為會有新的鏈接來覆蓋以及用戶的主動選擇。
      b、權(quán)威優(yōu)先策略:搜索引擎會給每個網(wǎng)站分配一個權(quán)威度,通過網(wǎng)站歷史、網(wǎng)站更新等來確定網(wǎng)站的權(quán)威度,優(yōu)先抓取權(quán)威度高的網(wǎng)站鏈接。
      c、用戶點擊策略:當(dāng)大部分搜索一個行業(yè)詞庫內(nèi)的關(guān)鍵詞時,頻繁的點擊同一個網(wǎng)站的搜索結(jié)果,那么搜索引擎會更頻繁的抓取這個網(wǎng)站。
      d、歷史參考策略:對于保持頻繁更新的網(wǎng)站,搜索引擎會對網(wǎng)站建立更新歷史,根據(jù)更新歷史來預(yù)估未來的更新量以及確定抓取頻率。
      對SEO工作的指導(dǎo):
      搜索引擎的抓取原理已經(jīng)深入的講解了,那么現(xiàn)在要淺出這些原理對SEO工作的指導(dǎo)作用:
      A、定時、定量的更新會讓蜘蛛準(zhǔn)時爬行抓取網(wǎng)站頁面
      B、公司運作網(wǎng)站比個人網(wǎng)站的權(quán)威度更高
      C、建站時間長的網(wǎng)站更容易被抓取
      D、頁面內(nèi)應(yīng)適當(dāng)?shù)姆植兼溄樱唷⑻俣疾缓?br /> E、受用戶歡迎的網(wǎng)站同樣受搜索引擎歡迎
      F、重要頁面應(yīng)該放置在更淺的網(wǎng)站結(jié)構(gòu)中
      G、網(wǎng)站內(nèi)的行業(yè)權(quán)威信息會提高網(wǎng)站的權(quán)威度。
      這次教程就到這里了,下次教程的主題是:頁面價值以及網(wǎng)站權(quán)重的計算。
      亚洲AV无码国产在丝袜线观看_亚洲第一页A∨在线_亚洲国产人成在线观看69网站_无码日韩人妻AV一区免费l
      <strike id="3tkic"><sup id="3tkic"></sup></strike>

      1. <ul id="3tkic"></ul>
          <b id="3tkic"><legend id="3tkic"></legend></b>
          <b id="3tkic"><meter id="3tkic"></meter></b>

        • <strike id="3tkic"></strike>

          <blockquote id="3tkic"></blockquote>

        • 凤山市| 正定县| 应城市| 新巴尔虎右旗| 丹东市| 惠安县| 胶州市| 汉寿县| 科尔| 勃利县| 进贤县| 木里| 当雄县| 全州县| 道孚县| 额尔古纳市| 晋城| 商水县| 平塘县| 台湾省| 东宁县| 淳化县| 思南县| 论坛| 青神县| 永安市| 西乌珠穆沁旗| 隆尧县| 巴楚县| 新龙县| 新和县| 巴彦淖尔市| 娱乐| 卫辉市| 眉山市| 江川县| 章丘市| 汶川县| 泗洪县| 邳州市| 景泰县|