百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

為了讓百度搜索的重要合作伙伴——廣大站長充分了解百度搜索引擎規(guī)則,并根據(jù)規(guī)則合理安全建設(shè)網(wǎng)站、優(yōu)化網(wǎng)站,更好的獲取搜索流量;百度搜索資源平臺歷時3個月,探訪搜索內(nèi)部各個技術(shù)部門,將百度搜索內(nèi)部技術(shù)原理抽絲剝繭,化零為整,整理出《百度移動搜索建站優(yōu)化白皮書》,希望與各位站長攜手,為用戶提供一個健康安全高效的搜索環(huán)境。

1 前言

手機(jī)百度是一款有6億用戶在使用的手機(jī)搜索客戶端,在中文用戶信息獲取上發(fā)揮了不可替代的作用;移動搜索引擎每日分發(fā)上億流量給到優(yōu)質(zhì)安全網(wǎng)站,來滿足用戶的搜索需求;而對于廣大的站長來說,優(yōu)質(zhì)安全的網(wǎng)站有助于在搜索引擎中獲得良好的排序和展現(xiàn),從而吸引更多用戶,獲得更多流量。

移動搜索引擎優(yōu)化,指從建站開始到吸引用戶,貫穿所有流程,為了讓百度搜索的重要合作伙伴——廣大站長充分了解百度搜索引擎規(guī)則,并根據(jù)規(guī)則合理安全建設(shè)網(wǎng)站、優(yōu)化網(wǎng)站,更好的獲取搜索流量;百度搜索資源平臺歷時3個月,探訪搜索內(nèi)部各個技術(shù)部門,將百度搜索內(nèi)部技術(shù)原理抽絲剝繭,化零為整,整理出《百度移動搜索建站優(yōu)化白皮書》,希望與各位站長攜手,為用戶提供一個健康安全高效的搜索環(huán)境。

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書
2 網(wǎng)站建設(shè)

2.1 域名選擇

網(wǎng)站域名選擇,不僅能快速直觀讓用戶了解網(wǎng)站定位,域名設(shè)置,更會影響搜索對網(wǎng)站的抓取情況。因此,選擇簡單好記且安全的域名,是網(wǎng)站搭建前期最重要的一步。

2.1.1 域名選擇的注意事項(xiàng)

網(wǎng)站搭建之初,對網(wǎng)站域名選擇,建議域名獨(dú)立,簡單好記;獨(dú)立移動站域名選擇也遵循此規(guī)則。

移動站的域名需與PC站域名分開,移動站不建議與PC站公用一個域名;比如PC網(wǎng)站域名建議是allfloridahomeinspectors.com,對應(yīng)移動站的域名是m.growthhk.cn,而不是allfloridahomeinspectors.com/m/的形式;如果是自適應(yīng)網(wǎng)站可不考慮此情況。

網(wǎng)站域名選擇中,需要規(guī)避的是,互聯(lián)網(wǎng)中一些開放注冊的域名,如:

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

類似的還有:.party,.science等。

此類域名注冊成本相對較低,一般是站群作弊者的溫床,針對這類域名后綴,不建議各位站長們使用,使用后可能會出現(xiàn)搜索抓取延遲等問題;如有發(fā)現(xiàn)正當(dāng)運(yùn)營的此類域名站點(diǎn),請?jiān)谒阉髻Y源平臺驗(yàn)證站點(diǎn),系統(tǒng)校驗(yàn)站點(diǎn)內(nèi)容后,則會保持跟其他正常域名一樣的抓取優(yōu)先級。

2.1.2 使用子域名或目錄

網(wǎng)站是否需要建立子域名,或是劃分多級目錄,可根據(jù)網(wǎng)站自身定位及網(wǎng)站內(nèi)容量級決定。通常來說,綜合類或內(nèi)容量較多的網(wǎng)站,可將內(nèi)容按照不同二級域明確劃分;而如果網(wǎng)站內(nèi)容較少,不建議網(wǎng)站開設(shè)過多的子域名。

舉例來說,blog形式站點(diǎn),有的網(wǎng)站給到每個blog作者單獨(dú)的三級域,但如果作者發(fā)布頻率較低,整個三級域都是更新頻率很低的狀態(tài),過低的發(fā)布頻率對搜索引擎來說是不友好的。

2.2 內(nèi)容發(fā)布系統(tǒng)

內(nèi)容發(fā)布系統(tǒng),無論是網(wǎng)站自建還是使用第三方建站系統(tǒng),百度都是支持的;所有發(fā)布系統(tǒng),除遵循有條理、邏輯清晰建站,還要注意網(wǎng)站搭建的安全問題,避免網(wǎng)站安全隱患,才能更好的提升網(wǎng)站價值。

2.2.1 自建內(nèi)容發(fā)布系統(tǒng)

網(wǎng)站自建內(nèi)容發(fā)布系統(tǒng),注意事項(xiàng)包括:

  • √ 主體內(nèi)容清晰且能夠很好的識別與分辨;
  • √ 后臺發(fā)布時間切勿自行設(shè)置,遵循發(fā)布時間與展示時間一致;
  • √ 內(nèi)容發(fā)布系統(tǒng)中各表單設(shè)置合理,如對tag標(biāo)簽的設(shè)置不宜過多、不宜羅列關(guān)鍵詞;
  • √ 分類劃分明確,分類主題的文章對應(yīng)發(fā)布到相應(yīng)分類下;
  • √ 題文相符,切勿掛羊頭賣狗肉,欺騙搜索引擎流量,損傷用戶體驗(yàn);
  • √ 段落清晰合理、字體大小適中、字體顏色切勿使用與背景色相近的顏色;
  • √ 發(fā)布內(nèi)容目錄劃分清晰,具體參考2.3章節(jié)中網(wǎng)站結(jié)構(gòu)設(shè)置。

2.2.2 第三方發(fā)布系統(tǒng)

使用第三方發(fā)布系統(tǒng)建站,需要站長關(guān)注以下注意事項(xiàng):

  • √ 模板主題不建議頻繁更換;
  • √ 類似wordpress等系統(tǒng),不建議使用過多插件,會影響網(wǎng)頁打開速度;
  • √ URL偽靜態(tài)的處理,命名規(guī)范、層級清晰;
  • √ 開源建站系統(tǒng)存在較多安全隱患,使用過程中務(wù)必做一些安全上的設(shè)置和優(yōu)化。

2.2.3 頁面生成規(guī)范

無論網(wǎng)站自建發(fā)布系統(tǒng),還是網(wǎng)站使用第三方建站系統(tǒng),網(wǎng)站頁面的生成,都應(yīng)注意以下幾點(diǎn):

  • 網(wǎng)頁結(jié)構(gòu)清晰、各分類名稱設(shè)置醒目;
  • 導(dǎo)航、面包屑導(dǎo)航設(shè)置合理,機(jī)器可讀、位置突出,用戶能很好得知所訪問頁面在網(wǎng)站中的位置;
  • 不存在遮擋主體內(nèi)容的廣告元素;
  • 無三俗圖文、音頻元素;
  • 注意網(wǎng)站搭建系統(tǒng)安全問題,杜絕網(wǎng)站安全隱患。

訪問請求中的content-type需要根據(jù)對應(yīng)的類型進(jìn)行正確設(shè)置,圖示如下:

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

除此之外,關(guān)于頁面規(guī)范標(biāo)準(zhǔn),建議參考搜索學(xué)院發(fā)布的《百度搜索Mobile Friendly(移動友好度)標(biāo)準(zhǔn)V1.0》

2.3 網(wǎng)站結(jié)構(gòu)

合理設(shè)置網(wǎng)站結(jié)構(gòu),是網(wǎng)站被快速抓取、獲得搜索流量的基礎(chǔ);因網(wǎng)站結(jié)構(gòu)設(shè)置不合理,導(dǎo)致網(wǎng)站無法被快速識別抓取的事例在百度日常反饋中經(jīng)常見到,且網(wǎng)站換域名也會對網(wǎng)站造成一定損失,故希望各位站長從建站之初重視網(wǎng)站結(jié)構(gòu)設(shè)置,避免不必要的損失。

2.3.1 URL結(jié)構(gòu)設(shè)置

URL搭建是否有嚴(yán)格要求,請看以下幾點(diǎn)注意事項(xiàng):

在搭建網(wǎng)站結(jié)構(gòu)、制作URL時,盡量避開非主流設(shè)計(jì),追求簡單美即可,越簡單越平常,越好,例如URL中出現(xiàn)生僻字符,如不常見的“II”,會引起搜索引擎識別錯誤;

不建議URL中含有中文字符,中文字符容易出現(xiàn)編碼轉(zhuǎn)換問題,造成識別錯誤

URL長度要求去掉協(xié)議頭http(s)://之后的URL長度不要超過256個字節(jié);

謹(jǐn)慎使用#參數(shù),有效的參數(shù)不能放在#后面;可能被截?cái)鄬?dǎo)致網(wǎng)頁抓取異常。

2.3.2 目錄結(jié)構(gòu)設(shè)置

網(wǎng)站目錄結(jié)構(gòu)搭建是否合理,影響搜索引擎對網(wǎng)站的抓取情況,這里需要提到的是,網(wǎng)站目錄結(jié)構(gòu)無論是扁平化還是樹形結(jié)構(gòu),一般都可以被搜索引擎發(fā)現(xiàn),但有以下幾點(diǎn)注意事項(xiàng):

建議不同內(nèi)容放在不同目錄或子域下,域名劃分在2.1.2網(wǎng)站域名劃分章節(jié)中有詳細(xì)提到;

不要使用孤島鏈接,孤島鏈接很難被搜索引擎快速發(fā)現(xiàn);若網(wǎng)站已存在大量孤島鏈接,建議使用搜索資源平臺的鏈接提交工具向百度提交數(shù)據(jù);

重要內(nèi)容不建議放在深層目錄,若該內(nèi)容沒有大量內(nèi)鏈指向,搜索引擎很難判斷該頁面的重要程度。

以下是圖片示例:

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

2.4 服務(wù)商/自建服務(wù)器

選擇服務(wù)商或者自建服務(wù)器,對網(wǎng)站搭建都是十分重要基礎(chǔ)的一環(huán);服務(wù)器安全和穩(wěn)定將直接影響百度搜索引擎對網(wǎng)站的整體判斷。

2.4.1 域名服務(wù)

2.4.1.1 域名服務(wù)&域名部署
關(guān)于域名服務(wù)和域名部署,有以下注意事項(xiàng):

  • √ 站長在域名部署中請仔細(xì)各環(huán)節(jié)問題,不要出現(xiàn)域名部署錯誤情況;
  • √ 不建議網(wǎng)站進(jìn)行泛解析,若網(wǎng)站爆發(fā)大規(guī)模泛解析,且影響惡劣,則會受到搜索策略打壓;
  • √ 盡量選擇優(yōu)質(zhì)域名服務(wù)商。

2.4.2 服務(wù)器

做網(wǎng)站還有非常重要的一環(huán),就是服務(wù)器的選擇,那服務(wù)器選擇中,無論是虛擬主機(jī)、云主機(jī)還是獨(dú)立的服務(wù)器,都應(yīng)該注意以下四點(diǎn):

  • √ 中文網(wǎng)站不建議選擇國外服務(wù)器;
  • √ 服務(wù)器的穩(wěn)定性非常重要,需要保持訪問流暢,服務(wù)器是否穩(wěn)定,可以使用百度搜索資源平臺(原百度站長平臺)抓取異常、抓取診斷工具進(jìn)行檢測維護(hù)。(服務(wù)器經(jīng)常無法訪問或者死機(jī),對爬蟲來講都是致命傷害);
  • √ 服務(wù)器選擇除了自身的穩(wěn)定性外,實(shí)際上還要考慮網(wǎng)站的業(yè)務(wù)量,例如帶寬、內(nèi)存、CPU是否能夠承受訪問量,突發(fā)大流量情況下是否可以正常訪問;
  • √ 服務(wù)器主機(jī)設(shè)置,需要注意是否有禁止爬蟲抓取的設(shè)置、或存在404錯誤信息設(shè)置,這些情況都會引起不必要的搜索引擎抓取判斷異常,為網(wǎng)站帶來不必要的損失。

2.4.2.1 虛擬主機(jī)
總的來說,建議虛擬主機(jī)選購時候需要特別注意:

  • √ 主機(jī)商是否存在限制搜索引擎訪問的情況;
  • √ 主機(jī)商的資質(zhì)是否符合要求;
  • √ 主機(jī)商的技術(shù)沉淀是否足夠,建議選擇品牌較大的主機(jī)商;
  • √ 主機(jī)商托管的機(jī)房的物理?xiàng)l件和網(wǎng)絡(luò)條件是否足夠優(yōu)秀;
  • √ 主機(jī)商的技術(shù)和客服支持情況是否夠好;
  • √ 主機(jī)商是否會存在超容量的情況;
  • √ 主機(jī)商是否存在違規(guī)接入高風(fēng)險站點(diǎn)的問題或同一IP下是否會存在高風(fēng)險站點(diǎn)的情況;
  • √ 國內(nèi)站點(diǎn)建議選購國內(nèi)云主機(jī)建站。

2.4.2.2 獨(dú)立主機(jī)
獨(dú)立主機(jī)為站點(diǎn)帶來更加寬松的使用環(huán)境和個性軟件的安裝,因此獨(dú)立主機(jī)需要站長擁有一定的技術(shù)力量來保證網(wǎng)站的正常運(yùn)行和安全。

我們對于站長選購和托管獨(dú)立主機(jī)的建議是:

  • √ 注意虛擬主機(jī)是否有將爬蟲IP拉入黑名單,關(guān)于百度UA,可以參考3.1.2.1百度蜘蛛章節(jié);
  • √ 建議使用獨(dú)立IP地址的主機(jī);
  • √ 建議使用規(guī)模較大機(jī)構(gòu)的主機(jī),在安全配置、穩(wěn)定性上相對更好;
  • √ 對IDC服務(wù)商的建設(shè)標(biāo)準(zhǔn)需要一定的考慮,例如防火、防盜、是否有UPS保證、室內(nèi)溫控、消防等;
  • √ IDC服務(wù)商的服務(wù)質(zhì)量和技術(shù)是否達(dá)標(biāo),是否24h值班,是否能夠協(xié)助排查一些故障、免費(fèi)重啟重裝系統(tǒng)等;
  • √ IDC機(jī)房的資質(zhì)是否齊全,存放站點(diǎn)是否有高風(fēng)險站點(diǎn)或服務(wù)器存在。

2.4.3 安全服務(wù)

2.4.3.1 HTTPS
當(dāng)前百度已實(shí)行全站化HTTPS安全加密服務(wù),百度HTTPS安全加密已覆蓋主流瀏覽器,旨在用戶打造了一個更隱私化的互聯(lián)網(wǎng)空間、加速了國內(nèi)互聯(lián)網(wǎng)的HTTPS化。同時也希望更多網(wǎng)站加入到HTTPS的隊(duì)伍中來,為網(wǎng)絡(luò)安全貢獻(xiàn)一份力量。

HTTPS安全原理解析

HTTPS主要由有兩部分組成:HTTP + SSL / TLS,也就是在HTTP上又加了一層處理加密信息的模塊。服務(wù)端和客戶端的信息傳輸都會通過TLS進(jìn)行加密,所以傳輸?shù)臄?shù)據(jù)都是加密后的數(shù)據(jù)。HTTPS與HTTP的原理區(qū)別可以觀察下圖:

HTTS復(fù)雜的加密機(jī)制有效的加大了網(wǎng)站的安全性,加密機(jī)制與認(rèn)證機(jī)制可以減少網(wǎng)站被劫持和假冒的風(fēng)險,建議站長們可以通過做HTTPS改造來強(qiáng)化網(wǎng)站安全。

百度搜索資源平臺為了更好的抓取識別HTTPS網(wǎng)站,2017年還推出了HTTPS認(rèn)證工具,已經(jīng)完成HTTPS改造的網(wǎng)站,可以在搜索資源平臺-網(wǎng)站支持-HTTPS認(rèn)證工具中提交網(wǎng)站的HTTPS數(shù)據(jù),便于百度更好抓取識別網(wǎng)站。關(guān)于HTTPS認(rèn)證工具詳解,可以參考5.3.2HTTPS認(rèn)證工具章節(jié)。

2.4.3.2 網(wǎng)站防止被黑對策
網(wǎng)站被黑,通常表現(xiàn)為網(wǎng)站中出現(xiàn)大量非本網(wǎng)站發(fā)布的類似博彩內(nèi)容,或網(wǎng)站頁面直接跳轉(zhuǎn)到博彩頁面;以下是網(wǎng)站被黑后發(fā)布的內(nèi)容:

內(nèi)容非網(wǎng)站發(fā)布,內(nèi)容中含大量博彩網(wǎng)站指向:

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

網(wǎng)站頁面直接跳轉(zhuǎn)到博彩網(wǎng)站:

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

網(wǎng)站被黑代表網(wǎng)站安全存在嚴(yán)重問題或漏洞,如何防范網(wǎng)站被黑,請參考以下:

首先,自查是否被黑

  • √ 被黑網(wǎng)站在數(shù)據(jù)上有一個特點(diǎn),即索引量和從搜索引擎帶來的流量在短時間內(nèi)異常數(shù)據(jù)異常。所以,站長可以利用百度搜索資源平臺(原百度站長平臺)的索引量工具,觀察站點(diǎn)索引量是否有異常;如果發(fā)現(xiàn)數(shù)據(jù)異常,再通過流量與關(guān)鍵詞工具查看獲得流量的關(guān)鍵詞是否與網(wǎng)站有關(guān)、是否涉及博彩和色情;
  • √ 通過Site語法查詢站點(diǎn),結(jié)合一些常見的色情、博彩類關(guān)鍵詞效果更佳,有可能發(fā)現(xiàn)不屬于站點(diǎn)的非法頁面;
  • √ 由于百度流量巨大,有些被黑行為僅針對百度帶來的流量予以跳轉(zhuǎn),站長很難發(fā)現(xiàn),所以在查看自己站點(diǎn)是否被黑時,一定要從百度搜索結(jié)果中點(diǎn)擊站點(diǎn)頁面,查看是否跳轉(zhuǎn)到了其他站點(diǎn);
  • √ 站點(diǎn)內(nèi)容在百度搜索結(jié)果中被提示存在風(fēng)險;
  • √ 后續(xù)可以請網(wǎng)站技術(shù)人員通過后臺數(shù)據(jù)和程序進(jìn)一步確認(rèn)網(wǎng)站是否被黑。

其次,被黑之后如何處理

  • √ 確認(rèn)網(wǎng)站被黑后,SEO人員除了要推動技術(shù)人員快速修正外,還需要做一些善后和預(yù)防的工作;
  • √ 網(wǎng)站如有變更頁面,變更頁面建議使用鏈接提交工具向百度提交數(shù)據(jù);
  • √ 立即停止網(wǎng)站服務(wù),避免用戶繼續(xù)受影響,防止繼續(xù)影響其他站點(diǎn);
  • √ 如果同一主機(jī)提供商同期內(nèi)有多個站點(diǎn)被黑,可以聯(lián)系主機(jī)提供商,敦促對方做出應(yīng)對;
  • √ 清理已發(fā)現(xiàn)的被黑內(nèi)容,將被黑頁面設(shè)置為404死鏈,并通過百度搜索資源平臺(原百度站長平臺)死鏈提交工具進(jìn)行提交。(我們發(fā)現(xiàn)有些站點(diǎn)采用了將被黑頁面跳轉(zhuǎn)至首頁的做法,非常不可取。);
  • √ 排查出可能的被黑時間,和服務(wù)器上的文件修改時間相比對,處理掉黑客上傳、修改過的文件;檢查服務(wù)器中的用戶管理設(shè)置,確認(rèn)是否存在異常的變化;更改服務(wù)器的用戶訪問密碼。注:可以從訪問日志中,確定可能的被黑時間。不過黑客可能也修改服務(wù)器的訪問日志;
  • √ 做好安全工作,排查網(wǎng)站存在的漏洞,防止再次被黑。

網(wǎng)站自我防護(hù)的注意事項(xiàng):

√ 多種安全防護(hù)同步進(jìn)行:適合中小型資訊網(wǎng)站;

● 網(wǎng)站程序勤打補(bǔ)?。含F(xiàn)在很多資訊類網(wǎng)站用的系統(tǒng)使用了內(nèi)容管理系統(tǒng)(CMS),作為新聞發(fā)布系統(tǒng),功能還算可以了,但是作為比較常見的內(nèi)容管理系統(tǒng)(CMS),也有另一個問題,那就是漏洞比較大眾化,因?yàn)樵创a是公開的,所以很容易被研究出漏洞,需要對網(wǎng)站程序及時進(jìn)行漏洞修復(fù)。

√ 對服務(wù)器進(jìn)行常規(guī)的安全防護(hù);

● 在上班時間之外,對服務(wù)器上的網(wǎng)站權(quán)限做設(shè)置,禁止文件修改,后臺文件隱藏或遷移到根目錄之外。

● 參考一些網(wǎng)站的安全設(shè)置,非限定的IP不能寫入到數(shù)據(jù)庫。

√ 不使用開源程序默認(rèn)的robots文件;

● 下圖是一個地級市的資訊類站點(diǎn)的robots文件,從robots文件中可以看出,該網(wǎng)站用的是織夢后臺,那黑客就可以通過各種針對織夢攻擊的軟件進(jìn)行操作了,也可以針對織夢網(wǎng)站的常見漏洞進(jìn)行掃描和針對性攻擊了。

2.4.4 網(wǎng)絡(luò)服務(wù)

2.4.4.1 CDN
從搜索抓取機(jī)制上講:百度蜘蛛對站點(diǎn)的抓取方式和普通用戶訪問一樣,只要普通用戶能訪問到的內(nèi)容,百度蜘蛛就能抓取到。不管是用什么技術(shù),只要能保證用戶能流暢的訪問網(wǎng)站,對搜索引擎就沒有影響。但有站長反饋使用CDN后出現(xiàn)網(wǎng)站抓取異常、甚至流量異常等問題,主要是兩方面的因素:

一是部分CDN服務(wù)商硬件投入不夠,經(jīng)常出現(xiàn)不穩(wěn)定情況,會導(dǎo)致大量的蜘蛛抓取失敗,從而影響網(wǎng)站抓取效果,有的甚至影響了索引量數(shù)據(jù);所以選擇有實(shí)力的CDN服務(wù)商很重要;

二是緩存機(jī)制在網(wǎng)站出現(xiàn)死鏈、無法打開、被黑等情況的時候起到了推波助瀾的作用。短時間內(nèi)產(chǎn)生了一些不利快照,影響了排名。這種情況不用擔(dān)心,及時清理源文件和CDN緩存,并在百度搜索資源平臺(原百度站長平臺)提交相關(guān)死鏈數(shù)據(jù)等方法進(jìn)行挽回,是可以恢復(fù)的。

3 網(wǎng)站優(yōu)化

3.1 抓取友好性

關(guān)于抓取的優(yōu)先級,在此重點(diǎn)強(qiáng)調(diào):

  • √ 網(wǎng)站更新頻率:經(jīng)常更新高價值的站點(diǎn),優(yōu)先抓取;
  • √ 受歡迎程度:用戶體驗(yàn)好的站點(diǎn),優(yōu)先抓?。?/li>
  • √ 優(yōu)質(zhì)入口:優(yōu)質(zhì)站點(diǎn)內(nèi)鏈接,優(yōu)先抓取;
  • √ 歷史的抓取效果越好,越優(yōu)先抓?。?/li>
  • √ 服務(wù)器穩(wěn)定,優(yōu)先抓取;
  • √ 安全記錄優(yōu)質(zhì)的網(wǎng)站,優(yōu)先抓?。?/li>

順暢穩(wěn)定的抓取是網(wǎng)站獲得搜索用戶、搜索流量的重要前提,影響抓取的關(guān)鍵因素,站長可以通過本章節(jié)了解。

3.1.1 URL規(guī)范

網(wǎng)站的URL如何設(shè)置,可參考2.3.1中的URL設(shè)置規(guī)范

3.1.1.1 參數(shù)
URL中的參數(shù)放置,需遵循兩個要點(diǎn):

  • √ 參數(shù)不能太復(fù)雜;
  • √ 不要用無效參數(shù),無效參數(shù)會導(dǎo)致頁面識別問題,頁面內(nèi)容最終無法在搜索展示

另外,很多站長利用參數(shù)(對搜索引擎和頁面內(nèi)容而言參數(shù)無效)統(tǒng)計(jì)站點(diǎn)訪問行為,這里強(qiáng)調(diào)下,盡量不要出現(xiàn)這種形式資源,例如:

https://www.test.com/deal/w00tb7cyv.html?s=a67b0e875ae58a14e3fcc460422032d3

或者:

http://nmtp.test.com/;NTESnmtpSI=029FF574C4739E1D0A45C9C90D656226.hzayq-nmt07.server.163.org-8010#/app/others/details?editId=&articleId=578543&articleType=0&from=sight

3.1.2 鏈接發(fā)現(xiàn)

3.1.2.1 百度蜘蛛

很多站長會咨詢?nèi)绾闻袛喟俣纫苿又┲耄@里推薦一種方法,只需兩步,正確識別百度蜘蛛:

查看UA

如果UA都不對,可以直接判斷非百度搜索的蜘蛛,目前對外公布過的UA是:

移動UA 1:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn?? AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/ search/ spider.html)

移動UA 2:

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

PC UA 1:

Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

PC UA 2:

Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/ spider.html)

反查IP

站長可以通過DNS反查IP的方式判斷某只蜘蛛是否來自百度搜索引擎。根據(jù)平臺不同驗(yàn)證方法不同,如Linux/Windows/OS三種平臺下的驗(yàn)證方法分別如下:

在Linux平臺下,可以使用hostip命令反解IP來判斷是否來自百度蜘蛛的抓取。百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即為冒充。

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

這里需要再提出一點(diǎn),建議使用DNS更換為8.8.8.8后進(jìn)行nslookup反向解析,否則很容易出現(xiàn)無返回或返回錯誤的問題。

在Windows平臺下,可以使用nslookup ip命令反解IP來判斷是否來自百度蜘蛛的抓取。打開命令處理器輸入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析IP,來判斷是否來自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即為冒充。

在Mac OS平臺下,網(wǎng)站可以使用dig命令反解IP來判斷是否來自百度蜘蛛的抓取。打開命令處理器輸入dig xxx.xxx.xxx.xxx(IP地址)就能解析IP,來判斷是否來自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com的格式命名,非*.baidu.com即為冒充。

3.1.2.2 鏈接提交

鏈接提交工具是網(wǎng)站主動向百度搜索推送數(shù)據(jù)的工具,網(wǎng)站使用鏈接提交可縮短爬蟲發(fā)現(xiàn)網(wǎng)站鏈接時間,目前鏈接提交工具支持四種方式提交:

  • √ 主動推送:是最為快速的提交方式,建議將站點(diǎn)當(dāng)天新產(chǎn)出鏈接立即通過此方式推送給百度,以保證新鏈接可以及時被百度抓??;
  • √ Sitemap:網(wǎng)站可定期將網(wǎng)站鏈接放到Sitemap中,然后將Sitemap提交給百度。百度會周期性的抓取檢查提交的Sitemap,對其中的鏈接進(jìn)行處理,但抓取速度慢于主動推送;
  • √ 手工提交:如果不想通過程序提交,那么可以采用此種方式,手動將鏈接提交給百度;
  • √ 自動推送:是輕量級鏈接提交組件,將自動推送的JS代碼放置在站點(diǎn)每一個頁面源代碼中,當(dāng)頁面被訪問時,頁面鏈接會自動推送給百度,有利于新頁面更快被百度發(fā)現(xiàn)。

簡單來說:建議有新聞屬性站點(diǎn),使用主動推送進(jìn)行數(shù)據(jù)提交;新驗(yàn)證平臺站點(diǎn),或內(nèi)容無時效性要求站點(diǎn),可以使用Sitemap將網(wǎng)站全部內(nèi)容使用Sitemap提交;技術(shù)能力弱,或網(wǎng)站內(nèi)容較少的站點(diǎn),可使用手工提交方式進(jìn)行數(shù)據(jù)提交;最后,還可以使用插件方式,自動推送方式給百度提交數(shù)據(jù)。

3.1.3 網(wǎng)頁抓取

3.1.3.1 訪問速度

關(guān)于移動頁面的訪問速度,百度搜索資源平臺(原百度站長平臺)已于2017年10月推出過閃電算法,針對頁面首頁的打開速度給予策略支持。閃電算法中指出,移動搜索頁面首屏加載時間將影響搜索排名。移動網(wǎng)頁首屏加載時間在2秒之內(nèi)的,在移動搜索下將獲得提升頁面評價優(yōu)待,獲得流量傾斜;同時,在移動搜索頁面首屏加載非常慢(3秒及以上)的網(wǎng)頁將會被打壓。

對于頁面訪問速度的提速,這里也給到幾點(diǎn)建議:

資源加載:

  • √ 將同類型資源在服務(wù)器端壓縮合并,減少網(wǎng)絡(luò)請求次數(shù)和資源體積;
  • √ 引用通用資源,充分利用瀏覽器緩存;
  • √ 使用CDN加速,將用戶的請求定向到最合適的緩存服務(wù)器上;
  • √ 非首屏圖片類加載,將網(wǎng)絡(luò)帶寬留給首屏請求。

頁面渲染:

  • √ 將CSS樣式寫在頭部樣式表中,減少由CSS文件網(wǎng)絡(luò)請求造成的渲染阻塞;
  • √ 將JavaScript放到文檔末尾,或使用異步方式加載,避免JS執(zhí)行阻塞渲染;
  • √ 對非文字元素(如圖片,視頻)指定寬高,避免瀏覽器重排重繪;

希望廣大站長持續(xù)關(guān)注頁面加載速度體驗(yàn),視網(wǎng)站自身情況,參照建議自行優(yōu)化頁面,或使用通用的加速解決方案(如MIP),不斷優(yōu)化頁面首屏加載時間。

了解MIP-移動網(wǎng)頁加速器可參考:https://www.mipengine.org/

3.1.3.2 返回碼

HTTP狀態(tài)碼是用以表示網(wǎng)頁服務(wù)器HTTP響應(yīng)狀態(tài)的3位數(shù)字代碼。各位站長在平時維護(hù)網(wǎng)站過程中,可能會在站長工具后臺抓取異常里面或者服務(wù)器日志里看到各種各樣的響應(yīng)狀態(tài)碼,有些甚至?xí)绊懢W(wǎng)站的SEO效果,例如重點(diǎn)強(qiáng)調(diào)網(wǎng)頁404設(shè)置,百度搜索資源平臺(原百度站長平臺)中部分工具如死鏈提交,需要網(wǎng)站把內(nèi)容死鏈后進(jìn)行提交,這里要求設(shè)置必須是404。

下面為大家整理了一些常見的HTTP狀態(tài)碼:

301:(永久移動)請求的網(wǎng)頁已被永久移動到新位置。服務(wù)器返回此響應(yīng)(作為對GET或HEAD請求的響應(yīng))時,會自動將請求者轉(zhuǎn)到新位置。

302:(臨時移動)服務(wù)器目前正從不同位置的網(wǎng)頁響應(yīng)請求,但請求者應(yīng)繼續(xù)使用原有位置來進(jìn)行以后的請求。此代碼與響應(yīng)GET和HEAD請求的301代碼類似,會自動將請求者轉(zhuǎn)到不同的位置。

這里強(qiáng)調(diào)301與302的區(qū)別:

  • 301/302的關(guān)鍵區(qū)別在于:這個資源是否存在/有效;
  • 301指資源還在,只是換了一個位置,返回的是新位置的內(nèi)容;
  • 302指資源暫時失效,返回的是一個臨時的代替頁(例如鏡像資源、首頁、404頁面)上。注意如果永久失效應(yīng)當(dāng)使用404。

有時站長認(rèn)為百度對302不友好,可能是誤用了302處理仍然有效的資源;

  • 400:(錯誤請求)服務(wù)器不理解請求的語法;
  • 403:(已禁止)服務(wù)器已經(jīng)理解請求,但是拒絕執(zhí)行它;
  • 404:(未找到)服務(wù)器找不到請求的網(wǎng)頁;

這里不得不提的一點(diǎn),很多站長想自定義404頁面,需要做到確保蜘蛛訪問時返回狀態(tài)碼為404,若因?yàn)?04頁面跳轉(zhuǎn)時設(shè)置不當(dāng),返回了200狀態(tài)碼,則容易被搜索引擎認(rèn)為網(wǎng)站上出現(xiàn)了大量重復(fù)頁面,從而對網(wǎng)站評價造成影響;

  • 500:(服務(wù)器內(nèi)部錯誤)服務(wù)器遇到錯誤,無法完成請求;
  • 502:(錯誤網(wǎng)關(guān))服務(wù)器作為網(wǎng)關(guān)或代理,從上游服務(wù)器收到了無效的響應(yīng);
  • 503:(服務(wù)不可用)目前無法使用服務(wù)器(由于超載或進(jìn)行停機(jī)維護(hù))。通常,這只是一種暫時的狀態(tài);
  • 504:(網(wǎng)關(guān)超時)服務(wù)器作為網(wǎng)關(guān)或代理,未及時從上游服務(wù)器接收請求。

3.1.3.3 robots

robots工具的詳細(xì)工具使用說明,細(xì)節(jié)參考4.3.4robots工具章節(jié),關(guān)于robots的使用,僅強(qiáng)調(diào)以下兩點(diǎn):

  • √ 百度蜘蛛目前在robots里是不支持中文的,故網(wǎng)站robots文件編寫不建議使用中文字符;
  • √ robots文件支持UrlEncode編碼這種寫法,如:http://www.test.cn/%E7%89%B9%E6%AE%8A:%E6%B5%8F%E8%A7%88/%E7%94%9F%E6%AD%BB%E7%8B%99%E5%87%BB:%E7%99%BD%E9%93%B6%E5%8A%A0%E7%89%B9%E6%9E%97

3.1.3.4 死鏈

當(dāng)網(wǎng)站死鏈數(shù)據(jù)累積過多,并且被展示到搜索結(jié)果頁中,對網(wǎng)站本身的訪問體驗(yàn)和用戶轉(zhuǎn)化都起到了負(fù)面影響。另一方面,百度檢查死鏈的流程也會為網(wǎng)站帶來額外負(fù)擔(dān),影響網(wǎng)站其他正常頁面的抓取和索引。

百度搜索資源平臺(原百度站長平臺)推出死鏈提交工具,幫助網(wǎng)站提交死鏈數(shù)據(jù),死鏈提交工具使用參考4.3.2死鏈提交工具。

什么是死鏈及死鏈的標(biāo)準(zhǔn)

頁面已經(jīng)無效,無法對用戶提供任何有價值信息的頁面就是死鏈接,比較常見死鏈形式共有3種,協(xié)議死鏈和內(nèi)容死鏈?zhǔn)潜容^常見兩種形式,除此之外還有跳轉(zhuǎn)死鏈。

  • √ 協(xié)議死鏈:頁面的TCP協(xié)議狀態(tài)/HTTP協(xié)議狀態(tài)明確表示的死鏈,常見的如404、403、503狀態(tài)等;
  • √ 內(nèi)容死鏈:服務(wù)器返回狀態(tài)是正常的,但內(nèi)容已經(jīng)變更為不存在、已刪除或需要權(quán)限等與原內(nèi)容無關(guān)的信息頁面;
  • √ 跳轉(zhuǎn)死鏈:指頁面內(nèi)容已經(jīng)失效,跳轉(zhuǎn)到報錯頁,首頁等行為。

3.1.4 訪問穩(wěn)定性

訪問穩(wěn)定性主要有以下幾個注意點(diǎn):

DNS解析

DNS是域名解析服務(wù)器,關(guān)于DNS,這里建議中文網(wǎng)站盡可能使用國內(nèi)大型服務(wù)商提供的DNS服務(wù),以保證站點(diǎn)的穩(wěn)定解析。

分享一個DNS穩(wěn)定性的示例:

搜索資源平臺(原站長平臺)曾收到多個站長反饋,稱網(wǎng)站從百度網(wǎng)頁搜索消失,site發(fā)現(xiàn)網(wǎng)站數(shù)據(jù)為0。

經(jīng)追查發(fā)現(xiàn)這些網(wǎng)站都使用國外某品牌的DNS服務(wù)器 *.DOMAINCONTROL.COM,此系列DNS服務(wù)器存在穩(wěn)定性問題,百度蜘蛛經(jīng)常解析不到IP,在百度蜘蛛看來,網(wǎng)站是死站點(diǎn)。此前也發(fā)現(xiàn)過多起小DNS服務(wù)商屏蔽百度蜘蛛解析請求或者國外DNS服務(wù)器不穩(wěn)定的案例。因此這里建議網(wǎng)站,謹(jǐn)慎選擇DNS服務(wù)。

蜘蛛封禁

針對爬蟲的封禁會導(dǎo)致爬蟲認(rèn)為網(wǎng)站不可正常訪問,進(jìn)而采取對應(yīng)的措施。爬蟲封禁其實(shí)分兩種,一種就是傳統(tǒng)的robots封禁,另一種是需要技術(shù)人員配合的IP封禁和UA封禁;而絕大多數(shù)情況下的封禁都是一些操作不當(dāng)導(dǎo)致的誤封禁,然后在搜索引擎上的反應(yīng)就是爬蟲不能正常訪問。所以針對爬蟲封禁的操作一定要慎重,即使因?yàn)樵L問壓力問題要臨時封禁,也要盡快做恢復(fù)處理。

服務(wù)器負(fù)載

拋開服務(wù)器硬件問題(不可避免),絕大多數(shù)引起服務(wù)器負(fù)載過高的情況是軟件程序引起的,如程序有內(nèi)存泄露,程序出core,不合理混布服務(wù)(其中一個服務(wù)消耗服務(wù)器資源過大引起服務(wù)器負(fù)載增大,影響了服務(wù)器對爬蟲訪問請求的響應(yīng)。)對于提供服務(wù)的機(jī)器一定要注意服務(wù)器的負(fù)載,留足夠的buffer保證服務(wù)器具有一定的抗壓能力。

其他人為因素

人為操作不當(dāng)引起訪問異常的情況是經(jīng)常見到的,針對這種情況需要嚴(yán)格的制度約束,不同站點(diǎn)情況不一樣。需要保證每一次的升級或者操作要準(zhǔn)確無誤。

3.1.5 可訪問鏈接總量

3.1.5.1 資源可窮盡

一般來說網(wǎng)站的內(nèi)容頁面是可窮盡的,萬級別,百萬級別甚至億級別,但一定是可窮盡的。而現(xiàn)實(shí)中確實(shí)存在這樣一些網(wǎng)站,爬蟲針對這些網(wǎng)站進(jìn)行抓取提鏈時會陷入”鏈接黑洞”;通俗的講就是網(wǎng)站給爬蟲呈現(xiàn)的鏈接不可窮盡;典型的是部分網(wǎng)站的搜索結(jié)果頁,不同的query在不同anchor下的a標(biāo)簽鏈接不一樣就導(dǎo)致了”鏈接黑洞”的產(chǎn)生,所以嚴(yán)禁URL的生成跟用戶的訪問行為或者搜索詞等因素綁定。

3.2 頁面解析

頁面解析,主要指網(wǎng)站頁面被蜘蛛抓取,會對頁面進(jìn)行分析識別,稱之為頁面解析。頁面解析對網(wǎng)站至關(guān)重要,網(wǎng)站內(nèi)容被抓取是網(wǎng)站被發(fā)現(xiàn)的第一步,而頁面解析,則是網(wǎng)站內(nèi)容被識別出來的重要一環(huán),頁面解析效果直接影響搜索引擎對網(wǎng)站的評價。

3.2.1 頁面元素

3.2.1.1 頁面標(biāo)題

關(guān)于網(wǎng)頁標(biāo)題,百度搜索于2017年9月推出清風(fēng)算法,重點(diǎn)打擊網(wǎng)站標(biāo)題作弊,引導(dǎo)用戶點(diǎn)擊,損害用戶體驗(yàn)的行為;清風(fēng)算法重點(diǎn)打擊的標(biāo)題作弊情況有以下兩種:

  • √ 文不對題,網(wǎng)站標(biāo)題與正文有明顯不符合,誤導(dǎo)搜索用戶點(diǎn)擊,對搜索用戶造成傷害;
  • √ 大量堆砌,網(wǎng)站標(biāo)題中出現(xiàn)大量堆砌關(guān)鍵詞的情況也十分不提倡,

關(guān)于網(wǎng)站標(biāo)題作弊的詳細(xì)解讀,參考搜索學(xué)院發(fā)布官方文檔《百度搜索內(nèi)容質(zhì)量白皮書——網(wǎng)頁標(biāo)題作弊詳解》。

關(guān)于網(wǎng)站TDK,有以下幾種情況需要注意:(”T”代表頁頭中的title元素,”D”代表頁頭中的description元素,”K”代表頁頭中的keywords元素,簡單指網(wǎng)站的標(biāo)題、描述和摘要);

  • √ 百度未承諾嚴(yán)格按照title和description的內(nèi)容展示標(biāo)題和摘要,尤其是摘要,會根據(jù)用戶檢索的關(guān)鍵詞,自動匹配展示合適的摘要內(nèi)容,讓用戶了解網(wǎng)頁的主要內(nèi)容,影響用戶的行為決策;
  • √ 站長會發(fā)現(xiàn)同一條鏈接的摘要在不同關(guān)鍵詞下是變化的,可能不會完全符合站長預(yù)期,尤其是站長在檢索框進(jìn)行site語法操作時,可能會感覺摘要都比較差。但請不要擔(dān)心,畢竟絕大多數(shù)普通網(wǎng)民不會這樣操作。在此情況下出現(xiàn)不符合預(yù)期的摘要并不代表站點(diǎn)被懲罰;
  • √ 還有一種情況,是網(wǎng)頁中的HTML代碼有誤,導(dǎo)致百度無法解析出摘要,所以有時大家會看到某些結(jié)果的摘要是亂碼(當(dāng)然這種情況很少見),所以也請站長注意代碼規(guī)范。

3.2.1.2 主體內(nèi)容

主體內(nèi)容注意兩個點(diǎn),一個主體內(nèi)容過長(通常網(wǎng)頁源碼長度不能超過128k),文章過長可能會引起抓取截?cái)?;另外一個是注意內(nèi)容不能空短,空短內(nèi)容也會被判斷為無價值內(nèi)容。

以下分析兩個示例:

關(guān)于主體內(nèi)容過長的示例分析:

某網(wǎng)站主體內(nèi)容都是JS生成,針對用戶訪問,沒有做優(yōu)化;但是網(wǎng)站特針對爬蟲抓取做了優(yōu)化,直接將圖片進(jìn)行base64編碼推送給百度,然而優(yōu)化后發(fā)現(xiàn)內(nèi)容沒有被百度展示出來;

頁面質(zhì)量很好,還特意針對爬蟲做了優(yōu)化,為什么內(nèi)容反而無法出現(xiàn)在百度搜索中;

分析主要有以下原因:

  • √ 網(wǎng)站針對爬蟲爬取做的優(yōu)化,是直接將圖片base64編碼后放到HTML中,導(dǎo)致頁面長度過長,網(wǎng)站頁面長度達(dá)164k;
  • √ 站點(diǎn)優(yōu)化后將主體內(nèi)容放于最后,圖片卻放于前面;
  • √ 爬蟲抓取內(nèi)容后,頁面內(nèi)容過長被截?cái)?,已抓取部分無法識別到主體內(nèi)容,最終導(dǎo)致頁面被認(rèn)定為空短而不建索引。

這樣的情況給到以下建議:

  • √ 如站點(diǎn)針對爬蟲爬取做優(yōu)化,建議網(wǎng)站源碼長度在128k之內(nèi),不要過長;
  • √ 針對爬蟲爬取做優(yōu)化,請將主體內(nèi)容放于前方,避免抓取截?cái)嘣斐傻膬?nèi)容抓取不全。

關(guān)于內(nèi)容空短的示例分析:

某網(wǎng)站反饋網(wǎng)站內(nèi)容未被建索引,分析發(fā)現(xiàn),網(wǎng)站抓取沒有問題,但被抓取到的頁面,都提示需要輸入驗(yàn)證碼才能查看全部頁面,這類頁面被判斷為空短頁面,這類頁面在抓取后,會被判定為垃圾內(nèi)容。

而且當(dāng)蜘蛛對一個網(wǎng)站抓取后發(fā)現(xiàn)大面積都是低值的空短頁面時,爬蟲會認(rèn)為這個站點(diǎn)的整體價值比較低,那么在后面的抓取流量分布上會降低,導(dǎo)致針對該站點(diǎn)的頁面更新會比較慢,進(jìn)而抓取甚至建索引庫也會比較慢。

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

為什么會出現(xiàn)網(wǎng)站內(nèi)容空短這種情況,其中一個原因是網(wǎng)站內(nèi)容未全部搭建完成,未對外開放,但已被蜘蛛爬取發(fā)現(xiàn)。針對這種情況,建議網(wǎng)站在邀請測試階段使用robots封禁。

另外還會有些網(wǎng)站,設(shè)置用戶查看權(quán)限,如需用戶登陸才能查看全部內(nèi)容,這樣的行為對搜索引擎也極不友好,蜘蛛無法模擬用戶登陸,僅能抓取網(wǎng)站已展示頁面,可能會導(dǎo)致抓取頁面為空短的現(xiàn)象。

這里再次強(qiáng)調(diào),不要讓爬蟲給站點(diǎn)畫上不優(yōu)質(zhì)的標(biāo)簽,對網(wǎng)站將產(chǎn)生很不好的影響。另外,移動端的H5頁面,很多都是采用JS方式加載,其實(shí)是更容易產(chǎn)生空短,請各位站長注意。

3.2.1.3 網(wǎng)頁發(fā)布時間

關(guān)于網(wǎng)頁發(fā)布時間,有以下幾點(diǎn)建議:

√ 網(wǎng)頁內(nèi)容盡可能加上產(chǎn)出時間,嚴(yán)格說是內(nèi)容發(fā)布時間;且時間盡量全,時間格式為年-月-日 時:分:秒;

例:2017-08-12 10:23:06

√ 網(wǎng)頁上切忌亂加時間,這樣容易造成頁面時間提取問題,或搜索引擎判斷提取時間不可信,從而降低對網(wǎng)頁的展現(xiàn)。

3.2.1.4 canonical標(biāo)簽

canonical標(biāo)簽的目的

在PC互聯(lián)網(wǎng)時代,canonical標(biāo)簽的作用主要是用來解決由于網(wǎng)址形式不同內(nèi)容相同而造成的內(nèi)容重復(fù)問題。而在移動時代,canonical標(biāo)簽被百度搜索賦予了更多的意義,在原來的作用基礎(chǔ)上,又起到了相同內(nèi)容的移動頁和PC頁之間的關(guān)聯(lián)作用;讓移動資源更容易繼承PC資源的各種特征,從而快速生效移動網(wǎng)頁數(shù)據(jù)。

canonical標(biāo)簽如何設(shè)置

在HTML代碼的head里添加rel=”canonical”,不能添加多個,否則搜索引擎會認(rèn)為是無效的canonical標(biāo)簽。另外需要注意href里的地址不能是死鏈,錯誤頁或者被robots封禁的頁面。

具體示例如下:

3.2.2 落地頁體驗(yàn)

為提升移動搜索整體用戶體驗(yàn),提升搜索滿意度,百度搜索在2017年推出《百度移動搜索落地頁體驗(yàn)白皮書——廣告篇2.0》(以下簡稱廣告白皮書)。廣告白皮書對網(wǎng)站移動落地頁頁面廣告內(nèi)容、廣告位置、大小等做了明確要求,從而充分保證搜索用戶的瀏覽體驗(yàn)。

白皮書詳情,請參考搜索學(xué)院官方文檔《百度移動搜索落地頁體驗(yàn)白皮書——廣告篇2.0》

3.3 頁面價值

3.3.1 內(nèi)容價值

原創(chuàng)文章,要求是獨(dú)立完成的創(chuàng)作,且沒有歪曲、篡改他人創(chuàng)作或者抄襲、剽竊他人創(chuàng)作而產(chǎn)生的作品,對于改編、注釋、整理他人已有創(chuàng)作而產(chǎn)生的作品要求有充分的點(diǎn)評、補(bǔ)充等增益信息。

建議原創(chuàng)文章在標(biāo)題下方明確注明“來源:xxxx(本站站點(diǎn)名)”或“本站原創(chuàng)”之類字樣,轉(zhuǎn)載文章明確注明“來源:xxxx(轉(zhuǎn)載來源站點(diǎn)名)”之類字樣,不建議使用“admin”、“webmaster”、“佚名”等模糊的說法。

3.3.2 外鏈建設(shè)

通常認(rèn)為,外鏈?zhǔn)潜菊军c(diǎn)對第三方站點(diǎn)頁面的鏈接指向,是本站點(diǎn)對第三方站點(diǎn)頁面內(nèi)容的一種認(rèn)可和推薦。

站點(diǎn)進(jìn)行外鏈建設(shè)時,建議是有真實(shí)推薦意圖,并且指向那些熟悉的、被認(rèn)可的、內(nèi)容相關(guān)的外部頁面;不建議推薦與本站點(diǎn)頁面內(nèi)容無關(guān)的外鏈內(nèi)容。也不建議亂推薦外鏈、交換外鏈互聯(lián)、指向作弊站的行為(這些很可能被超鏈策略反向識別成垃圾作弊站點(diǎn)進(jìn)行打壓)。

最后,站長要及時發(fā)現(xiàn)和處理站點(diǎn)被黑的頁面。頁面被黑掉后,一般會被人為放入大量無關(guān)的,甚至作弊的外鏈在該頁面上,其目的是要瓜分站點(diǎn)自身權(quán)重,并以此來提高外鏈目標(biāo)站點(diǎn)影響力。建議站長發(fā)現(xiàn)后,及時向搜索資源平臺(原站長平臺)提交死鏈進(jìn)行刪除和屏蔽,不及時處理一定程度上會影響站點(diǎn)本身的權(quán)重。最好從技術(shù)上優(yōu)化,提高站點(diǎn)安全壁壘,防范于未然。

3.3.3 內(nèi)鏈建設(shè)

內(nèi)鏈,描述了站點(diǎn)的結(jié)構(gòu),一般起到頁面內(nèi)容組織和站內(nèi)引導(dǎo)的作用;內(nèi)鏈的重要意思是通過鏈接指向,告訴搜索引擎哪個頁面最為重要。

內(nèi)鏈組織的時候,建議結(jié)構(gòu)清晰,不要過于冗雜,另外內(nèi)鏈組織的版式建議保持一致,這樣對搜索引擎超鏈分析比較友好。

與外鏈類似,建議站長善于使用nofollow標(biāo)簽,既對搜索引擎友好,又可避免因垃圾link影響到站點(diǎn)本身的權(quán)重。

3.3.4 anchor

anchor描述:盡可能使用典型的,有真實(shí)意義的anchor。anchor描述要與超鏈接的頁面內(nèi)容大致相符,避免高頻無意義anchor的使用,另外同一個URL的anchor描述種類不宜過多,anchor分布越稀疏會影響搜索排名。

4 百度專屬SEO工具

4.1 百度搜索資源平臺(原百度站長平臺)介紹

百度搜索資源平臺(原百度站長平臺)是全球最大的面向中文互聯(lián)網(wǎng)管理者、移動開發(fā)者、創(chuàng)業(yè)者的搜索流量管理的官方平臺。提供有助于搜索引擎數(shù)據(jù)查詢及優(yōu)化的工具、SEO建議、多端適配服務(wù)的能力等。

百度搜索資源平臺域名地址:http://ziyuan.baidu.com/

4.2 查詢工具

4.2.1 索引量工具

網(wǎng)站的索引量指該網(wǎng)站在百度搜索上,可以被用戶搜索到的鏈接總量。百度蜘蛛通過抓取發(fā)現(xiàn)網(wǎng)站內(nèi)容,進(jìn)行頁面解析,對有價值內(nèi)容建立索引庫,最終使搜索用戶可以搜索到網(wǎng)站內(nèi)容。

網(wǎng)站被百度蜘蛛抓取后,經(jīng)過一系列計(jì)算才得以建入索引庫,有了和搜索用戶見面的機(jī)會。所以,索引量一直是站長們關(guān)注的焦點(diǎn),但關(guān)于索引量工具有一些誤讀,這里給到正確解答:

  • √ 索引量不等于網(wǎng)站流量:索引庫分多個層級,進(jìn)入上層索引庫才有更多與搜索用戶見面的機(jī)會;進(jìn)入下層庫機(jī)會渺茫。所以,索引量總體的增加減少并不能說明流量會有什么變化;
  • √ 索引量變化不直接影響流量變化:當(dāng)流量發(fā)生巨大變化時,索引量數(shù)據(jù)可以作為排查原因的渠道之一,但不是唯一排查渠道,索引量變化并不直接影響流量變化;
  • √ 索引量浮動情況,索引量上下浮動10%(經(jīng)驗(yàn)值),甚至更多,都可能屬于正常。只要流量變化不大就不用緊張。

4.2.2 流量與關(guān)鍵詞工具

流量與關(guān)鍵詞工具提供站點(diǎn)的熱門關(guān)鍵詞在百度搜索結(jié)果中的展現(xiàn)及點(diǎn)擊量數(shù)據(jù),通過對關(guān)鍵詞表現(xiàn)情況的監(jiān)控,幫助網(wǎng)站更好進(jìn)行優(yōu)化,流量與關(guān)鍵詞工具可全面幫助站長了解網(wǎng)站在百度搜索引擎中的表現(xiàn),決定頁面及網(wǎng)站的優(yōu)化方向,為網(wǎng)站運(yùn)營決策提供分析依據(jù)。

關(guān)于流量與關(guān)鍵詞工具,還有一點(diǎn)需要強(qiáng)調(diào),如果站長需要在反饋中心中提交關(guān)于網(wǎng)站流量異常的情況,請使用此工具的數(shù)據(jù)、及數(shù)據(jù)截圖作為證據(jù),便于工作人員分析網(wǎng)站問題。

4.2.3 抓取頻次工具

什么是抓取頻次

抓取頻次是搜索引擎在單位時間內(nèi)(天級)對網(wǎng)站服務(wù)器抓取的總次數(shù),如果搜索引擎對站點(diǎn)的抓取頻次過高,很有可能造成服務(wù)器不穩(wěn)定,百度蜘蛛會根據(jù)網(wǎng)站內(nèi)容更新頻率和服務(wù)器壓力等因素自動調(diào)整抓取頻次。

什么情況下可以進(jìn)行抓取頻次上限調(diào)整:

  • 首先,百度蜘蛛會根據(jù)網(wǎng)站服務(wù)器壓力自動進(jìn)行抓取頻次調(diào)整;
  • 其次,如果百度蜘蛛的抓取影響了網(wǎng)站穩(wěn)定性,站長可以通過此工具調(diào)節(jié)百度蜘蛛每天抓取網(wǎng)站的頻次上限。
  • 強(qiáng)調(diào)1:調(diào)整抓取頻次上限不等于調(diào)高抓取頻次;
  • 強(qiáng)調(diào)2:建議站長慎重調(diào)節(jié)抓取頻次上限值,如果抓取頻次過小則會影響百度蜘蛛對網(wǎng)站的及時抓取,從而影響索引。

4.2.4 抓取診斷工具

什么是抓取診斷

抓取診斷工具,可以讓站長從百度蜘蛛的視角查看抓取內(nèi)容,自助診斷百度蜘蛛看到的內(nèi)容,和預(yù)期是否一致。每個站點(diǎn)每周可使用200次,抓取結(jié)果只展現(xiàn)百度蜘蛛可見的前200KB內(nèi)容。

抓取診斷工具能做什么

目前抓取診斷工具有如下作用:

  • √ 診斷抓取內(nèi)容是否符合預(yù)期,譬如很多商品詳情頁面,價格信息是通過JavaScript輸出的,對百度蜘蛛不友好,價格信息較難在搜索中應(yīng)用。問題修正后,可用診斷工具再次抓取檢驗(yàn);百度工程師操刀的百度移動搜索建站優(yōu)化白皮書
  • √ 診斷網(wǎng)頁是否被加了黒鏈、隱藏文本。網(wǎng)站如果被黑,可能被加上隱藏的鏈接,這些鏈可能只在百度抓取時才出現(xiàn),需要用此抓取工具診斷。

4.2.5 抓取異常工具

什么是抓取異常

百度蜘蛛無法正常抓取,就是抓取異常。通常網(wǎng)站出現(xiàn)抓取異常,都是網(wǎng)站自身原因造成,需要網(wǎng)站根據(jù)工具提示,盡快自查網(wǎng)站問題并解決。

抓取異常對網(wǎng)站有哪些影響

對于大量內(nèi)容無法正常抓取的網(wǎng)站,搜索引擎會認(rèn)為網(wǎng)站存在用戶體驗(yàn)上的缺陷,并降低對網(wǎng)站的評價,在抓取、索引、搜索評價上都會受到一定程度的負(fù)面影響,最終影響到網(wǎng)站從百度獲取的流量。

抓取異常的原因有哪些

● 網(wǎng)站異常

  • √ DNS異常:當(dāng)百度蜘蛛無法解析網(wǎng)站的IP時,會出現(xiàn)DNS異常??赡苁蔷W(wǎng)站IP地址錯誤,或者域名服務(wù)商把百度蜘蛛封禁。請使用whois或者h(yuǎn)ost查詢自己網(wǎng)站IP地址是否正確且可解析,如果不正確或無法解析,請與域名注冊商聯(lián)系,更新網(wǎng)站IP地址;
  • √ 連接超時:抓取請求連接超時,可能原因服務(wù)器過載,網(wǎng)絡(luò)不穩(wěn)定;
  • √ 抓取超時:抓取請求連接建立后,下載頁面速度過慢,導(dǎo)致超時,可能原因服務(wù)器過載,帶寬不足;
  • √ 連接錯誤:無法連接或者連接建立后對方服務(wù)器拒絕。

● 鏈接異常

  • √ 訪問被拒絕:爬蟲發(fā)起抓取,httpcode返回碼是403;
  • √ 找不到頁面:爬蟲發(fā)起抓取,httpcode返回碼是404;
  • √ 服務(wù)器錯誤:爬蟲發(fā)起抓取,httpcode返回碼是5XX;
  • √ 其他錯誤:爬蟲發(fā)起抓取,httpcode返回碼是4XX,不包括403和404。

4.3 提交工具

4.3.1 鏈接提交工具

目前一共有4種提交方式,分別是主動推送、Sitemap、手工提交和自動推送,這四種推送方式的區(qū)別,請看下圖:

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

建議有新聞屬性站點(diǎn),使用主動推送進(jìn)行數(shù)據(jù)提交;新驗(yàn)證平臺站點(diǎn),或內(nèi)容無時效性要求站點(diǎn),可以使用Sitemap將網(wǎng)站全部內(nèi)容使用Sitemap提交;技術(shù)能力弱,或網(wǎng)站內(nèi)容較少的站點(diǎn),可使用手工提交方式進(jìn)行數(shù)據(jù)提交;最后,還可以使用插件方式,自動推送方式給百度提交數(shù)據(jù)。

使用鏈接提交工具,還需要注意的是,部分網(wǎng)站會采用第三方插件推送數(shù)據(jù),插件推送方式需要站長仔細(xì)檢查推送邏輯,之前發(fā)生過站長使用第三方插件推送數(shù)據(jù),而第三方插件采用域名+標(biāo)題進(jìn)行推送,這樣導(dǎo)致推送給百度的URL中存在中文字符,帶有中文字符的URL會301跳轉(zhuǎn)到真實(shí)的URL上,出現(xiàn)此類情況,是無法享受快速抓取優(yōu)待的。

鏈接提交工具可以快速幫助站點(diǎn)實(shí)現(xiàn)內(nèi)容抓取,使用第三方插件可以快速幫助站長解決推送的問題,站長只需在選擇插件時,仔細(xì)檢查下插件數(shù)據(jù)邏輯,否則推送錯誤數(shù)據(jù),網(wǎng)站數(shù)據(jù)無法享受快速抓取優(yōu)待。

4.3.2 死鏈提交工具

為什么要使用死鏈工具
當(dāng)網(wǎng)站死鏈數(shù)據(jù)累積過多時,并且被展示到搜索結(jié)果頁中,對網(wǎng)站本身的訪問體驗(yàn)和用戶轉(zhuǎn)化都起到了負(fù)面影響。另一方面,百度檢查死鏈的流程也會為網(wǎng)站帶來額外負(fù)擔(dān),影響網(wǎng)站其他正常頁面的抓取和索引。

注意事項(xiàng):

  • √ 請推送協(xié)議死鏈數(shù)據(jù),死鏈工具僅支持協(xié)議死鏈數(shù)據(jù);
  • √ 提交死鏈被刪除后,網(wǎng)站可以刪除已提交的死鏈文件,否則搜索仍會繼續(xù)抓取死鏈文件,確認(rèn)文件中內(nèi)容。

什么是死鏈規(guī)則提交?

死鏈規(guī)則是鏈接前綴,且匹配前綴的鏈接全部是死鏈。

目前支持兩種死鏈規(guī)則:

  • √ 目錄規(guī)則:以“/”結(jié)尾的前綴;
  • √ CGI規(guī)則:以“?”結(jié)尾的前綴。

什么是死鏈文件提交?

  • √ 站長需要提交已被百度建索引的、且需要刪除的鏈接,如鏈接在百度搜索不到,則可以不提交死鏈;
  • √ 需要刪除的鏈接需要全部設(shè)置為404,如發(fā)現(xiàn)有鏈接非死鏈,會導(dǎo)致文件校驗(yàn)失敗,從而無法刪除死鏈;
  • √ 如死鏈文件抓取失敗,可以通過抓取診斷工具判斷死鏈文件是否可以正常抓?。?/li>
  • √ 站長提交死鏈后,請不要在robots中封禁百度蜘蛛,封禁百度蜘蛛會影響鏈接的正常刪除;
  • √ 如果需要刪除的鏈接已經(jīng)被刪除,請及時的刪除掉死鏈文件;
  • √ 提交死鏈工具,最長需要2-3天生效死鏈。如站長發(fā)現(xiàn)鏈接未被刪除,一周后可以重新提交。

規(guī)則提交:

  • √ 規(guī)則死鏈不支持通配符;
  • √ 規(guī)則死鏈必須是以?或者 /結(jié)尾的規(guī)則。

關(guān)于死鏈提交的常見問題

  • √ 網(wǎng)站死鏈數(shù)據(jù),除了使用死鏈提交工具,還可以使用robots屏蔽百度抓取,百度將根據(jù)robots文件中的規(guī)則,不再抓取該內(nèi)容,如果該內(nèi)容線上已經(jīng)展現(xiàn),將會進(jìn)行屏蔽;
  • √ 已經(jīng)提交死鏈的文件,蜘蛛仍會繼續(xù)抓取,檢查文件中是否有更新的鏈接;如抓到更新的鏈接,將再次校驗(yàn)網(wǎng)站;如死鏈提交已生效,且此文件后續(xù)將不再更新,可以直接在工具中將文件刪除;
  • √ 搜索資源平臺中的鏈接分析工具,有死鏈分析功能,可以幫助網(wǎng)站發(fā)現(xiàn)站內(nèi)死鏈。

4.3.3 移動適配工具

什么是移動適配,移動適配工具的作用

移動適配工具主要用于,如果網(wǎng)站同時擁有PC站和移動站,且二者能夠在內(nèi)容上對應(yīng),即主體內(nèi)容完全相同,網(wǎng)站可以通過移動適配工具進(jìn)行對應(yīng)關(guān)系,便于百度來識別PC和移動站之間的關(guān)系。

站長通過移動適配工具提交pattern級別或者URL級別的PC頁與手機(jī)頁對應(yīng)關(guān)系,若可以成功通過校驗(yàn),將有助于百度移動搜索將移動用戶直接送入對應(yīng)的手機(jī)頁結(jié)果。積極參與“移動適配”,將有助于的手機(jī)站在百度移動搜索獲得更多流量,同時以更佳的瀏覽效果贏取用戶口碑。

移動適配工具如何使用

當(dāng)網(wǎng)站同時擁有移動站點(diǎn)和PC站點(diǎn)、且移動頁面和PC頁面的主體內(nèi)容完全相同,就可以在通過百度搜索資源平臺(原百度站長平臺)提交正確的適配關(guān)系,獲取更多移動流量。

第一步:注冊并登錄百度搜索資源平臺(原百度站長平臺);

第二步:提交PC網(wǎng)站并驗(yàn)證站點(diǎn)與ID的歸屬關(guān)系,具體驗(yàn)證網(wǎng)站歸屬方法可見幫助文檔;

第三步:站點(diǎn)驗(yàn)證后,進(jìn)入“網(wǎng)站支持”――“數(shù)據(jù)引入”――“移動適配工具”,選擇具體需要進(jìn)行移動適配的PC站,然后“添加適配關(guān)系”;

第四步:根據(jù)自己提交的適配數(shù)據(jù)特點(diǎn),選擇適合網(wǎng)站的提交方式。目前移動適配工具支持規(guī)則適配提交URL適配提交,無論使用哪種方式都需要先指定PC與移動站點(diǎn),此舉可以令平臺更加快速地檢驗(yàn)提交的數(shù)據(jù)、給出反饋,順利生效。同時在之后步驟中提交的適配數(shù)據(jù)中必須包含指定的站點(diǎn),否則會導(dǎo)致校驗(yàn)失??;

1)規(guī)則適配:當(dāng)PC地址和移動地址存在規(guī)則(pattern)的匹配關(guān)系時(如PC頁面www.test.com/picture/12345.html,移動頁面m.test.com/picture/12345.html),可以使用規(guī)則適配,添加PC和移動的正則表達(dá)式,正則的書寫方式詳見工具頁面《正則格式說明》。強(qiáng)烈建議使用規(guī)則適配,一次提交成功生效后,對于新增同規(guī)則的URL可持續(xù)生效,不必再進(jìn)行多次提交。同時該方式處理周期相對URL適配更短,且易于維護(hù)和問題排查,是百度推薦使用的提交方式。

2)URL適配:當(dāng)規(guī)則適配不能滿足適配關(guān)系的表達(dá)時,可以通過“URL對文件上傳”功能,將主體內(nèi)容相同的PC鏈接和移動鏈接提交給百度:文件格式為每行前后兩個URL,分別是PC鏈接和移動鏈接,中間用空格分隔,一個文件最多可以提交5萬對URL,可以提交多個文件。另外網(wǎng)站還可以選擇“URL對批量提交”,在輸入框中直接輸入URL對,格式與文件相同,但此處一次性僅限提交2000對URL。

第五步:提交適配數(shù)據(jù)后,關(guān)注移動適配工具會提供狀態(tài)說明,若未適配成功,可根據(jù)說明文字和示例進(jìn)行相應(yīng)的調(diào)整后更新提交適配數(shù)據(jù)。

4.3.4、robots

什么是robots文件

robots是站點(diǎn)與蜘蛛溝通的重要渠道,站點(diǎn)通過robots文件聲明該網(wǎng)站中不想被搜索引擎抓取的部分或者指定搜索引擎只抓取特定的部分。

請注意,僅當(dāng)網(wǎng)站包含不希望被搜索引擎抓取的內(nèi)容時,才需要使用robots.txt文件。如果希望搜索引擎抓取網(wǎng)站上所有內(nèi)容,請勿建立robots.txt文件。之前發(fā)現(xiàn)很多流量下降的網(wǎng)站示例,最后追查都是因?yàn)榧夹g(shù)人員通過robots對搜索引擎加了封禁。

為了避免站長在設(shè)置robots文件時出現(xiàn)錯誤,百度搜索資源平臺(原百度站長平臺)特別推出了robots工具,幫助站長正確設(shè)置robots。

robots.txt文件的格式

robots文件往往放置于根目錄下,包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結(jié)束符),每一條記錄的格式如下所示:

“:”

在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow和Allow行,詳細(xì)情況如下:

User-agent:該項(xiàng)的值用于描述搜索引擎robot的名字。在”robots.txt”文件中,如果有多條User-agent記錄說明有多個robot會受到”robots.txt”的限制,對該文件來說,至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*,則對任何robot均有效,在”robots.txt”文件中,”User-agent:*”這樣的記錄只能有一條。如果在”robots.txt”文件中,加入”User-agent:SomeBot”和若干Disallow、Allow行,那么名為”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。

Disallow:該項(xiàng)的值用于描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項(xiàng)的值開頭的URL不會被 robot訪問。例如”Disallow:/help”禁止robot訪問/help.html、/helpabc.html、/help/index.html,而”Disallow:/help/”則允許robot訪問/help.html、/helpabc.html,不能訪問/help/index.html。”Disallow:”說明允許robot訪問該網(wǎng)站的所有URL,在”/robots.txt”文件中,至少要有一條Disallow記錄。如果”/robots.txt”不存在或者為空文件,則對于所有的搜索引擎robot,該網(wǎng)站都是開放的。

Allow:該項(xiàng)的值用于描述希望被訪問的一組URL,與Disallow項(xiàng)相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項(xiàng)的值開頭的URL 是允許robot訪問的。例如”Allow:/hibaidu”允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網(wǎng)站的所有URL默認(rèn)是Allow的,所以Allow通常與Disallow搭配使用,實(shí)現(xiàn)允許訪問一部分網(wǎng)頁同時禁止訪問其它所有URL的功能。

使用”*”and”$”:百度蜘蛛支持使用通配符”*”和”$”來模糊匹配URL。

“*” 匹配0或多個任意字符。

“$” 匹配行結(jié)束符。

最后需要說明的是:百度會嚴(yán)格遵守robots的相關(guān)協(xié)議,請注意區(qū)分網(wǎng)站不想被抓取或抓取的目錄的大小寫,百度會對robots中所寫的文件和網(wǎng)站不想被抓取和抓取的目錄做精確匹配,否則robots協(xié)議無法生效。

4.4 搜索展現(xiàn)工具

站點(diǎn)logo百度搜索資源平臺推出的免費(fèi)類工具,可以給到網(wǎng)站品牌曝光、展示。站點(diǎn)logo是百度搜索根據(jù)網(wǎng)站評價、用戶需求度、用戶瀏覽軌跡等系統(tǒng)分析產(chǎn)出的效果,因此這個工具并不是所有站點(diǎn)都享有權(quán)限。

4.4.1 站點(diǎn)logo

站點(diǎn)申請百度搜索下的logo展示,可以通過搜索資源平臺——站點(diǎn)屬性——站點(diǎn)logo中進(jìn)行提交,此工具為免費(fèi)展示類工具。

下圖為站點(diǎn)logo的截圖示例:

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

4.5 維護(hù)類工具

4.5.1 網(wǎng)站改版工具

當(dāng)一個站點(diǎn)的域名或者目錄發(fā)生變化時,如果想讓百度快速收錄變化之后的新鏈接、用以替換之前的舊鏈接,需要使用百度搜索資源平臺的網(wǎng)站改版工具來提交網(wǎng)站的改版關(guān)系,加速百度對已收錄鏈接的新舊替換。網(wǎng)站換域名對網(wǎng)站的影響,可以參考5.1章節(jié)網(wǎng)站換域名。

使用改版工具提交改版規(guī)則的前提:

  • √ 站點(diǎn)的URL發(fā)生了變化,不論是域名還是站點(diǎn)的目錄,或者結(jié)果頁URL發(fā)生變化,改版工具都提供支持,這里單獨(dú)說一點(diǎn),頁面內(nèi)容發(fā)生變化的不在改版工具處理的范圍內(nèi);
  • √ 如果站點(diǎn)URL的路徑和參數(shù)部分都沒有變化,僅僅是域名改變的,只需要知道每個改版前域名和改版后域名的對應(yīng)關(guān)系,不要有整理遺漏,目前平臺不支持主域級別的改版規(guī)則提交,需要每個域名都單獨(dú)提交生效;
  • √ 如果站點(diǎn)URL的路徑和參數(shù)部分發(fā)生變化,但是路徑和參數(shù)都是有規(guī)律可尋的,可以通過規(guī)則表達(dá)式來整理改版前和改版后的URL對應(yīng)關(guān)系;
  • √ 如果站點(diǎn)的URL改變沒有任何規(guī)律的情況,需要準(zhǔn)確整理出改版前URL和改版后URL的對應(yīng)關(guān)系。

站長要準(zhǔn)確的找到對應(yīng)關(guān)系,這與改版規(guī)則的生效息息相關(guān)。有了準(zhǔn)確的對應(yīng)關(guān)系后,就可以設(shè)置301跳轉(zhuǎn)了。

4.5.2 閉站保護(hù)工具

由網(wǎng)站自身原因(改版、暫停服務(wù)等)、客觀原因(服務(wù)器故障、政策影響等)造成的網(wǎng)站較長一段時間都無法正常訪問,百度搜索引擎會認(rèn)為該站屬于關(guān)閉狀態(tài)。站長可以通過閉站保護(hù)工具進(jìn)行提交申請,申請通過后,百度搜索引擎會暫時保留索引、暫停抓取站點(diǎn)、暫停其在搜索結(jié)果中的展現(xiàn)。待網(wǎng)站恢復(fù)正常后,站長可通過閉站保護(hù)工具申請恢復(fù),申請審核通過后,百度搜索引擎會恢復(fù)對站點(diǎn)的抓取和展現(xiàn),站點(diǎn)的評價得分不會受到影響。

閉站保護(hù)工具的重要tip如下:

√ 申請閉站需要保證全站鏈接都是死鏈或直接關(guān)閉服務(wù)器,申請恢復(fù)是需要保證網(wǎng)站服務(wù)器已經(jīng)啟動并沒有死鏈。為了盡快進(jìn)行閉站保護(hù)/解除閉站保護(hù),保障自身權(quán)益,請確保以上條件沒問題之后再提交申請(校驗(yàn)很嚴(yán)格,抽樣的內(nèi)容基本需要是100%);

√ 閉站保護(hù)申請、死鏈提交等工具,提到的設(shè)置死鏈,都必須是協(xié)議死鏈,即返回碼是404,否則會導(dǎo)致無法通過校驗(yàn)。

    • ● 內(nèi)容死鏈,比如單純的在網(wǎng)頁上寫上404,或一張圖片上畫著404,是不行的。
    • ● 判斷自己網(wǎng)頁返回碼是否是404,瀏覽器里可以直接打開控制臺,查看network的doc,刷新頁面。

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

    • ● 或者可以控制臺使用命令:curl -i 網(wǎng)頁地址 。
    • ● 查返回的信息。

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

閉站保護(hù)只能保證網(wǎng)站的索引量,不能保證網(wǎng)站的排名。之前有站點(diǎn)反饋閉站保護(hù)不好用,因?yàn)殚]站恢復(fù)后網(wǎng)站排名沒有了,這里再次強(qiáng)調(diào)一下,使用閉站工具只能保留網(wǎng)站的索引量,但不保證網(wǎng)站的排名不變。

關(guān)于閉站保護(hù)常見的問題:

  • √ 閉站保護(hù)的通過時間是從提交申請到生效一天內(nèi);
  • √ 閉站保護(hù)申請恢復(fù),是站點(diǎn)沒有任何404頁面等情況下,2天內(nèi)恢復(fù);
  • √ 閉站保護(hù)生效之后,首頁不會屏蔽,如有網(wǎng)站首頁屏蔽需求,可以在搜索資源平臺反饋中心提交;
  • √ 閉站保護(hù)最長保護(hù)時間是180天,過了180天之后的自動放出,如站點(diǎn)有404頁面
  • √ 仍會正常屏蔽處理;
  • √ 主站申請了閉站保護(hù)后,對應(yīng)移動站也是需要申請閉站保護(hù)的;即使存在適配關(guān)系,也只能屏蔽在適配關(guān)系中的移動鏈接,其余不在適配關(guān)系中的鏈接,比如直接被抓取的鏈接,仍無法屏蔽。

4.5.3 HTTPS認(rèn)證工具

使用HTTPS認(rèn)證工具的收益:

網(wǎng)站通過HTTPS認(rèn)證后,站點(diǎn)在百度搜索的所有快照都會變成HTTPS格式,蜘蛛也會優(yōu)先抓取HTTPS的鏈接,讓用戶在搜索中獲得更安全的鏈接。

網(wǎng)站使用HTTPS認(rèn)證工具的注意事項(xiàng):

  • √ 保證HTTPS站點(diǎn)正常訪問,且頁面內(nèi)引入資源為HTTPS格式,包括引入的視頻、圖片、CSS、JS等元素;如果網(wǎng)站沒有全站HTTPS,申請百度搜索資源平臺(原站長平臺)HTTPS認(rèn)知是不會通過的,但是如果系統(tǒng)沒有檢測到這個情況而通過驗(yàn)證的話,會導(dǎo)致沒改造的這部分頁面產(chǎn)生死鏈,所以認(rèn)證前一定要檢測好;
  • √ 如果站點(diǎn)存在HTTP和HTTPS兩種協(xié)議的頁面,必須將HTTP的URL 301到HTTPS的URL上,僅有HTTPS站點(diǎn)的可以直接認(rèn)證;
  • √ 必須保證HTTP站點(diǎn)與HTTPS的鏈接一一對應(yīng),沒有HTTPS對應(yīng)的HTTP鏈接可能會被判斷成死鏈接。

關(guān)于網(wǎng)站做HTTPS回退的注意事項(xiàng):

    • √ 站點(diǎn)通過認(rèn)證后,只需要點(diǎn)擊退場按鈕(在搜索資源平臺驗(yàn)證的網(wǎng)站擁有者),就可以退回到HTTP站點(diǎn)了;
    • √ 需要強(qiáng)調(diào)的是,點(diǎn)擊回退按鈕后,要等到顯示回退成功了再做其他操作,否則有可能導(dǎo)致網(wǎng)站產(chǎn)生死鏈接。

百度工程師操刀的百度移動搜索建站優(yōu)化白皮書

5 網(wǎng)站常見問題專題

5.1 網(wǎng)站換域名

5.1.1 網(wǎng)站換域名的定義

網(wǎng)站換域名,包括從一個二級域更換到一個新的二級域,或者網(wǎng)站域名整體發(fā)生改變,都視為網(wǎng)站換域名。如ent.test.com的內(nèi)容,要整體換域名到news.test.com;或者網(wǎng)站www.test.com要換域名為www.123.com,以上兩種情況都視為換域名。

注意以下幾點(diǎn),輕松應(yīng)對網(wǎng)站換域名:

  • √ 換域名后,建議兩個域名同時保存一段時間;
  • √ 網(wǎng)站換域名后,需要把兩個網(wǎng)站內(nèi)容做好301的跳轉(zhuǎn),強(qiáng)調(diào)一點(diǎn),需要做到正文頁對正文頁一一對應(yīng)的跳轉(zhuǎn),而不是將舊域名內(nèi)容全部跳轉(zhuǎn)到新域名的首頁;
  • √ 網(wǎng)站換域名后,需使用改版工具,在搜索資源平臺(原站長平臺)提交數(shù)據(jù),便于搜索識別新舊域名之間關(guān)聯(lián);
  • √ 建議網(wǎng)站選擇在用戶訪問網(wǎng)站較少的時間段換域名,如長假期間等。

5.1.2 換域名對網(wǎng)站的影響

網(wǎng)站換域名需要網(wǎng)站做好301,且使用搜索資源平臺(原站長平臺)的改版工具,能保證網(wǎng)站的流量損失降到最低;但搜索資源平臺(原站長平臺)的部分權(quán)益是與網(wǎng)站域名綁定,換域名的對網(wǎng)站的注意事項(xiàng),請關(guān)注以下幾點(diǎn):

  • √ 總體來說網(wǎng)站換域名會影響網(wǎng)站排名,不推薦更換域名。若品牌需要等原因,必須換域名,建議做好301跳轉(zhuǎn)規(guī)則后,在平臺工具提交改版規(guī)則和死鏈處理;
  • √ 網(wǎng)站從目錄級更換為二級域名,如之前為www.baidu.com/news/,需更新為news.baidu.com,這類現(xiàn)象通用視為換域名;同樣需要需要在平臺工具提交改版規(guī)則和做好301;
  • √ 網(wǎng)站頁面結(jié)構(gòu)改版,僅是頁面樣式發(fā)生變化,不會對排名有影響;無需使用改版工具;
  • √ 強(qiáng)烈建議不要把所有舊域名頁面301到新域名首頁,建議做新舊域名之間正文頁對正文頁的301;
  • √ 網(wǎng)站換域名后,搜索資源平臺(原站長平臺)的VIP權(quán)限,站點(diǎn)logo、站點(diǎn)子鏈不會同步到新域名中,需要網(wǎng)站單獨(dú)申請。

5.2 網(wǎng)站流量異常

網(wǎng)站流量異常是站長最擔(dān)心的問題之一,網(wǎng)站發(fā)生流量異常,建議網(wǎng)站先做好站點(diǎn)自查,盡快發(fā)現(xiàn)并排除網(wǎng)站自身原因造成的流量波動情況;另外,如網(wǎng)站的索引量數(shù)據(jù)發(fā)生大幅下降,可自查網(wǎng)站是否存在大量過期/無索引內(nèi)容,如索引量大幅波動,但流量無明顯變化,可隨時觀察網(wǎng)站數(shù)據(jù),無須在搜索資源平臺(原站長平臺)進(jìn)行問題反饋。

5.2.1 網(wǎng)站流量異常自查

網(wǎng)站流量異常,應(yīng)該首先進(jìn)行全網(wǎng)自查,自查包括以下幾個要點(diǎn):

  • √ 是否屏蔽百度抓取,如百度UA,設(shè)定了robots等,屏蔽百度抓取將對網(wǎng)站流量造成巨大影響;
  • √ 網(wǎng)站服務(wù)器是否穩(wěn)定,可以使用百度搜索資源平臺,抓取異常及抓取診斷工具,模擬搜索蜘蛛對網(wǎng)站進(jìn)行抓取,便于及時發(fā)現(xiàn)網(wǎng)站問題;
  • √ 網(wǎng)站是否被黑,被劫持,出現(xiàn)網(wǎng)站不安全的行為;
  • √ 網(wǎng)站是否存在大量死鏈,部分網(wǎng)站在改版等過程中,會出現(xiàn)大量死鏈,死鏈的大量存在,會對網(wǎng)站評價造成影響;
  • √ 如網(wǎng)站流量異常來自移動端,需要網(wǎng)站自查移動端落地頁體驗(yàn),是否存在網(wǎng)站被轉(zhuǎn)碼&濾鏡的可能性,盡快整改,避免流量損失。

5.2.2 流量異常反饋

網(wǎng)站流量異常,如自查網(wǎng)站并無以上問題,可以通過百度搜索資源平臺(原百度站長平臺)-反饋中心進(jìn)行問題提交;反饋中心的問題提交,需要網(wǎng)站具備以下幾點(diǎn):

  • √ 數(shù)據(jù)證明,需要截圖搜索資源平臺(原站長平臺)-流量與關(guān)鍵詞工具的數(shù)據(jù)截圖作為證明,不提倡使用第三方工具截圖;
  • √ 關(guān)鍵詞下降證明,需提供網(wǎng)站流量下降明顯的關(guān)鍵詞,及關(guān)鍵詞對應(yīng)的URL 10組,便于工作人員查詢問題;
  • √ 如網(wǎng)站索引量大幅下降,而網(wǎng)站流量變化不大,可仔細(xì)觀察網(wǎng)站情況,不需要在反饋中心進(jìn)行提交。

5.3 HTTPS改造

關(guān)于網(wǎng)站是否HTTPS化,要看站點(diǎn)具體需求;從網(wǎng)站安全和用戶體驗(yàn)上來講,HTTPS站點(diǎn)更為安全優(yōu)質(zhì),且百度搜索在索引的時候會考慮優(yōu)先展現(xiàn)用戶體驗(yàn)較好的頁面;總體來講,如果條件允許建議網(wǎng)站做HTTPS。

有站長提到HTTPS慢不慢的問題,繁重的計(jì)算和多次交互天然的影響了HTTPS的訪問速度,所以需要網(wǎng)站有針對性的做站的優(yōu)化,關(guān)于網(wǎng)頁訪問速度的問題,可以詳細(xì)參考3.1.3.1訪問速度章節(jié)。

5.3.1 全站HTTPS的注意事項(xiàng)

  • √ 建議站長從HTTP到HTTPS的301/302跳轉(zhuǎn),不建議只有HTTPS,而無HTTP到HTTPS的跳轉(zhuǎn)關(guān)系,只用HTTPS訪問對用戶來說,可能會遇到問題;
  • √ 不建議HTTPS、HTTP這兩種版本并存,這種情況存在三種問題,第一個它的維護(hù)成本比較高,需要維護(hù)兩個版本;第二個做不到絕對安全,HTTP訪問有不安全風(fēng)險;第三有不一致的可能性,隨著長遠(yuǎn)的發(fā)展這兩個版本可能會越來越不一致,會影響用戶體驗(yàn),我們建議站長做了HTTPS之后能對HTTPS做一定的跳轉(zhuǎn)預(yù)設(shè);
  • √ HTTPS回退到HTTP極不建議。例如線上已經(jīng)展示HTTPS的鏈接給用戶點(diǎn)擊,如果站長回退到HTTP,用戶在瀏覽器里面點(diǎn)開的時候會展現(xiàn)死鏈的樣式是非常不建議的,做這個之前一定考慮。如果實(shí)在想做回退,請?jiān)诎俣人阉髻Y源平臺(原站長平臺)提交HTTPS校驗(yàn),并建議站點(diǎn)提前至少24小時在平臺提交回退,這樣能夠保證站長的點(diǎn)擊不會出現(xiàn)死鏈的形式,這點(diǎn)非常重要;
  • √ HTTPS網(wǎng)頁沒有建設(shè)完成之前不要在互聯(lián)網(wǎng)上提供超鏈接,之前遇到過好幾個case,本身HTTPS并沒有做完,兩個版本都存在,但是HTTP是用戶可訪問的,或者說HTTPS的頁面是一個臨時性的假頁面,這樣站點(diǎn)有可能就以HTTPS的形式展現(xiàn)出來,會引起用戶體驗(yàn)問題。

5.3.2 HTTTPS認(rèn)證工具

網(wǎng)站進(jìn)行HTTPS改造后,為保證百度搜索可以快速識別HTTP和HTTPS站點(diǎn)間對應(yīng)關(guān)系,且盡快進(jìn)行搜索展示端資源替換,建議站點(diǎn)使用HTTPS認(rèn)證工具。

HTTPS認(rèn)證工具使用,可參考4.5.3HTTPS認(rèn)證工具章節(jié)。

5.4 網(wǎng)站關(guān)閉服務(wù)器

如網(wǎng)站短期內(nèi)關(guān)閉服務(wù)器,舉例來說,網(wǎng)站僅在一天之內(nèi)關(guān)閉服務(wù)器,可不用使用閉站保護(hù)工具;如網(wǎng)站需要長時間關(guān)閉網(wǎng)站,建議使用閉站保護(hù)工具,可反饋蜘蛛閉站期間無需抓取,保護(hù)網(wǎng)站評價不受損害。

網(wǎng)站如長時間需要關(guān)閉網(wǎng)站服務(wù)器,推薦使用閉站保護(hù)工具,可參考4.5.2閉站保護(hù)工具章節(jié),仍有一點(diǎn)需要注意,閉站保護(hù)工具生效后,網(wǎng)站首頁不會被屏蔽,如網(wǎng)站有首頁屏蔽的需求,需要單獨(dú)在搜索資源平臺反饋中提交。

5.5 新站扶持

5.5.1 新站點(diǎn)三步走

新站搭建成功后,應(yīng)該做些什么,能得到搜索資源平臺(原站長平臺)哪些優(yōu)待呢?新站入駐,先來三步走:

第一步:站點(diǎn)驗(yàn)證,在搜索資源平臺(原站長平臺)驗(yàn)證網(wǎng)站后,可以了解網(wǎng)站在搜索的數(shù)據(jù)表現(xiàn),以及使用平臺工具向百度提交數(shù)據(jù)等;

第二步:向百度提交數(shù)據(jù),網(wǎng)站可以通過鏈接提交工具-Sitemap,將站點(diǎn)數(shù)據(jù)打包提交給百度,便于百度更快發(fā)現(xiàn)網(wǎng)站;

第三步:新站保護(hù),符合新站保護(hù)目標(biāo)站點(diǎn),則會在鏈接提交工具中發(fā)現(xiàn)隱藏板塊-新站保護(hù)工具,使用此工具向百度提交數(shù)據(jù),可更好的保證網(wǎng)站內(nèi)容被百度抓取到。

5.5.2 新站保護(hù)工具

百度搜索資源平臺(原百度站長平臺)2017年9月份上線新站保護(hù)工具,此工具針對索引量極低的網(wǎng)站開放,且僅符合要求的網(wǎng)站可以在百度搜索資源平臺(原百度站長平臺)工具中看到此工具。關(guān)于新站保護(hù)工具的一些常見問題,可以通過以下得到解答:

符合新站保護(hù)要求的網(wǎng)站,需關(guān)注以下注意事項(xiàng):

  • √ 新站保護(hù)工具權(quán)限是自動開通,符合要求的站點(diǎn)均會自動開通,無需申請;
  • √ 新站保護(hù)中需填寫備案信息,備案信息僅需要填寫主體備案號即可;
  • √ 建議提交網(wǎng)站容頁URL;
  • √ 此工具僅對站點(diǎn)進(jìn)行2個月的保護(hù),兩個月后權(quán)限會自動關(guān)閉。

5.6 流量統(tǒng)計(jì)

5.6.1 百度統(tǒng)計(jì)

百度統(tǒng)計(jì)是百度推出的一款免費(fèi)的專業(yè)網(wǎng)站流量分析工具,能夠告訴用戶訪客是如何找到并瀏覽用戶的網(wǎng)站,在網(wǎng)站上做了些什么,有了這些信息,可以幫助用戶改善訪客在用戶的網(wǎng)站上的使用體驗(yàn),不斷提升網(wǎng)站的投資回報率。

百度統(tǒng)計(jì)提供了幾十種圖形化報告,全程跟蹤訪客的行為路徑。同時,百度統(tǒng)計(jì)集成百度推廣數(shù)據(jù),幫助用戶及時了解百度推廣效果并優(yōu)化推廣方案。

基于百度強(qiáng)大的技術(shù)實(shí)力,百度統(tǒng)計(jì)提供了豐富的數(shù)據(jù)指標(biāo),系統(tǒng)穩(wěn)定,功能強(qiáng)大但操作簡易。登陸系統(tǒng)后按照系統(tǒng)說明完成代碼添加,百度統(tǒng)計(jì)便可馬上收集數(shù)據(jù),為用戶提高投資回報率提供決策依據(jù)。是提供給廣大網(wǎng)站管理員免費(fèi)使用的網(wǎng)站流量統(tǒng)計(jì)系統(tǒng),幫助用戶跟蹤網(wǎng)站的真實(shí)流量,并優(yōu)化網(wǎng)站的運(yùn)營決策。

5.6.2 百度統(tǒng)計(jì)與流量與關(guān)鍵詞區(qū)別

關(guān)于流量與關(guān)鍵詞工具的介紹,在4.2.2中已經(jīng)有過介紹,這里重點(diǎn)強(qiáng)調(diào)下流量與關(guān)鍵詞工具,與百度統(tǒng)計(jì)的區(qū)別。

搜索資源平臺流量與關(guān)鍵詞工具,只記錄來自百度自然搜索的內(nèi)容,什么是自然搜索,是指除了廣告、阿拉丁之外的搜索點(diǎn)擊量;另外,流量與關(guān)鍵詞工具,將PC端的點(diǎn)擊量和移動端的點(diǎn)擊量,是分開統(tǒng)計(jì)的,站長查看精確數(shù)據(jù),需要結(jié)合PC端和移動端一起看;百度統(tǒng)計(jì),統(tǒng)計(jì)的是來自百度搜索的全部UV或PV。

簡言之,百度搜索資源平臺(原百度站長平臺)流量與關(guān)鍵詞工具,提供的是來自百度搜索的自然搜索的點(diǎn)擊量,即搜索用戶每次從百度點(diǎn)擊進(jìn)入頁面的那個動作次數(shù),點(diǎn)擊一次算一次量;百度統(tǒng)計(jì),計(jì)算的是來自百度搜索的全PV和UV,數(shù)據(jù)更詳細(xì)更充分。

從站長使用角度出發(fā),如果網(wǎng)站想了解純SEO流量,可以使用流量與關(guān)鍵詞工具,如果想知道所有從百度過來的點(diǎn)擊,可以使用百度統(tǒng)計(jì)。

5.7 反饋溝通渠道

5.7.1 反饋中心

百度自然搜索結(jié)果下的網(wǎng)站問題,都可以通過反饋中心進(jìn)行提交反饋。如網(wǎng)站流量下降、網(wǎng)站抓取建索引等問題,都可以通過反饋中心提交,并快速獲得答案。這里提示各位站長,提交問題反饋需要具備充足的說明,包括并不限于數(shù)據(jù)截圖,數(shù)據(jù)變化等,方便反饋中心同事更快解決網(wǎng)站問題。

以流量異常為例,反饋參考示例如下:

網(wǎng)站與2017年8月8日發(fā)生流量大幅異常,網(wǎng)站來自百度流量整體下降50%,(附流量與關(guān)鍵詞工具的截圖),自查網(wǎng)站并無問題,服務(wù)器穩(wěn)定。

網(wǎng)站流量下降嚴(yán)重的關(guān)鍵詞如下:(需十組)

百葉窗,URL:http://www.abc.com/news/baiye123,之前排在搜索結(jié)果第一位,現(xiàn)在排在搜索第二頁。

反饋中心入口為:

PC——百度搜索資源平臺首頁——右側(cè)小飄窗,地址:http://ziyuan.baidu.com/feedback

5.7.2 自動問答

關(guān)于網(wǎng)站如何優(yōu)化、友好建站、搜索規(guī)則等問題,站長如果想通過自我學(xué)習(xí)的方式了解,除了可以通過百度搜索資源平臺,更可以訪問搜索學(xué)院推出的自助問答服務(wù),快速了解搜索知識。搜索學(xué)院的自動問答系統(tǒng)涵蓋學(xué)院所有歷史文章,及站長常見QA;且對于站長提問,每周都會進(jìn)行問題整理盤點(diǎn),內(nèi)容補(bǔ)充。

GrowthHK(Growth Hacker):增長黑客是依靠技術(shù)和數(shù)據(jù)來達(dá)成各種營銷目標(biāo)的新型團(tuán)隊(duì)角色。從單線思維者時常忽略的角度和高度,梳理整合產(chǎn)品發(fā)展的因素,實(shí)現(xiàn)低成本甚至零成本帶來的有效增長…

本文經(jīng)授權(quán)發(fā)布,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://allfloridahomeinspectors.com/cgo/2103.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2017-12-09 23:42
下一篇 2017-12-10 00:03

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評論
特別提示:登陸使用搜索/分類/最新內(nèi)容推送等功能?>>