時(shí)間:20-12-08 10:07
內(nèi)容簡(jiǎn)介:
1)存在時(shí)效性內(nèi)容的站點(diǎn),容易出現(xiàn)機(jī)器不可見的情況。如:
電商網(wǎng)站,商戶下線了某個(gè)不再售賣的產(chǎn)品
團(tuán)購(gòu)網(wǎng)站,商戶下線了某個(gè)不再優(yōu)惠的活動(dòng)
招聘網(wǎng)站,公司下線了某個(gè)不再招聘的職位
B2B網(wǎng)站,廠商下線了某個(gè)不再批發(fā)的產(chǎn)品
當(dāng)用戶下線的某個(gè)產(chǎn)品/職位/活動(dòng),對(duì)應(yīng)的前端頁(yè)面,一般會(huì)有3種狀態(tài):
a、產(chǎn)品下線后,對(duì)應(yīng)頁(yè)面立馬404狀態(tài)
假如下線產(chǎn)品對(duì)應(yīng)的頁(yè)面,剛好在搜索引擎的待抓取列表中,當(dāng)搜索引擎訪問時(shí),必然出現(xiàn)機(jī)器不可見的情況,因?yàn)槭撬梨湣K許EO需要找技術(shù)定期(至少每天)索取下線產(chǎn)品對(duì)應(yīng)的鏈接,及時(shí)提交死鏈給搜索引擎,規(guī)避懲罰風(fēng)險(xiǎn)
b、產(chǎn)品下線后,對(duì)應(yīng)頁(yè)面301到首頁(yè),或上級(jí)頁(yè)面,或其他什么的頁(yè)面
c、產(chǎn)品下線后,對(duì)應(yīng)頁(yè)面仍然200狀態(tài),頁(yè)面上添加下線狀態(tài)的標(biāo)識(shí)
已經(jīng)下線的產(chǎn)品,比如是電商網(wǎng)站某個(gè)不再售賣的產(chǎn)品,該頁(yè)面對(duì)用戶來講,已經(jīng)毫無價(jià)值,但前端仍是200狀態(tài),讓搜索引擎消耗資源去抓取,所以站在搜索引擎的立場(chǎng),并不友好。
具體的處理方式,SEO首先要去了解產(chǎn)品對(duì)于下線產(chǎn)品的處理邏輯,再根據(jù)實(shí)際情況來定奪,比如:
a、已下線的產(chǎn)品,若歷史流量比價(jià)多,全都404顯然是非??覵EO的做法,是否需要有流量的200狀態(tài),沒流量的都404
b、若產(chǎn)品被用戶發(fā)布,然后下線后,之后還可以恢復(fù)上線。那發(fā)布和恢復(fù)上線時(shí)的url是不是一樣的?若一樣怎么處理,不一樣怎么處理?
總之,需要根據(jù)實(shí)際情況,在用戶感受、搜索引擎友好、SEO流量三者中做一個(gè)平衡。
2)需要訪問權(quán)限才能查看的內(nèi)容
若針對(duì)用戶及搜索引擎,都設(shè)置訪問權(quán)限,比如需要登陸之后才能看到正文,無疑對(duì)SEO影響巨大,爬蟲無法執(zhí)行人的登陸行為
一般可以披露部分內(nèi)容,隱藏部分內(nèi)容來處理,或者針對(duì)爬蟲披露全部?jī)?nèi)容,針對(duì)用戶隱藏。
3)觸發(fā)反爬蟲策略,返回空頁(yè)面或假頁(yè)面
運(yùn)維沒有將搜索引擎加到白名單,搜索引擎被誤判為“壞人”,觸發(fā)反爬蟲策略,返回空白頁(yè)面。
更坑的是返回假數(shù)據(jù),比如從100條預(yù)先準(zhǔn)備的數(shù)據(jù)中,隨機(jī)抽取一條返回給爬蟲,爬蟲抓了幾萬頁(yè)面,實(shí)際上數(shù)據(jù)就那100條,對(duì)SEO造成嚴(yán)重影響。
從而引申出一條,SEO需要時(shí)刻跟運(yùn)維保持同步,時(shí)刻了解最新的反爬蟲措施,是否存在誤傷搜索引擎的可能。
4)POST請(qǐng)求
通過post請(qǐng)求返回的數(shù)據(jù),常出現(xiàn)于多條件篩選框,如肯德基的門店內(nèi)容:http://www.kfc.com.cn/kfccda/storelist/index.aspx
用戶執(zhí)行某個(gè)行為(點(diǎn)擊按鈕、輸入字符串等),js獲取到這個(gè)行為后,通過post方式請(qǐng)求web service,在當(dāng)前已打開的頁(yè)面中展示返回的數(shù)據(jù),而不是在新標(biāo)簽頁(yè)中顯示數(shù)據(jù),所以u(píng)rl是不變的。
爬蟲無法模擬人的行為,自然也看不到數(shù)據(jù)。
解決辦法:
a、通常用三方瀏覽器內(nèi)核,遍歷加載這批需要post的頁(yè)面,將瀏覽器渲染后的網(wǎng)頁(yè),生成一個(gè)個(gè)靜態(tài)頁(yè)。之后web service判斷來訪用戶,若為搜索引擎,則將post按鈕(href="javascript:void(0);")替換為靜態(tài)頁(yè)面的鏈接(href="{靜態(tài)頁(yè)鏈接}")
b、如果post網(wǎng)頁(yè)太多,技術(shù)一般不愿意按a的方式搞,因?yàn)橐粋€(gè)模塊得維護(hù)兩套代碼,麻煩。所以一般搞一套新頁(yè)面,來承載這批post頁(yè)面對(duì)應(yīng)的關(guān)鍵詞流量。
5)服務(wù)器響應(yīng)慢,導(dǎo)致內(nèi)容沒抓全
爬蟲抓取網(wǎng)頁(yè),等待數(shù)據(jù)返回的時(shí)間是有限的,有timeout的??稍L問做的不到位的網(wǎng)站,經(jīng)常出現(xiàn)爬蟲來不及抓取全部?jī)?nèi)容的情況,特征是快照中只存留網(wǎng)頁(yè)部分內(nèi)容,另外一部分沒抓到,當(dāng)時(shí)爬蟲抓取的時(shí)候,超時(shí)了。
6)iframe/ajax,不解釋,ajax見上面的post部分,原理差不多。
7)通過圖片/flash來承載內(nèi)容,爬蟲無法理解圖片和視頻中包含的信息。
技術(shù)支持:企信網(wǎng) Copyright @ 2011-2023 東莞企信SEO公司 13326882788 版權(quán)所有企信網(wǎng)絡(luò)本站主營(yíng)東莞網(wǎng)站推廣,企信寶SEO建站系統(tǒng),東莞seo,東莞網(wǎng)絡(luò)推廣,東莞網(wǎng)站優(yōu)化,東莞網(wǎng)站建設(shè)公司 聲明:本站部分素材來自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)立即聯(lián)系刪除。 粵ICP備2021042450號(hào)