文章来源:由「百度新聞」平台非商業用途取用"http://baijiahao.baidu.com/s?id=1650644117433111773&wfr=spider&for=pc"
王紫檀SEO發布時間:11-1923:21百度蜘蛛爬行我們的網站時會優先爬行根目錄下的robots.txt文件。robots.txt文件存在的意義是:防止搜索引擎收錄一些保密和沒有意義的頁面,這個文件聲明的是該網站中不想被爬蟲訪問的部分。從而保證網站的安全和更好的優化效果。robots.txt文件必須存在根目錄下,而且百度蜘蛛只能識別小寫的robots.txt文件。下面介紹一年robots.txt文件里面的常用語的意思:User-agent:用來指定搜索引擎爬蟲的名字。Disallow:用來指定不希望被搜索引擎爬蟲訪問到的URL。Allow:用來指定希望被搜索引擎爬蟲訪問到的URL(優先級要比Disallow高)。*:通配符,有“全部”的意思。Sitemap:指定網站地圖的位置。對于一些大型的網站來說,robots.txt文件可以寫的詳細一點。比如說禁止抓取后臺文件、禁止抓取data(就是也就是禁止抓取數據庫)。但是如果我們是一個小企業站、一些小網站的話,其實就也沒必要設置太多東西。因為蜘蛛一般只會抓取那些有價值的內容。就拿后臺來說,光一個后臺登錄框也沒有什麼內容,一般來講蜘蛛不會抓取的。所以以下格式是對安全性要求不是特別高的那些小網站可以借鑒的形式:User-agent:*Allow:Sitemap:https:www.XXXXXX.comsitemap.xml修改robots.txt文件的話,那你需要在dede后臺的文件管理器中去修改。另外提醒一下,robots.txt文件本質上是一種協議,而不是強制隔離的技術手段。如果有爬蟲想暴力抓取你網站的內容,那你的robots.txt是根本防不住的。
關鍵字標籤:seo策略
|