网站优化之robots.txt文件优化
日期 2010-05-07 / 人气 2506 / 栏目: 消息静态 网站优化
起首,我来先容一下甚么是robots.txt:robots.txt是搜刮引擎中拜候网站的时辰要查抄的第一个文件。robots.txt文件告知蜘蛛法式在办事器上甚么文件是能够或许被查抄的。当一个搜刮蜘蛛拜候一个站点时,它会起首查抄该站点根目次下是不是存在robots.txt,若是存在,搜刮机械人就会根据该文件中的内容来肯定拜候的规模;若是该文件不存在,一切的搜刮蜘蛛将能够或许拜候网站上一切不被口令掩护的页面。最初,robots.txt必须安排在一个站点的根目次下。大师能够或许参考一下谷歌、百度和腾讯的robots写法:
//www.google.com/robots.txt
//www.baidu.com/robots.txt
//www.qq.com/robots.txt
大师领会完robots.txt后,那末咱们能够或许用robots.txt来做甚么?
1、用robots.txt屏障类似度高的页面或没内容的页面。
咱们晓得,搜刮引擎收录网页后,会对网页停止“考核”,而当两个网页的类似度很高时,那末搜刮引擎就会删除掉此中一个,并且会下降一点你网站的得分。
假定以下这两个链接,内容实在差未几,那末第一个链接就应当屏障掉。
/xxx?123
/123.html
像第一个的链接如许的链接很是多,那末咱们要怎样屏障呢?实在只需屏障/xxx?就能够或许屏障一切的链接了。
代码以下:
disallow: /xxx?
同理,一些不内容的页面咱们也能够或许操纵不异的方法将其屏障掉。
2、用robots.txt屏障过剩的链接,普通保留静态的链接(既html、htm、shtml等)。
由于网站中常常会呈现多个链接指向统一个页面的环境,而如许会让搜刮引擎对网站的友爱度下降。为了防止这一个环境,咱们就能够或许经由过程robots.txt把 非首要的链接去掉。
比方以下两个链接指向一样的页面:
/ooo?123
/123.html
那末咱们就应当去掉第一个渣滓,代码以下:
disallow: /ooo?123
3、用robots.txt屏障死链
死链便是曾存在的网页,由于改版或其余原因此落空功效后就变成死链,也便是说看似一个一般的网页链接,但点击后不能翻开绝对应的网页页面。
比方,本来在目次为/搜刮引擎优化下的一切链接,由于目次地点的转变,此刻都变成死链接了,那末咱们能够或许用robots.txt把他屏障掉,代码以下:
disallow: /搜刮引擎优化/
4、告知搜刮引擎你的sitemap.xml地点
操纵robots.txt能够或许告知搜刮引擎你sitemap.xml文件的地点,而不须要在网站上增加sitemap.xml的链接。详细代码以下:
sitemap: 你的sitemap地点
以上便是robots.txt的根基用法,一个好的网站肯定会有一个好的robots.txt,由于robots.txt是搜刮引擎领会你网站的一 个路子。别的在这里我保举一下一个比拟合适wordpress用户利用的robots.txt写法:
user-agent: *
disallow: /wp-
disallow: /feed/
disallow: /comments/feed
disallow: /trackback/
sitemap: //rainjer.com/sitemap.xml
最初,若是你感觉下面所说的还不能知足你的须要,那末你能够或许在谷歌或百度官方供给的robots.txt利用指南进修:
百度://www.baidu.com/search/robots.html
谷歌://www.google.com/support/forum/p/webmasters/thread?tid=4dbbe5f3cd2f6a13&hl=zh-cn


转载清算本文请说明来由【通联台州网站扶植中间】
产品标签: