显示标签为“搜索引擎优化”的博文。显示所有博文
显示标签为“搜索引擎优化”的博文。显示所有博文

2009年5月7日星期四

网站迁移的最佳方法

转载自:http://www.googlechinawebmaster.com/2008/05/blog-post.html

您正在计划为自己的网站更换新的域名吗?很多网站管理员发现这真是一个繁琐的过程。究竟怎样做才能不影响网站在谷歌搜索结果中的表现呢?
您希望这种迁移对于用户来说是毫无察觉地发生的,同时希望谷歌知道新页面应该与原网站页面得到相同的质量认可。当您迁移网站时,那些讨厌的404误提示(无法找到文件) 不仅会伤害用户体验,还会给您的网站在谷歌搜索结果中的表现带来负面影响。

本文将介绍如何稳妥地将您的网站搬到一个新域名(例如从www.example.com变为www.example.org)。这与将网站搬到一个新的IP地址是不同的,如果想了解这方面的内容请阅读此文

网站迁移的主要步骤如下:
  • 首先通过移动一个目录或子域名的内容来测试整个网站的迁移过程。然后使用301重定向功能将原有网站网页重定向到您的新网站上。通过此方法可告知谷歌和其它搜索引擎:您的网站已经永久性地迁移了。
  • 上述操作完成后,查看一下您新网站里的网页能否出现在谷歌的搜索结果里。如果您对这次小范围的迁移感到满意,就可以迁移整个网站了。请不要将旧网站中所有网页的流量都重定向到您的新主页上,这种一刀切式的重定向虽然会避免404错误,但它并不能为用户提供良好的体验。尽管页对页的重定向(旧网站中每一网页都重新定向到新网站的相应网页上)会带来更大的工作量,但这也会给您的用户带来更连贯和明晰的体验。如果在新旧网站中不是一对一的页面匹配,那么一定要努力确保旧网站中每一个网页至少要重定向到具有类似内容的新网页上。
  • 如果网站因为要重新命名或重新设计而需变更域名,您可以分两个阶段进行:第一阶段,移动您的网站;第二阶段,开始重新设计。这样做,不仅可以掌控用户在每一阶段中感受到的变化幅度,而且可以使整个过程变得更顺利。把变化控制在最低限度可以使您更容易发现和解决各种意外情况。
  • 检查您网站网页的内、外部链接。理想的情况是您应该联络每个链接到您网站上的其他网站的管理员,让他们把链接指向您新域名的相应网页。如果这难以实现,您要确保原网站中所有含有其他网站链接指向的网页都被重定向到您的新网站上。您也应该检查并更新所有旧网站里的内部链接,使它们指向新域名。当您的网站内容已经在新服务器上准备就绪后,您可以使用一个诸如Xenu的链接检查工具来确认在您的新站点上没有遗留的故障链接。这一点特别重要,如果您的原始内容包含绝对链接(如www.example.com/cooking/recipes/chocolatecake.html )而不是相对链接(如 …/recipes/chocolatecake.html)的话。

  • 为防止混淆和混乱,您最好继续持有对原网站域名的控制权限至少180天。
  • 最后,确保您的新、旧网站都在网站管理员工具中得到验证,并定期检查抓取错误,确保来自旧网站的301重定向工作正常,同时新网站上也不会显示我们不想看到的404错误提示。
我们承认,迁移从来就不是一件容易的事 —— 但是,这些步骤能帮助您确保原有网站的良好声誉在迁移的过程中不受损失。

2009 厦门SMX大会 Part II

转载自:http://www.googlechinawebmaster.com/2009/05/2009-smx-part-ii.html

在四月九日、十日的两天会议中,我们在会场设置了展台,很高兴与很多网站管理员进行了面对面的交流, 也很高兴了解到越来越多的站长开始关注和喜欢谷歌的搜索。我们欢迎广大的站长在这里继续留下评论, 如果有问题可以到谷歌网站管理员论坛上面与我们交流。

来自谷歌中文反网络作弊组的资深工程师朱凯华做了题为“ 谷歌搜索引擎优化” 的演讲,站在提高搜索质量和提升用户体验的角度,分享了如何利用谷歌提供免费资源和工具来提高网站质量,例如参考谷歌搜索引擎优化初学者指南。他建议在优化网站的时候,首先要考虑用户的体验,优化的方面可以包括例如标题和元标签、URL、站内导航、404页面等方面;同时他也纠正了大家的一些误解,比如 URL 一定要静态化等等;除此以外,还分享了谷歌搜索最近推出的新功能,利用 rel="canonical" 指定URL的范式 。朱凯华特别强调的是,一切的改变都应该为用户考虑,增加价值,例如:提供原创的内容或者服务。在演讲的最后,朱凯华还提供了一个列表,其中列举了谷歌网站管理员工具的主要功能,和谷歌提供的有关搜索免费资源,包括优化方面的指南和建议。

为了方便没有机会参加会议的站长了解这个演讲的内容,我们附上了他使用的演示文档

朱凯华在演讲之后还与现场的听众进行了互动交流,以下是他对主要问题的回答:

1. 问:我的网站刚刚把动态的 URL 全都静态化了,会不会对 Google 收录有影响?在 Google 网站管理员工具里面出现了警告,应该怎么办?

答:首先,我们并不鼓励为了搜索引擎而做静态化的 URL,Google 可以很好的理解多种 URL 结构和含义,比如动态的和静态的。而且在静态化过程中如果处理不当,反而可能导致搜索引擎重复抓取。

如 果是出于用户体验和网站管理的角度已经做了静态化的 URL,并且如果别的网站有通过旧的(动态)URL指向您的链接,这个时候建议您使用 301 重定向,把它们重定向到静态化以后的 URL 上去,以免损失 “声誉值”。如果已经有用户收藏了你的页面,并且通过旧的 URL 来访问,这么做对他们也有帮助。

至于您的第二个问题,既然在网站管理员工具中看到了警告,您应该依照提示分析出现警告的原因,并作出相应的调整。

2. 问:到我网站上的链接有很多页面会返回404,会不会影响我在 Google 的排名?

答:对于一个不存在的 URL,建议返回一个404响应代码,而不鼓励返回200响应代码。这样做会避免 Google 对404页面的重复抓取,对您的网站的收录也有帮助。如果是一个正常的404,请你不用担心,这并不会影响你的网站的 “声誉”。

但是,过多的坏链也会影响到用户的体验,令用户觉得沮丧。所以我们建议您修正这些链接。你可以用301重定向将用户和Googlebot带到一个有用的页面,而不是一个出错页面。此外,您也可以考虑采用类似于Google的增强型404页面工具 ,使得404页面对用户更加有用。

3.问:可不可以介绍一下谷歌的搜索技术?谷歌是怎么做到在海量的网页中搜索到需要的信息的?

答:谷歌的搜索技术是我们最为感到自豪的,尽管如此,我们仍然在不断努力提高技术,满足用户的需求。在这里我没有时间详细地介绍这些,如果您对这个问题感兴趣的话,非常欢迎您来我们的网站,阅读公司信息中的Google技术 ;Google 负责搜索质量的工程副总裁 Udi Manber 写的博客,Google搜索质量介绍;如果您愿意阅读英文,可以参考Google的两位创始人 Sergey Brin 和 Larry Page 发表于 1998 年的论文The Anatomy of a Large-Scale Hypertextual Web Search Engine

4.问:目前字母比较少的 .cn 的域名似乎已经被注册的差不多了,我开始申请和使用其他国家的域名,是不是会影响我的网站的排名?

答: 谷歌会尝试对用户的查询返回最相关的结果,不论这些结果是来自.cn .com .es或者其他顶级域名。当用户把他们的查询限制到一个特殊的地理区域时,一个网站的顶级域名会影响到我们对是否相关的判断。但是我们同时也会考虑到其他 因素,例如,服务器的地理位置。当您的域名是.com、.org、.asia 这种与地域无关的顶级域名时,您可以在 Google 网站管理员工具中设定一个目标地理区域。

这样做的同时,您也应该考虑到您的用户,如果绝大多数用户是来自中国的,而你使用的域名是外国的,这样会影响到中国用户访问您的网站时域名解析所需要的时间。

5.问:我的网站在准备的阶段注册了一个域名,同时也在使用三个做备选域名,后来另外三个被不小心启用了,这样就有了四个一样的镜像网站,现在每个网站都会有一些被收录页面,这样的做法对我的网站有什么影响吗?我应该怎么做?

答:这种情况下您应该把这三个备选域名用 301 重定向到你的主要域名上。具体的做法可以参考这篇博客网站迁移的最佳方法

6.问:我的网站是英文的,也有很多来自印度的用户,但是服务器在美国,这样会不会影响我的网站在 Google 印度的排名?

答: 谷歌希望提供最相关的搜索结果给用户,无论网站的服务器在哪里。但是同时,这也取决于用户查询的关键词,通常在选择了“某地的网页”,例如 “印度的网页” 之后差别就会很明显。如果您有一个最好的关于“魔兽争霸”游戏经验的网站,当用户搜索“魔兽争霸攻略”的时候,无论你的服务器在哪里都不应该影响网站排 名;但是,如果用户查找的本地服务,比如 “银行”,结果应该有更多的印度本地的网站。尤其是当用户选择了 “印度的网页” 之后,您的网站的服务器如果是在美国,出现在搜索结果里面的可能性就会变小。

7.问:听说最近谷歌的算法有一个调整,是关于线下大品牌的。我们是一个大品牌,在互联网上应该如何让 Google 知道呢?

答:Matt Cutts 在英文的网站管理员频道中有一段视频, 对此做出了解释。 正如他说的,这个变化并不是针对品牌的,而是关于一个网站本身的 “权重,声誉,信任”。其实 Google 的算法在不断优化中,每年都会有 300 - 400个关于排名的调整,平均每天都有变化,而所谓的 Vince's change 只是众多调整中的一个。无论您是不是一个大品牌,您最好都不要因为 Google 个别的算法调整而担忧,努力提高网站本身的质量才是长久之计。

很高兴这次有机会在厦门和这么多站长进行了互动,希望下次能和更多的站长进行面对面的交流!

2009年4月27日星期一

域名买卖与SEO

作者:

Google几年前就成为域名注册商,但一直没有向用户提供域名注册服务。所以大部分SEO都认为Google之所以成为域名注册商,是为了更大规模、更方便地获得域名注册信息,帮助提高搜索质量。这一点Google的人也曾经明确承认过。

与域名关系最大的一个SEO问题就是,买了一个域名后,这个域名以前获得的链接是否还有效?这些链接权重是否会保持下来?

Google曾经提到过,很多人因为域名积累的链接而买域名。这种情况下一旦域名转手,原来所获得的链接及其权重将被清零,不再有效。

但是有很多情况,域名买卖和转手不一定是为了链接,比如公司之间的并购之类的,域名转手很正常。不可想象Google收购Youtube,Youtube域名转移到Google名下,却把Youtube上获得的链接全部清零。在实际中,这也并没发生。

那么Google怎样判断域名转手是为了链接,还是因为其他原因?哪些情况下链接和权重会保持呢?Danny Sullivan前些天写了一篇帖子总结了几种情况,并且与Matt Cutts交流这个问题。

Matt Cutts说:

某些域名转手,比如公司并购,以前的链接将被保持。有的时候保持链接和权重就没有意义,比如说过期的或实际上过期的域名。Google及其他所有搜索引擎,都尽量正确处理域名转手时的链接问题。

我们的系统要检测的主要是过期域名买卖,或者只为了链接的域名买卖。

Danny Sullivan根据Matt Cutts的回答及自己的观察列出几种情况:

买过期域名

这种情况基本上可以肯定原域名链接及权重不会保留。在很多论坛看到过站长们在讨论所谓掉下来的域名,不少人热衷于过期域名买卖。其实如果是为了这些过期域名以前的链接或PR等,就没有意义了。

买域名然后转向

有的人找到不错的域名买下来,然后做301转向到自己的主网站,希望这个域名积累的链接能够转到自己的主网站。这种情况下,恐怕原来域名上的链接权重也保留不住。因为做了转向,Google就能判断这个域名转手是想传递链接权重。

就算保持域名所有人信息不变,Google和其他搜索引擎大概也会注意到注册信息的变化。

买域名后继续照常运营网站

如果域名买过来以后,原来的网站依旧原样运营,网站内容没有变化,这种情况通常能够保持域名原来的链接及权重。

因为公司并购引起的域名变动

和上面的情况相似,这种域名转手应该不影响域名原来获得的链接及权重。

问题是Google怎样准确检测到这种公司并购域名转手,和为了链接而转手之间的区别。

我最近的观察也显示,买了链接和权重都比较强的域名,改变其内容想做新关键词排名,也似乎很难,原来域名的权重在域名转手后基本消失了,和做新网站差不多。

域名续费时间的影响

很多SEO都认为域名续费时间对域名权重也有影响,我也一直这么认为。逻辑很简单,续费了10年的域名说明主人很认真,很重视。

关于这个问题,Matt Cutts说:

就我所知没有搜索引擎确认把域名续费时间计入排名算法。如果有公司这样认为,那是很麻烦的事。

域名续费的主要原因应该是,这是你的域名,你打算持有一段时间,而不希望还得操心哪天域名过期了。

Matt Cutts回答问题都是小心谨慎很圆滑的。到底续费年限有没有用?每个人就会生出不同的解读了。

2009年2月26日星期四

指定您的URL范式

发表者: Joachim Kupke, 资深软件工程师; Maile Ohye, 开发者项目技术带头人
原文: Specify your canonical
发表于: 2009年2月12日星期四,12:30 PM

您可能会对URL形式不同造成的重复内容有所担心,谷歌现在推出一种新的功能,使您可以指定您喜欢的URL格式。如果您的网站通过多种不同形式的URL向访问者提供完全相同或非常类似的内容,那么通过这种功能您可以自主控制出现在搜索结果中的您网站的URL格式。同时这也有助于将那些影响您网页声望值的因素更固定地指向您所青睐的URL格式上。

让我们以一个出售瑞典鱼的网页为例,假设我们所青睐的URL格式和所对应的内容是下面这样的:

http://www.example.com/product.php?item=swedish-fish
然而,访问者和谷歌机器人实际上可以通过另外的URL形式访问到这一内容。尽管URL的核心部分与您青睐的URL格式很相近,但是他们依据排序的参数或分类浏览种类的不同而向用户提供略有差别的网页。

http://www.example.com/product.php?item=swedish-fish&category=gummy-candy
或者,也有可能他们有着完全相同的内容,但是URL看起来并不相同,比如下面的URL还带有跟踪参数或者会话ID:

http://www.example.com/product.php?item=swedish-fish&trackingid=1234&sessionid=5678
现在,您可以将如下语句<link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish">
加入到其他您不倾向于在搜索引擎出现的URL的代码部分,就能指定您喜欢的URL格式。

比如您不希望以下两种格式在搜索结果中出现:

http://www.example.com/product.php?item=swedish-fish&category=gummy-candy
http://www.example.com/product.php?item=swedish-fish&trackingid=1234&sessionid=5678

只要您将上文中的
语句加入到上述两个网页的代码部分,那么谷歌就会知道以上两个网址实际上是被建议指向您指定的标准URL: http://www.example.com/product.php?item=swedish-fish上。 其他的URL属性,比如PageRank和相关的其他因素,也都会自动指向该标准URL。

这个标准同时也被其他搜索引擎在抓取和索引您网站时所接受和使用。

以下我们将以FAQ的形式,解答一些您可能存在的疑问:

从强制性与否来说,请问rel="canonical"是一个建议,还是一个指令?
是一个建议。这是一个我们非常自豪的功能,您可以以此提示搜索引擎考虑您对URL格式的喜好。

我能用相对路径来指定我的URL规范么,比如 <link rel="canonical" href="product.php?item=swedish-fish">?
可以,在这里使用相对路径是可以被正确识别的,如果您在代码中指定了link,那么相对路径都会以此base URL为基础。

我可以将URL范式使用在不是完全相同内容的其他网页上吗?
我们允许这些网页之间有些细微差别,比如归在不同类目下的同一产品网页。

如果被指定为规范格式的URL返回404,怎么办呢?
我们会继续访问和抓取您的内容,并应用一些联想功能去寻找一个URL范式,但是我们强烈建议您将一个可访问的URL设置成URL范式。

如果我指定的URL范式并没有被索引会怎样?
就像网络上所有的公共内容一样,我们会努力发现和寻找您指定的URL范式,一旦我们索引到它,我们就会立即将您的rel="canonical"付诸考虑。

我的URL范式可以是一个重定向URL么?
可以,您可以指定一个发生重定向的URL作为URL范式,谷歌会继续跟踪这个重定向并尝试去抓取它。

如果我不小心指定了互相矛盾的URL范式怎么办?
不用担心,我们的算法是很聪明并宽容的,我们会跟踪抓取这个URL范式链,但是我们还是强烈建议您尽快将URL范式指定为特定单一URL形式,从而确保您的搜索结果早日得到优化。

这个link tag可以被用来建议一个在其他域名上的URL么?
不可以。如果您需要转移到一个不同的域名上,那么301永久重定向对您来说更合适。谷歌现在只能认可在不同子域名下的URL范式的指定。所以,站长们可以将www.example.comexample.com, 及help.example.com互相指定为范式,但是不能将example.comexample-widgets.com互相指定为范式。

听起来不错,能给我举一个现实中的例子么?
我们有一个真实的例子wikia.com。比如,您在http://starwars.wikia.com/wiki/Nelvana_Limited 的源代码中可以发现,该网页已经把http://starwars.wikia.com/wiki/Nelvana指定为了URL范式。通过使用rel="canonical",两个网页的PageRank被整合计算,避免了分散计算的流失,同时搜索结果中也只会包含网站管理员所指定的URL形式。

如果您未能应用URL范式指定您心仪的URL形式,您也不要担心,我们会尽我们最大努力,选择一个更优化的URL形式,并将声望等属性值进行相应转移处理,就像我们以前做的那样(英文)。

补充:这个link tag现在也被Ask.com,微软Live Search和Yahoo!搜索等搜索引擎所支持。

2009年2月4日星期三

与谷歌机器人的第二次约会:HTTP 状态代码和If-Modified-Since

原文: Date with Googlebot, Part II: HTTP status codes and If-Modified-Since
发表于: 2008年11月27日星期四,中午12:12

我们与谷歌机器人的上一次约会棒极了,但网站们还对响应代码感到比较困惑,不知道自己返回的响应代码是否正确。我们的服务器返回了301永久重定向代码,但在什么情况下我们应该返回302临时重定向? 如果我们返回一些新的"404文件无法找到"代码,Googlebot是否不会再访问我们的网站?我们应该支持标头(header)"If-Modified-Since"吗?这些问题让人困惑不解,就好像懵懂的爱情一样。为了少一点诸如此类的烦恼,我们来问问专家——谷歌机器人,看看他怎样评价我们的响应代码。

亲爱的谷歌机器人,

最近我给我的网页做了一次大扫除,删除了一些陈旧的、无用的网页。现在这些网页都返回404"页面无法找到"代码,这么做合适吗?还是我让你感到困惑了? Frankie O'Fore

亲爱的Frankie,

404代码是告知网页已不存在的标准方式,对此我不会感到困惑,因为旧网页从网站上删除或更新是很正常的事情。大多数网站都会在网站管理员工具的抓取诊断中显示一些404错误。这绝对不是什么大问题。只要您有良好的网站架构并能链接到所有您可抓取的网页,我就会很高兴,因为我能籍此找到我需要的任何信息。

但是别忘了,不仅是我来访问你的网页,也会有很多访问者看到你的网页。如果你只是显示简单的"404页面无法找到"的信息的话,不了解的访问者可能会很迷惑。其实有许多办法可以让你的无法显示的页面变得更加友好,最便捷的一个方式就是使用谷歌网站管理员工具上的404小工具,它能够帮助访问者找到那些真正存在的内容。大多数的主机托管商,无论大小,都允许你自定义你的404页面(同样适用于其他返回代码)。

爱你的,

谷歌机器人


嘿,谷歌机器人,

我读了上面你给Frankie的回复,我有一些问题。如果有人链接到我网站上不存在的页面怎么办?我该怎样才能确保那些访问者能够找到他们想要的东西呢? 此外,如果我想移动一些页面该怎么办?我想更好地组织我的网站,但是我很担心这会让你感到困惑,我该怎样让你更明白我的网站呢?Little Jimmy

Jimmy你好,

让我们先不考虑你问题的先后顺序,从最核心的问题来回答吧。首先,我们来看一下来自其他网站的链接,很显然,这些链接可能是你网站的一个重要的流量来源,而且你不希望访问者看到的是一个不友好的"页面无法访问"的信息。因此,你可以利用强大的重定向来解决这些问题。

最常用的两种重定向是301302。事实上还有更多的重定向,但这两种是目前与我们联系最紧密的,正如404301302是可以发送给用户和搜索引擎机器人的不同种类的响应代码。301302都是重定向,但301为永久重定向、302为临时重定向。301重定向可以告诉我这个页面以前是什么样、目前转移到了什么地方等等。它可以完美地用于重新建构你的网站,并对重新计算被指向的新网页的声誉有很大帮助。每当我看到301永久重定向,我就会把所有指向旧网页的外部链接自动作为重定向后新网页的声誉计算因素。这不是很方便么?

如果你不知道怎样实施这些重定向的话,我可以帮你入门。这主要取决于你的web服务器,此外这里有一些搜索结果会比较有帮助:
Apache: http://www.google.cn/search?q=301+redirect+apache

IIS: http://www.google.cn/search?q=301+redirect+iis

你也可以参考服务器所附带的手册或自述文档。

作为重定向的另一个替代办法,你可以向链向您网站的网站管理员发送电子邮件,请他们更新链接指向。不能确定哪些网站指向你是吗?不用担心,我的谷歌同事们已经让这变得轻而易举了。在网站管理员工具的“链接”部分中,你可以输入你网站的某个具体URL来查阅哪些外部链接指向了该网页。

我的谷歌同事们最近还发布了一个新的工具,可以显示所有链向你网站中不存在网页的URL,你可以在此了解更多。

永远乐意为你效劳的,

谷歌机器人


亲爱的谷歌机器人,

我 有一个问题。我生活在互联网中一个充满活力的地方,我不断改变对事物的看法。当你问我一个问题,我绝不会说出同一个答案两次,我的网站上的头条内容每个小 时都在变化,我总会想到新的内容。你看起来像一个很直爽的人,希望得到直接的答案。当我的网站内容频繁更新的时候,我该怎么让你明白又不使你感到困惑呢? Temp O'Rary

亲爱的Temp

我刚刚告诉Jimmy通过301永久重定向来告知谷歌机器人你的新网址,但是你描述的情况则不同,应当适用于302临时重定向。对某一特定已经被索引的URL,如果你想告知你的用户该URL的地址是正确的,但是想访问的内容可以临时在另一个地址找到,那么使用302临时重定向(或更为罕见的"307临时重定向")是一个既礼貌又妥当的方式。例如,Orkut将用户从http://orkut.com 重定向http://google.com/accounts/login?service=orkut,但当检索Orkut*时,这个URL并不是一个具有实际检索价值的网页,而且是在另一个域名下。因此,使用302临时重定向可以告诉我,不要把属于http://orkut.com的内容和反向链接计算到重定向后的目标网址上——因为它只是一个临时页面。

这就是为什么当您搜索orkut时,您看到的是orkut.com,而不是那个更长的URL

请记住:直接沟通是保持良好关系的关键。

你的朋友,

谷歌机器人

*请注意,在这里我把URL做了简化,使它更易读。实际的URL要远复杂于此。


谷歌机器人上尉,

我是一个经常重新设计和组织的网站。我注意到很多网站链接的URL都是我在很久以前就删掉的URL。我已经为这些已删除的URL设置了指向新URL301永久重定向,但在这之后我又对网站做了重新设计,很多上述新的URL也不存在了,于是我又用301永久重定向来让它们指向更新的URL。现在我很担心,在抓取的时候,沿着这些指示,你很可能会不断地抓取到一连串的301重定向,而最终导致你可能放弃未来对我网站的抓取。 Ethel Binky

亲爱的Ethel

听起来好像你已经设置了很多嵌套重定向的URL。好吧,天哪!如果次数比较有限的话,这些"重复重定向"是可以被理解的,但我们或许应当首先思考一下你为什么要这样做。如果你把中间环节的301重定向统统移除,并将我直接引导到该URL的最终目标网址,你将为我们彼此节省大量的时间和HTTP请求。但是不要仅仅想到我们两个,想想其他访问者可能早已经厌倦了在状态栏中不断看到反复的连接加载连接的冗长过程。

设身处地地想一想,如果你的重定向开始看起来都相当长,用户们很可能担心你已经把他们推入到一个无限死循环中。机器人和人类都会害怕那种无穷无尽的重复。相反地,试着消除那些重复重定向,或至少保持他们尽可能短一些,我们就可以体谅一下广大访问者!

设想周到的谷歌网络机器人


亲爱的谷歌机器人,

我知道你一定是很喜欢我,要不然你就不会隔段时间就发出抓取我某一网页的请求,即使他们的内容从来没有改变过,就好像我的十年内都没有变化的大学论文一样。但是这些现在开始变成我的一个麻烦了,有什么办法可以帮助我不让你来占用我珍贵的带宽吗? Janet Crinklenose

Janet, Janet, Janet,

看起来你应该学会一个新的名词——304未修改”。如果我之前曾经访问过一个URL,那么我会在我的请求中插入一个"If-Modified-Since"。此行还包含一个HTTP格式的日期字符串。如果你不想再向我重复发送一遍该文档,那么你只需要向我发送一个正常的并带有"304未修改"状态的HTTP 标头。我很喜欢这样的信息。当你这么操作的时候,你没有必要再向我重复发送该文档,这就意味着你不用浪费你的带宽,而我也不会觉得你又在用老掉牙的重复内容糊弄我。

你很可能会注意到很多浏览器和代理服务器也会在标头上显示" If-Modified-Since ",你也可以这么做来抵制滥用带宽的行为。

现在就开始行动,节省更多的带宽吧!

谷歌机器人

——————

谷歌机器人对我们真是太有帮助啦!现在我们知道应该怎样更好地响应用户和搜索引擎了。下次我们再相聚的时候,就该和这个老朋友坐下来促膝谈心了与谷歌机器人的第三次约会即将发表,敬请关注!)。


与谷歌机器人的第一次约会:标头和压缩

发表者:Maile Ohye (饰网站),Jeremy Lilley (饰谷歌机器人)
原文: First date with the Googlebot: Headers and compression
发表于: 2008年3月5日星期三,晚上6:13
谷歌机器人 -- 多么神奇的梦幻之舟!他了解我们的灵魂和各个组成部分。或许他并不寻求什么独一无二的东西;他阅览过其它数十亿个网站(虽然我们也与其他搜索引擎机器人分享自己的数据:)),但是就在今晚,作为网站和谷歌机器人,我们将真正地了解对方。

我知道第一次约会的时候,过分地分析从来就不是什么好主意。我们将通过一系列的文章,一点点地了解谷歌机器人:
  1. 我们的第一次约会(就在今晚):谷歌机器人发出的数据标头和他所留意到的文件格式是否适于被进行压缩处理;
  2. 判断他的反应:响应代码(301s、302s),他如何处理重定向和If-Modified-Since;
  3. 下一步:随着链接,让他爬行得更快或者更慢(这样他就不会兴奋地过了头)。
今晚只是我们的第一次约会……

***************
谷歌机器人: 命令正确应答
网站: 谷歌机器人,你来了!
谷歌机器人:是的,我来了!

GET / HTTP/1.1
Host: example.com
Connection: Keep-alive
Accept: */*
From: googlebot(at)googlebot.com
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Accept-Encoding: gzip,deflate


网站: 这些标头太炫了!无论我的网站在美国、亚洲还是欧洲,你都用同样的标头爬行吗?你曾经用过其他标头吗?

谷歌机器人: 一般而言,我在全球各地所用的标头都保持一致。我试图从一个网站默认的语言和设定出发,搞清楚一个网页究竟长得什么样。有时候人们的用户代理各不相同,例如Adsense读取使用的是“Mediapartners-Google”:
User-Agent: Mediapartners-Google

或者对于图像搜索:
User-Agent: Googlebot-Image/1.0

无线读取的用户代理因运营商而异,而谷歌阅读器RSS读取则包含了订阅者数量等额外信息。

我 通常会避免Cookies(因此不存在所谓“Cookie:”标头),因为我并不希望与具体对话有关的信息对内容产生太大的影响。此外,如果某个服务器在 动态URL而不是Cookies上使用对话ID,通常我都能识别出来,这样就不用因为每次对话ID的不同而成千上万遍地重复爬行同一个网页。

网站:我的结构非常复杂。我是用许多类型的文件。你的标头说:“Accept:*/*”。你会对所有的URL进行收录,还是自动过滤某些文件扩展名?

谷歌机器人:这要取决于我想找什么。

如 果我只是对常规的Web搜索进行检索,当我看到指向MP3和视频内容的链接,我可能不会下载这些东西。类似地,如果我看到了一个JPG文件,处理方法自然 就与HTML或者PDF链接有所区别。例如JPG 的变动频率往往比HTML低很多,所以我不太经常检查JPG的变动,以节约带宽。同时,如果我为谷歌学术搜索寻找链接,那么我对PDF文章的兴趣就会远远 高于对JPG文件的兴趣。对于学者而言,下载涂鸦绘画(例如JPG),或者是关于小狗玩滑板的视频,是容易让他们分散注意力的,你说对吗?

网站:没错,他们可能会觉得被打扰到了。你的敬业精神令我佩服得五体投地。我自己就喜欢涂鸦绘画(JPG),很难抗拒它们的诱惑力。

谷歌机器人:我也一样。实际上我并不是一直都在做学问。如果我为搜索图像而爬行,就会对JPG非常感兴趣,碰到新闻,我会花大力气考察HTML和它们附近的图像。

还有很多扩展名,例如exe、dll、zip、dmg等,它们对于搜索引擎而言,既数量庞大,又没有多大用处。

网站:如果你看到我的URL“http://www.example.com/page1.LOL111”,(呜噎着说)你会不会只是因为里面包含着未知的文件扩展名就把它拒之门外呢?

谷 歌机器人: 网站老兄,让我给你讲点背景知识吧。一个文件真正下载完成后,我会使用“内容—类别”(Content-Type)标头来检查它属于HTML、图像、文本 还是别的什么东西。如果它是PDF、Word文档或Excel工作表等特殊的数据类型,我会确认它的格式是否合法有效,并从中抽取文本内容。但是你永远也 不能确定里面是否含有病毒。但是如果文档或数据类型混乱不清,我除了把它们扔掉之外,也没有什么更好的办法。

所以,如果我爬行你的 “http://www.example.com/page1.LOL111”URL并发现未知文件扩展名时,我可能会首先把它下载。 如果我从标头中无法弄清内容类型,或者它属于我们拒绝检索的文件格式(例如MP3),那么只能把它放在一边了。除此之外,我们会接着对文件进行爬行。


网站:谷歌机器人,我很抱歉对你的工作风格“鸡蛋里挑骨头”,但我注意到你的“Accept-Encoding”标头这样说:
Accept-Encoding: gzip,deflate

你能跟我说说这些标头是怎么回事吗?

谷歌机器人:当然。所有的主流搜索引擎和WEB浏览器都支持对内容进行gzip压缩,以节约带宽。你或许还会碰到其它的一些类型,例如“x-gzip”(与“gzip”相同),“deflate”(我们也支持它)和“identity”(不支持)。


网站:你能更详细地说说文件压缩和“Accept-Encoding: gzip,deflate”吗?我的许多URL都包含尺寸很大的Flash文件和美妙的图像,不仅仅是HTML。如果我把一个比较大的文件加以压缩,会不会有助于你更迅速地爬行呢?

谷歌机器人:对于这个问题,并没有一个简单的答案。首先,swf(Flash)、jpg、png、gif和pdf等文件格式本身已经是压缩过的了(而且还有专门的Flash 优化器)。

网站:或许我已经把自己的Flash文件进行了压缩,自己还不知道。很显然,我的效率很高喽。

谷 歌机器人:Apache和IIS都提供了选项,允许进行gzip和deflate压缩,当然,节省带宽的代价是对CPU资源的更多消耗。一般情况下,这项 功能只适用于比较容易压缩的文件,例如文本HTML/CSS/PHP内容等。而且,只有在用户的浏览器或者我(搜索引擎机器人)允许的情况下才可以使用。 就我个人而言,更倾向于“gzip”而不是“deflate”。Gzip的编码过程相对可靠一些,因为它不断地进行加和检查,并且保持完整的标头,不像 “deflate”那样需要我在工作中不断推测。除此之外,这两种程序的压缩算法语言都很相似。

如果你的服务器上有闲置的CPU资源,可以尝试进行压缩(链接:Apache, IIS)。但是,如果你提供的是动态内容,而且服务器的CPU已经处于满负荷状态,我建议你还是不要这样做。

网站:很长见识。我很高兴今晚你能来看我。感谢老天爷,我的robots.txt文件允许你能来。这个文件有时候就像对自己的子女过分保护的父母。

谷 歌机器人:说到这里,该见见父母大人了——它就是robots.txt。我曾经见过不少发疯的“父母”。其中有些实际上只是HTML错误信息网页,而不是 有效的robots.txt。有些文件里充满了无穷无尽的重定向,而且可能指向完全不相关的站点。另外一些体积庞大,含有成千上万条单独成行、各不相同的 URL。下面就是其中的一种有副作用的文件模式,在通常情况下,这个站点是希望我去爬行它的内容的:
User-Agent: *
Allow: /


然而,在某个用户流量的高峰时段,这个站点转而将它的robots.txt切换到限制性极强的机制上:
# Can you go away for a while? I'll let you back
# again in the future. Really, I promise!
User-Agent: *
Disallow: /


上述robots.txt文件切换的问题在于,一旦我看到这种限制性很强的robots.txt,有可能使我不得不把索引中已经爬行的该网站内容舍弃掉。当我再次被批准进入这个站点的时候,我不得不将原先的许多内容重新爬行一遍,至少会暂时出现503错误相应代码。

一 般来说,我每天只能重新检查一次robots.txt(否则,在许多虚拟主机站点上,我会将一大部分时间花在读取robots.txt文件上,要知道没有 多少约会对象喜欢如此频繁地拜见对方父母的)。站长们通过robots.txt 切换的方式来控制爬行频率是有副作用的,更好的办法是用网站管理员工具将爬行频率调至“较低”即可。

谷歌机器人: 网站老兄,谢谢你提出的这些问题,你一直做得很不错,但我现在不得不说“再见,我的爱人”了。

网站:哦,谷歌机器人…(结束应答):)

2009年1月11日星期日

SEO你问我答002期

4、很多SEO文章里都提及301重定向,能说说它的作用吗?

当你的站点域名发生变化或者网页地址更改(网页更换存放目录或者网页文件的名称发生改变),如何确保站点在过渡交接期内来自搜索引擎的流量不会丢失,同时可以更新搜索引擎结果中的网页地址?301重定向是解决这个问题的理想方法,它可以把用户和搜索引擎定向至正确的网页。

Google在其网站管理员帮助中心给出建议,301重定向状态保持至少180天为佳。虽然301重定向能把旧的网页的 PR值传递给新网页,但是我们建议在后续的链接建设过程中,以新的网页地址为准。于此同时,应通知与你交换链接的网站管理员协助修正链接地址和更新站点中 旧网页中的内链设置。如果你想了解实现301重定向的方法,可以看看点石博客关于301的相关文章。

5、什么样的页面会被Google放入省略的结果中?

在Google搜索结果最后一页会提示以下内容:为了提供最相关的结果,我们省略了与已显示的N个类似的条目。如果提问者之前对Google搜索结 果补充材料的相关讨论主题有所关注的话,那么问题也就不是问题了。2007年8月份,Google 取消了其搜索结果中补充材料的标记,虽然如此,类似“补充材料”现象的影响却依旧存在。获取关于补充材料的讨论内容,你可以在谷歌中搜索“Google 补充材料”。

脱离谷歌省略结果的小提示:加大站点网页间文字信息内容的差异化(网页标题独有,文章尽可能原创,篇幅段落稍长等),降低网页页面上的辅助内容(一般是指广告信息、尾部版权信息等)对核心内容(主要指文章正文)的干扰。当然,还需持续的链接建设(外链和内链并重)。

6、Google对站群的态度是如何的,会进行大规模惩罚么?

关于Google对站群等态度,这个你得发邮件去问一下Google。我们可以看到这些类型的站群:知道CBS Interactive么,其旗下的站群恐怖得很(据不完全统计,站点数量至少30个),它们包括CNET、DOWNLOAD.COM、MP3.COM和 中关村在线等,他们的每一个站都在其所属行业有着巨大影响力;而有些个人站长,手里站点也很多,有的人手里甚至有超过100多个站点,而这些站点内容大部 分都是采集或者转载而来。两种情况下的站群,后者遭遇大规模惩罚的可能性要大些。

试想我们做站群的目的是什么?对了,就是给访问者提供有价值的信息。如果你精力和财力许可,依据用户的具体需求,可以有针对性的来建立多个站点。但是站点建立以后,需要持续进行维护,更新有价值的内容,赢得用户等喜爱。面对这样的站群,我想Google是下不得了手的。

SEO你问我答001期

1、二级域名被降权会影响到主域名或者其他域名吗?

这个视情况而定。一个二级域名站点被降权,应该是该站点采取了不被搜索引擎认可的优化方法或者文字内容跟相关法律相悖,如果其它二级域名站点和主域 名站点的性质也跟该被降权站点一样,也会被一并降权。如果这个域名下的其它站点都符合搜索质量要求,应该会相安无事。当然,我们也看到不少被误判牵连的例 子,在这个方面有影响力的大站点比小站点更有安全感。

主流搜索引擎对二级域名的态度:百度会把二级域名作为一个独立的站点来看待,Google 最初亦如此,但是在2007年底 Google 搜索质量带头人 MattCutts 在 Las Vegas PubCon 发言称 Google 开始把二级域名等同于网站目录。

2、为什么我的站点网页的百度收录数在增加,而谷歌收录数却降低?

百度和谷歌的算法体系不同,因此有这样的现象也十分正常。只要你站点的网页在搜索引擎中有数据就不用太担心,接下来所需要做的便是细心观察一下网页 收录的变化,如果在单位观察时间(诸如一个月)里网页收录数一直在下降,那就得引起注意了。造成网页收录数下降的原因,一般有这么四个:第一,你站点的信 息内容复制(诸如采集,转载等)他人的站点;第二,你的站点内容被其他站点复制,并且那个站的权重大于你的站;第三,搜索引擎在进行数据更新,这时收录数 下降只是暂时的;根目录下Robots.txt文件被恶意篡改,禁止搜索引擎机器人对站点网页进行索引。

增加网页收录数小技巧:花点时间和精力用在原创文案的撰写上,搜索引擎十分喜欢独有的内容;网页的发布或信息更新勤快点,让搜索引擎蜘蛛经常来造访你的网站;合理规划网站结构,增加辅助导航(诸如相关文章,热门文章,上一篇下一篇等),不让一个网页成为信息孤岛。

3、我的网站已经两天访问不了,这对站点网页在搜索引擎中的排名影响大吗?

当务之急,你得赶紧让网站恢复正常。网站长时间不能访问,会让搜索引擎机器人连续吃闭门羹,搜索引擎会判定该站点失效,从而会逐渐清理其被索引的数 据。你网站更新的频率越大,搜索蜘蛛在单位时间内来造访的次数就越多,这会让搜索引擎会快速觉察网站不正常,在这点上,恰好那些懒于更新的站点可以争取到 更多的响应时间。依据经验来看,最好是让网站在3天之内能正常访问。

给网站管理员的建议:为网站租用、托管服务器或者购买主机空间,最好是找口碑好的 IDC 服务商,这会让你省心不少。建议启用独享IP,这样可以避免不必要的消极牵连影响。另外,也得准备好应对恶意流量攻击的措施,这些年通过恶意攻击致使竞争 对手网站长时间不能访问从而干扰其站点在搜索引擎中的排名表现的案例屡见不鲜。如果条件许可,可以开发或者启用站点监测工具,一旦网站不能访问,即可通过 电子邮件或者手机接收到提示信息。

2008年11月17日星期一

告诉搜索引擎你的Sitemap更新了

当Sitemap随着网站的更新增加了内容,如何最快的让搜索引擎知道而不是坐等蜘蛛光临呢?当然最好的办法就是告诉搜索引擎你的Sitemap更新了,就等你放蜘蛛过来了!

如何告诉搜索引擎?用他们开放的Ping功能。

遗憾的是国内搜索引擎对Sitemap都不感兴趣,更别说Ping了,所以中文站可能效果有限。

下面几个地址是老乐搜集过来的,大家可以照此格式将其中Sitemap完整地址换成你自己的,Ping一下搜索引擎,告诉你的Sitemap更新。

Google:http://www.google.com/webmasters/sitemaps/ping?sitemap=XML文件完整地址

Yahoo:http://api.search.yahoo.com/SiteExplorerService/V1/updateNotification?appid=YahooDemo&url=XML文件完整地址

Live:http://webmaster.live.com/ping.aspx?siteMap=XML文件完整地址

Ask:http://submissions.ask.com/ping?sitemap=XML文件完整地址

Moreover:http://api.moreover.com/ping?u=XML文件完整地址

可惜,主流中文搜索引擎对Sitemap不感冒,支持Sitemap的搜索引擎市场份额又上不去。

2008年11月15日星期六

Using the robots meta tag

Recently, Danny Sullivan brought up good questions about how search engines handle meta tags. Here are some answers about how we handle these tags at Google.

Multiple content values
We recommend that you place all content values in one meta tag. This keeps the meta tags easy to read and reduces the chance for conflicts. For instance:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">

If the page contains multiple meta tags of the same type, we will aggregate the content values. For instance, we will interpret

<meta name="ROBOTS" content="NOINDEX">
<meta name="ROBOTS" content="NOFOLLOW">

The same way as:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">

If content values conflict, we will use the most restrictive. So, if the page has these meta tags:

<meta name="ROBOTS" content="NOINDEX">
<meta name="ROBOTS" content="INDEX">

We will obey the NOINDEX value.

Unnecessary content values
By default, Googlebot will index a page and follow links to it. So there's no need to tag pages with content values of INDEX or FOLLOW.

Directing a robots meta tag specifically at Googlebot
To provide instruction for all search engines, set the meta name to "ROBOTS". To provide instruction for only Googlebot, set the meta name to "GOOGLEBOT". If you want to provide different instructions for different search engines (for instance, if you want one search engine to index a page, but not another), it's best to use a specific meta tag for each search engine rather than use a generic robots meta tag combined with a specific one. You can find a list of bots at robotstxt.org.

Casing and spacing
Googlebot understands any combination of lowercase and uppercase. So each of these meta tags is interpreted in exactly the same way:

<meta name="ROBOTS" content="NOODP">
<meta name="robots" content="noodp">
<meta name="Robots" content="NoOdp">

If you have multiple content values, you must place a comma between them, but it doesn't matter if you also include spaces. So the following meta tags are interpreted the same way:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
<meta name="ROBOTS" content="NOINDEX,NOFOLLOW">

If you use both a robots.txt file and robots meta tags
If the robots.txt and meta tag instructions for a page conflict, Googlebot follows the most restrictive. More specifically:
  • If you block a page with robots.txt, Googlebot will never crawl the page and will never read any meta tags on the page.
  • If you allow a page with robots.txt but block it from being indexed using a meta tag, Googlebot will access the page, read the meta tag, and subsequently not index it.
Valid meta robots content values
Googlebot interprets the following robots meta tag values:
  • NOINDEX - prevents the page from being included in the index.
  • NOFOLLOW - prevents Googlebot from following any links on the page. (Note that this is different from the link-level NOFOLLOW attribute, which prevents Googlebot from following an individual link.)
  • NOARCHIVE - prevents a cached copy of this page from being available in the search results.
  • NOSNIPPET - prevents a description from appearing below the page in the search results, as well as prevents caching of the page.
  • NOODP - blocks the Open Directory Project description of the page from being used in the description that appears below the page in the search results.
  • NONE - equivalent to "NOINDEX, NOFOLLOW".
A word about content value "NONE"
As defined by robotstxt.org, the following direction means NOINDEX, NOFOLLOW.

<meta name="ROBOTS" content="NONE">

However, some webmasters use this tag to indicate no robots restrictions and inadvertently block all search engines from their content.

2008年11月9日星期日

揭秘“重复内容处罚”

转载自谷歌中文网站管理员博客
发表者:Susan Moskwa, 网站管理员趋势研究员

原文:Demystifying the“duplicate content penalty”
发表于:2008 年 9 月 12 日星期五,上午 8: 30

重复内容始终是一个经常被谈论的话题。我们不断地发表关于这方面文章,人们也在不断地提出问题。特别是,我还听到有很多网站管理员担心自己受到了“重复内容处罚”。

在这里请允许我们把这个问题一次性跟大家讲清楚:根本不存在所谓的“重复内容处罚”。至少,也不是大多数人谈论时所认为的那样。

有一些处罚是和抄袭其他网站的内容有关的,比如完全抄袭并且发布其他网站的内容,或者在完全没有提供任何其他附加价值的情况下发布这些抄袭的内容。这些都是我们不提倡的做法,您可以在网站管理员指南里找到有关此问题的清晰的论述:

* 请不要创建含有大量重复内容的多个页面、子域或者域。
* 请避免使用那种“一个模子印出来”(cookie cutter)的方式创建网站,比如没有或者很少原创内容的联属计划。
* 如果您的网站参与联属计划,请确保您的网站可提供附加价值。提供独特且相关的内容,使用户首先有理由访问您的网站。

(请注意,我们不希望您从其他网站那里抄袭内容,但是如果其他人抄袭了您的网站就是另外一回事了;如果您担心别人抄袭了您的网站,请您参考这篇文章)。

但 是我听到的一些担心重复性内容的网站管理员所谈论的并不是抄袭或者域名农场(domain farms);他们讨论的是诸如在同一个域上有多个网址指向相同的内容。比如,www.example.com/skates.asp?color= black&brand=riedell
和www.example.com/skates.asp?brand=riedell&color=black。这种类型的重复性内容可能会对您网站在搜索结果中的表现有潜在的影响,但是它不会使您的网站受到惩罚。下面这段文字来自我们关于重复内容的帮助文章:

除非重复内容看起来意在欺骗用户并操纵搜索引擎结果,否则,我们不会对有重复内容的网站采取特别措施。如果您的网站存在重复内容问题,而您又未遵循上述建议,我们会自行以恰当的方式选择在搜索结果中显示的内容版本。

这种非恶意的重复是比较常见的,特别是很多内容管理系统(CMS)缺省条件下对此处理的并不是很好。因此,当人们谈到此种类型的重复性内容会影响您的网站时,并不是因为您可能会因此受到处罚,而仅仅是由于网站和搜索引擎的工作方式所造成的。

大多数搜索引擎都力求保持一定程度的多样性:他们想在搜索结果页上向您展示十个不同的搜索结果,而不是含有相同内容的十个不同的网址。为此,谷歌试着去掉重复的内容从而使用户较少看到这些多余的重复性的内容。您可以在这篇博客里了解更多的细节,其中谈到

1. 当我们探测重复内容时,比如由网址参数造成的衍生网址,我们会将这些相似的网址放在同一组里。
2. 我们会选择我们认为最能代表这一组的网址在搜索结果里进行展示。
3. 我们还会对这一组网址的特性进行相应的整理,像链接的受欢迎程度,并将其合并到此代表性网址上。

作为网站管理员,上述过程可能会影响到您的是:

* 在步骤二中,谷歌所认为最具有代表性的网址并不一定和您的想法一致。如果您想控制究竟是 www.example.com/skates.asp?color=black&brand=riedell 还是www.example.com/skates.asp?brand=riedell&color=black出现在我们的搜索结果中的话, 您或许想采取适当措施以减少您的重复内容。告诉我们哪一个是您比较喜欢的网址的有效方法之一就是将其列入您的网站地图(Sitemap) 里。
* 在步骤三中,如果我们无法探测出某一特定页面的所有重复性页面的话,我们在对其页面特性进行整合时就不可能包括所有这些重复性页面的特性。这可能会削弱这一特定内容的排名竞争力,因为他们被分散分配到了多个网址上。

在 大多数情况下,谷歌可以很好的处理此类重复内容。然而,对于那些不同域名上的重复性内容,您或许需要再考虑一下。尤其是,当您决定建立一个网站而它的目的 从本质上来讲就是内容抄袭和重复的话,如果您的商业模式又依赖于搜索引擎的流量,那么除非您可以给用户带来很多的附加价值,不然对于建立此类网站您还是要 三思而后行。举个例子,我们有时听到来自 Amazon.com 的联盟网站说他们网站上那些完全由 Amazon 提供的内容很难有好的排名。这难道是因为谷歌想阻止他们卖《Everyone Poops》 这本书吗?不;这是因为如果他们的网站提供完全一样的内容的话,他们怎么可能会比 Amazon 的排名更好呢?对于在线购物来讲,Amazon 在很多方面具有权威性(对于一个典型的 Amazon 联盟网站来说更是如此),一般的谷歌搜索用户可能想看到的是 Amazon 上的原始信息,除非这个联盟网站提供了相当数量的、额外的附加值给用户。

最 后,想一下重复内容给您网站带宽带来的影响吧。重复内容会造成抓取效率低下:当 Googlebot 在您的网站上发现了十个网址,在它知道这些网址含有完全相同的内容之前(如上所述,也就是在我们能够对他们进行归类之前),它必须对这十个网址逐一进行抓 取。Googlebot 耗费在抓取重复性内容上的时间和资源越多,它用来抓取其他内容的时间也就相对变少了。

总而言之,网站上的重复性内容会以多种方式影响您的网站。但是除非您是恶意抄袭造成内容重复,否则这些方式不会构成对您网站的处罚。这也意味着:

* 当您清除了无恶意的重复性内容时,您无须提交重新收录的请求。
* 如果您是一个介于初级到中级经验值之间的网络管理员,您可能不需花费过多精力来担心重复性内容,因为大多数搜索引擎都有方法来处理它。
* 通过澄清和杜绝关于重复性内容处罚的杜撰之说,您可以帮到您的网站管理员同行们!解决重复性内容的方法完全在您的掌控之中,这里有几篇较好的文章您可以参考

2008年10月31日星期五

让垃圾留言远离您的网站和用户

转载自谷歌中文网站管理员博客
发表者: Jason Morrison,搜索质量组


原文: Keeping comment spam off your site and away from users

假设您已经在您的网站上开辟了一个论坛,或者在您的博客上激活了评论功能。您精心准备了一两篇帖子,点击了提交按钮,然后开始屏住呼吸等待评论的到来。

评论真的来了。您的一个博友发表了友好的评论,您参加的在线角色扮演游戏的盟友发来了新的消息,Millie阿姨发来了星期四晚上聚餐的提醒…但同时您还收到另外一些东西…一些让您头疼的东西。比如一些鼓吹得天花乱坠的广告信息,乱七八糟不知所云的信息,甚至还有一些暴露的图片。可以这样说,您已经陷入可怕的垃圾留言里了。

垃圾留言对您来说是有害的,因为它加重了您的工作负担。垃圾留言对您的用户来说也是有害的,因为他们只是来您的网站来寻找感兴趣的内容,而这些毫不相关的内容只会影响他们的注意力。垃圾留言对整个网络来说也是有害的,因为它使网站管理员们不敢轻易开放自己的网站,这给人们在论坛和博客上自由发表自己的观点带来了不便。

那么作为一个网站管理员,您可以做些什么呢?

注:下面的解决办法是一个很好的起点,但可能并不是全部的解决方案。互联网上有许多不同的博客,论坛和BBS 我们不可能对每一种系统都提供详尽的指导,以下是较广泛通用的解决办法。

确保是真正的人而不是机器在您的网站上留言

  • 添加一个输入验证码环节(CAPTCHA)CAPTCHA要求用户阅读一段模糊的文字并输入相应的文字,这种办法能够验证对方究竟是真正的人类还是机器程序。如果您的博客或论坛没有植入验证环节的话,您可以使用Recaptcha这个插件。验证环节并不能解决所有的问题,但是它可以有效地制止垃圾留言制造者的猖狂行为。您可以了解更多类型的CAPTCHAS,但是请记住仅仅是添加这么一个环节,就可以起到很大的作用。
  • 阻止可疑行为。许多论坛允许您设置两次发贴之间的最小时间间隔。您也可以通过安装插件,监控那些来自于同一IP地址或proxy的异常巨大的流量,以及其他更可能来自于机器程序而不是人类访问者的异常行为。

使用自动过滤系统

  • 通过将一些关键词加入黑名单能够帮助您阻止一些明显的不恰当的留言。垃圾制者们有时候会故意模糊所使用的词语,所以这个方法也不是万能的,不过您也不妨一试。
  • 使用能够自动删除垃圾留言的插件或系统特性。垃圾制造者们使用自动程序的方式来侵扰您的站点,那我们为什么不也用自动的方式来保护自己呢?像Akismet(有很多针对博客和论坛的插件)这样的系统和TypePad Antispam(开源并兼容Akismet),很容易安装,并能帮您完成大部分的工作。

将您的设置调整地更严格一些

  • 禁止跟踪不被信任的链接。许多系统有这样的功能,可以给链接添加"nofollow"的属性。这样做可以防止某种类型的垃圾留言,但并不是唯一可行的方式。
  • 您可以考虑要求用户在发帖前必须登录,这样可以防止用户任意地发表留言。但是,这样做也会使信噪比提高。
  • 改变您的设置,使留言必须经过您的批准才能展示。如果您是一个规模较小的网站,并且没有太多的留言的话,这是一个使自己网站留言保持高水平的很好的办法。您可以允许自己的员工或者值得信赖的用户能够自助批准自己的留言,这样能减轻您一部分工作负担。
  • 可以考虑禁止某些类型的留言。比如,您可以将那些比较陈旧、已经不太可能有高质量评论的帖子冻结。在博客上,您可以把引用通告等功能暂停,因为这是极易吸引网络垃圾的地方。

及时更新您的网站

  • 请您花些时间将您的软件及时更新,并关注那些重大的安全升级。一些网络垃圾制造者会利用旧版本博客、论坛或内容管理系统的安全漏洞攻击您的网站。您可以在网站安全快速检查清单上找到更多相应的解决方案。

您可能需要权衡您的软件、您的用户群,及您的经验等多种因素来选择实施各种方法。无论您是一个小型的个人博客,还是一个大型的多用户的网站,不加任何保护地就贸然开放您的网站留言是有很大风险的。另外,如果您的网站已经被成千上万条垃圾帖所侵蚀并且不再出现在Google搜索结果的话,当您已经彻底清除了这些不良内容并采取了相应保护措施的话,您可以考虑提交一个重新收录的申请

作为一个有较长时间经验的网站开发者和博客一员,我可以以我自己的切身体验告诉您,花一点点时间做一些预防措施会节省您将来大量的时间和精力。我是网站管理员中心组的一个较新的成员。我很乐意帮助我的网站管理员同行们,而且我对搜索质量也非常感兴趣(我已经在这一领域做了一些学术研究)。欢迎您在留言板里分享您对防止留言垃圾的心得,同时始终欢迎您访问Google网站管理员支持论坛并提出您的问题。