Google技术副总裁谈Google排名算法
今天是Google新闻发布日2006,大家可以看新闻发布会的实况,长达3个多小时。在发布会上Google总裁Eric Schmidt谈到Google的核心还是搜索,相关人员介绍了四个新产品,其中Google Trend对关键词研究很有用。
最感兴趣的是Google技术部门副总裁Alan Eustace谈Google排名的情况。所以我只跳到这个部分看了一下,大概半小时。下面拣记得的重点介绍给大家。
Alan首先谈到的是蜘蛛爬行,基本上就是跟踪所发现的链接。
速度非常重要。上一次Google在主页上发布的信息是,在数据库中有80亿网页。如果每秒爬行一个网页的话,这80亿的网页需要250多年才能爬行完。所以高速爬行网页非常重要。
爬行时的另外一个问题是,大概有50%的网页都是重复内容。所以Google所收录的80亿其实是已经丢掉了一半后的数字,真正爬行的有可能是200亿文件。
爬行时还有一个危险就是无限循环。比如说跟踪某个网页上日历的链接,可能在这个日历上总是有“下一个月”这个按钮,产生无限循环。因为网页程序可以无限制的生成下一个月的月历,Google蜘蛛就出不来了。
10%到20%的网站每个月都会更新内容,更新度也很重要。
然后是索引,索引就和一本书的索引差不多。比如说用户搜索heart attack(心脏病暴发),heart出现在文件5,9,25,attack出现在文件7,9,22,那么很明显第九个网页是符合条件的网页,这样搜索范围就已经限制在包含搜索词的网页内。
当然这个数量还是巨大的,再怎么从这里面挑出最好的结果呢?也就是进一步计算排名。
Google用两百多个信号来计算排名,这是新信息。
Alan提到了锚文字和PageRank。
举斯坦弗大学网页作为例子,很多其他网站会连向斯坦弗大学的网页,那么可以合理假定斯坦弗大学的网站权威性比较高,这也就是PR的意义。
然后是锚文字,也就是链接文字。比如在斯坦弗大学的网页上,一个以“Knight fellows”为链接文字的链接到其他网站,那么这个链接文字本身就在一定程度上说明了那个网页的主题,就算在那个网页上面Knight fellows这个词根本没有出现。
这个排名过程必须是自动的,不可能人工去调节这些排名。
Alan谈到大约20%到25%的搜索关键词都是独特的,也就是说以前从来没有别人所搜索过的。用户都非常有创意,会以各种各样形式组合的词来做搜索。
一个关键词搜索是由上千架机器所处理的。
Alan接着谈到垃圾技术,比如说在留言本里留下垃圾链接,这种技术对Google来说早就不起作用了。再比如有的作弊的人建立大量的网站,在这些网站之间互相链接,这对Google也不起作用。
他加了一句:对别的搜索引擎起不起作用,那就不知道了。
Google在做算法调整的时候,依据是多少人受益。比如说做某个调整,40%的人会觉得搜索质量提高,40%的人觉得没什么变化,20%的人觉得搜索质量降低,Google的决定就会是进行这个调整。
不可能在100%的搜索词下满足100%的人。
Alan还提到很多其他语言的搜索也非常困难,比如中文分词技术。
这段谈话倒没有很出人意料的地方,但Google负责技术的副总裁自己谈Google排名算法就已经很难得了。
等有时间再完整看一遍,看有什么新东西。
相关文档
- 免费的图片在线压缩工具(Squoosh)
- SEO门户网:丰富信息汇聚,技术交流共享的互联网营销宝地
- 东莞企业网站排名怎么做?教你精准优化关键词
- 深圳网站优化排名:竞争激烈如抢出租车,掌握技巧占优
- 网站关键词优化软件超火,它能提升排名还能分析啥?
- 武汉 SEO 创造者:专注排名背后的有趣日常与最怕之事
- 提升网站排名从这开始:学习SEO优化让网站更受欢迎
- 如何运用SEO外链推广策略有效提升网站排名?
- 哈尔滨建站必备核心技术,如何提升网站效果您知道吗?
- 别再幻想靠Alexa排名提升网站,它已风光不再
- 网上惊现帽子云排名,这背后究竟藏着怎样的荒诞与趣事?
- 刷Alexa排名:看似高大上,实则用处不大,流行方法存问题
- 百度主题推广:花钱买流量,被算法操控的无奈与荒诞
- 揭秘SEO刷排名:让网站脱颖而出的捷径及搜索引擎算法真相
- 揭秘苏州旺道SEO公司:白帽技术背后的SEO行业乱象
- 乐云SEO排名软件:界面丑但功能实在,是SEOer偷懒工具?
- 网站推广乱象:竞价排名似无底洞,效果难测如游戏充钱
- 昆明网站优化:排名如过山车,SEO 要把握好节奏选对关键词
- 揭秘旺道SEO工具:界面老旧,搜索排名提升效果存疑?
- 网站排名能靠软件轻松搞定?别天真了,来看看这些工具