鲁夫的爱

百度文库的SEO小秘密

分类: 小小极客    标签: , ,     评论: 7人评论

update: Google蜘蛛很早就能抓取flash的文字内容了。但除此之外,本文对百度文库SEO的分析仍然是正确的。

这是知乎上的一个问题:为什么Google能搜到百度文库中的文档内容?

我们知道,百度文库用flash来播放用户上传的文档,而根据常识,搜索引擎机器人并不支持flash。但奇怪的是Google却能搜到文档的文字内容。

Google能搜到百度文库中的文字内容

Google能搜到百度文库中的文档内容



这不禁令人惊叹,难道Google的蜘蛛已经进化到这种程度了吗?

莫非百度文库的网页里保存了文档的文字内容?我们随便点开一个文档的源代码,却并没有看见文档的文字内容。那么这到底是怎么回事呢?

运行下面两条命令,比较origin.txt和google.txt,我们发现同一个url,不同的user-agent得到的结果并不一样。原来百度文库对搜索引擎机器人做了优化,当机器人以Googlebot的user-agent抓取网页时,百度文库的服务器会在源代码中增加一个特殊的容器<div id="textContainer" class="mt">,容器里包含了pdf文档的文字内容。

wget http://wenku.baidu.com/view/51758b3243323968011c9283.html -O origin.txt

wget --user-agent="Googlebot/2.1 (+http://www.googlebot.com/bot.html)" http://wenku.baidu.com/view/51758b3243323968011c9283.html -O google.txt

经过这样的处理,当用户在搜索引擎中搜索时就能根据内容搜到百度文库的文档了。见人说人话,见鬼说鬼话,将搜索引擎机器人与普通用户区别对待,这也算是SEO的经典手段。

本站文章除注明转载外,均为本站原创编译
转载请注明以下信息
文章转载自:鲁夫的爱 [ http://opengg.me/ ]
本文标题:百度文库的SEO小秘密
本文地址:http://opengg.me/447/baidu-wenku-seo/


09-01
2011
  1. 很有用的文章,刚刚看完,试着把useragent替换成博主所说的谷歌蜘蛛,效果很不错。
    以前对useragent理解不了,只肤浅以为是网站统计之用,或迷惑网站。现在觉得useragent是个很重要的东西。
    衷心地想说声:谢谢

无觅相关文章插件,快速提升流量

loading...