• Category Archives: SEO

这个目录下面会聊一点科学的SEO方法,分享一些SEO案例、工具

rel=canonical最佳做法

通过在网页中添加 rel=canonical 链接,可以向搜索引擎发出重要提示,使之了解在对网络中的重复网页编制索引时应首选使用的网页版本。Yahoo!、Bing 和 Google 等多个搜索引擎都支持添加此链接。rel=canonical 链接可以使被收录的重复内容得以统一(例如导入链接),而且可以指定您希望在搜索结果中显示的网址。

建议您在使用 rel=canonical 时遵循以下最佳做法:
● 规范网页应包含其对应重复网页的大部分内容。
● 仔细检查您的 rel=canonical 目标网页是否存在(不是错误页面或“404 错误”页面)
● 确认 rel=canonical 目标不包含 noindex robots 元标记
● 确保您在搜索结果中是要显示 rel=canonical 网址(而非重复网址)
● 在网页的或 HTTP header 中添加 rel=canonical 链接
● 只能为一个网页指定一个 rel=canonical。如果指定多个 rel=canonical,搜索引擎就会忽略所有 rel=canonical。

参考:Allan Scott(Google 索引团队软件工程师)5 common mistakes with rel=canonical

H5页面SEO规范

1、 使用规范的html5协议语言
2、 规范的DOCTYPE声明,HTML5采用
3、 增加移动化的META信息,方便搜索引擎和浏览器识别渲染,例如:

4、 URL要求简单、规范、唯一
唯一:网页与URL一一对应,不应该出现多个版本的URL。
规范:url一旦生成则不能更改,不同的类目、应用遵循统一的规则。文件与目录具有描述性,用户可以通过url预测网页的内容
简单:url必须使用小写字符;!, @, #, $, %, ^, &, * 一类的特殊字符应该使用短划线代替。
5、 引导爬虫抓取
例如:百度爬虫,该spider的主要目的是保证站点资源入库,包括pc资源和mobile资源。使用的UA是:
Mozilla/5.0 (Linux;u;Android 2.3.7;zh-cn;) AppleWebKit/533.1 (KHTML,like Gecko) Version/4.0 Mobile Safari/533.1 (compatible; +http://www.baidu.com/search/spider.html)
要求对该爬虫开放希望被抓取的所有资源,由于BaiduSpider的IP主要集中在北京,所以对抓取不做地域IP适配。
6、 Title、Description、keyword遵循PC规范。

建议避免以下情况:
1、 使用明显带有PC特征的Meta。
例如<meta http-equiv=”X-UA-Compatible” content=”IE=edge,chrome=1″> or <meta http-equiv=”X-UA-Compatible” content=”IE=7″ />
2、 使用<iframe> <object> <embed> 等TAG
3、 使用swfobject.js
4、 直接在原PC URL上自适配到手机页

H5页面SEO的站长工具
如果您想测试几个网页,可以进行移动设备适合性测试
如果您拥有网站,则可以访问自己的Google网站站长工具帐户,然后通过在移动设备上的易用性报告获取一个完整列表,其中会列出您网站上的所有此类易用性问题。

附一:百度移动搜索排名策略
百度移动搜索排名策略

附二:百度:2015年中国移动网站趋势报告

参考资料:
1、手机站优化指南V1.1-[百度官方版]
2、如何在移动搜索中保持优势-2013-12 baidu mobile-骆旭剑

长尾效应和帕雷托法则在SEO领域的体现

根据维基百科的解释:长尾(英语:The Long Tail),或译长尾效应,最初由《连线》的总编辑克里斯·安德森(Chris Anderson)于2004年发表于自家的杂志中,用来描述诸如亚马逊公司、Netflix和Real.com/Rhapsody之类的网站之商业和经济模式。是指那些原来不受到重视的销量小但种类多的产品或服务由于总量巨大,累积起来的总收益超过主流产品的现象。在互联网领域,长尾效应尤为显著。长尾这一术语也在统计学中被使用,通常应用在财产的分布和词汇的使用。

这一法则,恰好是来被商业界视为铁律的帕雷托法则的对立面
(帕雷托法则:内涵认为企业界80%的业绩来自20%的产品)
今天我们就来聊一聊SEO领域的一些表现,借此抛砖引玉

此图,为Google analytic中的网站keyword报表,不难发现两个现象:
1、40978个sessions会话,由3015个关键字构成;
2、TOP1的关键字“湖南卫视跨年演唱会2015”,占流量26.6%;其余3014个关键字占比73.4%
3、TOP10的关键字(0.3%)流量占比64.9%

启示:
1、如果拥有大量的资源垄断或特别消息渠道,应该根据用户搜索query,抢占和覆盖TOP10的keyword
2、3015个query反应用户需求的丰富和多样性,如果没有足够的资源,可以有策略的偏重某类需求
3、用关键词字数来判断是否长尾是太业余了,应该关注关键词后面的搜索量和用户需求

浅谈robots协议

定义:
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots协议的原则:
Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

robots协议的功能:
除去robots建立的原则给我们带来的隐私保护的相关益处,协议还具备下列好处:
1、可以屏蔽一些网站中比较大的文件,如:图片、音乐、视频等,节省服务器带宽;
2、可以屏蔽站点的一些死链接,方便搜索引擎抓取网站内容;
3、可以屏蔽一些SEO不规范的网页;
4、设置网站地图连接,方便引导蜘蛛爬取页面。
5、引导蜘蛛抓取,调整抓取压力;

robots的写法:
具体而言,包括两个方面:
1、robots.txt
robots.txt是搜索引擎访问一个网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。
robots.txt必须放在网站根目录下,且文件名要小写。

2、<META> tag
网页内容中添加的名为robots的meta标 签,index、follow、nofollow等指令。

robots的案例:
http://www.douban.com/robots.txt

User-agent: * 开始配置 所有引擎 有效
Disallow: /subject_search 禁止所有引擎抓取网站subject_search目录(包含子目录) 有效
Disallow: /amazon_search 禁止所有引擎抓取网站amazon_search目录(包含子目录) 有效
Disallow: /search 禁止所有引擎抓取网站search目录(包含子目录) 有效
Disallow: /group/search 禁止所有引擎抓取网站group目录下的search目录(包含子目录) 有效
Disallow: /forum/ 禁止所有引擎抓取网站forum目录 有效
Disallow: /new_subject 禁止所有引擎抓取网站new_subject目录(包含子目录) 有效
Disallow: /service/iframe 禁止所有引擎抓取网站service目录下的iframe目录(包含子目录) 有效
Disallow: /j/ 禁止所有引擎抓取网站j目录 有效
Disallow: /link2/ 禁止所有引擎抓取网站link2目录 有效
Disallow: /recommend/ 禁止所有引擎抓取网站recommend目录 有效
Disallow: /trailer/ 禁止所有引擎抓取网站trailer目录 有效
Sitemap: http://www.douban.com/sitemap_index.xml Sitemap地址:http://www.douban.com/sitemap_index.xml 有效
Sitemap: http://www.douban.com/sitemap_updated_index.xml Sitemap地址:http://www.douban.com/sitemap_updated_index.xml 有效
User-agent: Slurp 开始配置 [Slurp] 有效
User-agent: Sosospider 开始配置 搜搜 有效
Crawl-delay: 5 搜搜每次抓取时延迟5秒 有效
Visit-time: 0100-1300 允许搜搜在每天的01:00-13:00抓取 有效
Request-rate: 40/1m 0100 – 0759 允许搜搜在每天的01:00-07:59以每1分钟40次的频率抓取 有效
Request-rate: 12/1m 0800 – 1300 允许搜搜在每天的08:00-13:00以每1分钟12次的频率抓取

robots检查工具推荐:
http://seo.seowhy.com/robot/

Google PageSpeed Insights 网页加速指标

#图片优化
提供压缩后的图片
指定图片大小

#javascript优化方面
延迟加载JavaScript
暂缓 JavaScript 解析
压缩 JavaScript
内嵌小型 JavaScript

#CSS优化方面
内嵌小型 CSS
将 CSS 放在文档标头处
将图片组合为 CSS 贴图定位
压缩 CSS
移除未使用的CSS
使用高效的CSS选择符
避免在 CSS 中使用 @import

#其他前端性能优化
使用浏览器缓存
请指定缓存验证工具
将查询字符串从静态资源中删除
请指定一个“Vary: Accept-Encoding”标头
优化样式表和脚本的排列顺序
使目标网页重定向可缓存
压缩 HTML
启用 Keep-Alive
启用压缩
尽量减少请求的数据量
尽量减少重定向
指定字符集
由同一网址提供资源
避免出现错误的请求
首选异步资源
避免在meta标签设置字符集

close