基于Logstash和Kibana搭建网站实时收集、分析、索引和搜索日志系统

日志分析和监控在系统开发、网站运营优化中占有非常重要的地位,同时对于数字营销也有非常重要的作用。就笔者个人而言,通常的需求场景如下:

  • 广告投放方面:
    • 排查广告点击到达情况,计算广告到达率(通常广告点击一次就会有一条日志产生,如果日志数量明显低于广告点击次数,则campaign或者该渠道需要调整)
    • 实时监控点击IP分布,观察是否有IP集中或者恶意点击情况
    • 大型投放活动的实施监控
    • 通过正则过滤,快速的监控不同URL的实时访问情况
  • 搜索引擎优化方面
    • 通过spider、响应代码、不同网站URL目录、时间等维度,通过快速细分发现抓取问题,改善搜索引擎抓取效能
    • 监控各厂商spider抓取的趋势数据,快速的进行对比和趋势分析
    • 新项目发布,实时监控搜索引擎蜘蛛抓取情况

总的来说,使用kibana和你可以搭建可视化的日志数据。

简单来讲他具体的工作流程就是 logstash agent 监控并过滤日志,将过滤后的日志内容发给redis(这里的redis只处理队列不做存储),logstash index将日志收集在一起交给全文搜索服务ElasticSearch 可以用ElasticSearch进行自定义搜索 通过Kibana 来结合 自定义搜索进行页面展示,下图是 Kibana官网上的流程图

131135111

kibana的功能特色如下:
快速高效的基于时间比较分析,发现数据变化
time-based1

为了更好地理解大数据,基于kibana你可以很容易地创建条形图、柱状图、散点图、饼图和地图。
sense1

强大的数据接口,电商网站基于kibana可以非常方便的监控销售接口情况,可以是企业大量的经营业务数据化、可监控。
empower1

强大的搜索语法,通过获取背景数据,可以方便的展开不同维度的细分分析,关注和获得你真正感兴趣、有意义的数据。
例如,你可以给前端监控所有100到500bytes的html和css文档
search1

如果你是一个IT技术,对实施kibana感兴趣,推荐以下延伸阅读:
kibana:http://www.kibana.org/
DEMO:http://demo.kibana.org/
http://storysky.blog.51cto.com/628458/1158707/
http://c20031776.blog.163.com/blog/static/684716252013111134033672/

使用GA监控在线咨询数据

目前,大多数企业在都在使用在线咨询工具,例如百度商桥、QQ、53客服、商务通等等,甚至有相当一部分企业网站是使用了多个咨询工具。为此,统计广告带来的在线咨询就成了一个重要的课题,今天就来介绍基于GA的事件监控方案
1、第一步,引入一段jquery,将其插入网站前

2、获取CSS样式名

此处:用户点击在线咨询按钮触发的CSS样式为id #wap2 或者class .im-qq
3、配置GA事件监控代码

4、查看事件数据
20150105131303
结合流量细分,则可以分析不同流量来源的转化效果;结合百度竞则可以监控百度SEM的效果,以指导SEM优化
20150105131711

以百度商桥为例,我们想监控百度商桥弹出框的按钮点击情况、留言按钮点击情况、客服咨询点击情况,则代码如下:

如此,通过Google analytic可以发现,百度竞价或者任意广告的创意、计划、媒介、位置,不同的转化情况。

20150114194059

长尾效应和帕雷托法则在SEO领域的体现

根据维基百科的解释:长尾(英语:The Long Tail),或译长尾效应,最初由《连线》的总编辑克里斯·安德森(Chris Anderson)于2004年发表于自家的杂志中,用来描述诸如亚马逊公司、Netflix和Real.com/Rhapsody之类的网站之商业和经济模式。是指那些原来不受到重视的销量小但种类多的产品或服务由于总量巨大,累积起来的总收益超过主流产品的现象。在互联网领域,长尾效应尤为显著。长尾这一术语也在统计学中被使用,通常应用在财产的分布和词汇的使用。

这一法则,恰好是来被商业界视为铁律的帕雷托法则的对立面
(帕雷托法则:内涵认为企业界80%的业绩来自20%的产品)
今天我们就来聊一聊SEO领域的一些表现,借此抛砖引玉

此图,为Google analytic中的网站keyword报表,不难发现两个现象:
1、40978个sessions会话,由3015个关键字构成;
2、TOP1的关键字“湖南卫视跨年演唱会2015”,占流量26.6%;其余3014个关键字占比73.4%
3、TOP10的关键字(0.3%)流量占比64.9%

启示:
1、如果拥有大量的资源垄断或特别消息渠道,应该根据用户搜索query,抢占和覆盖TOP10的keyword
2、3015个query反应用户需求的丰富和多样性,如果没有足够的资源,可以有策略的偏重某类需求
3、用关键词字数来判断是否长尾是太业余了,应该关注关键词后面的搜索量和用户需求

百度关键词质量度优化影响因素完全解析

上一篇文章,讲到百度关键词质量度的发展及影响因素,本篇文章将详细解析关键词质量度优化影响的每一个因素,同时提供一个科学的优化方案。

首先:我们贴出一张百度官方近期披露的关键词质量度影响因素的图片:
10

1、关键词质量度首要影响因素——点击率 CTR
点击率指标的意义:可以反映网民对推广结果的评价,较高的点击率反映了网民对推广结果更感兴趣、更为认可
计算公式:点击率=点击量/展现量
优化:点击率的的高低本质上是用户搜索query(搜索词),匹配百度账户keyword(关键词)所触发的广告创意对于用户的吸引力!
备注:对于首次添加到账户中的关键词,系统将参考其他客户提交该关键词以来的点击率数据进行计算,通常为两星

2、创意的相关性
解析:创意相关性是指,用户搜索query(搜索词)与匹配百度账户keyword(关键词)所触发的广告创意的相关度

通过1、2两点可以发现,优化关键词质量度关键在于优化广告创意!

3、着陆页面的相关性 Landingpage
解析:百度搜索会有baidu-adspider程序抓取广告主提交的URL链接,一方面检查URL的连通性、打开速度等,另一方面会分析网页标题title、描述description、正文等内容。
优化:Landingpage的标题、description、keyword等meta信息与百度竞价keyword和用户搜索query相关

4、账户历史表现:
解析:一般来说,账户的历史表现越好,则其关键词的质量度越高。百度借此鼓励广告主稳定的进行推广
优化:稳定投放

5、账户内生效关键词的数量:
解析:生效关键词是指当前可投放的关键词,如果关键词还在审核中或审核被拒绝,则不计作生效关键词。
优化:拓展账户关键词数量

6、账户内失效关键词的数量:
解析:指当前不可投放的关键词,如关键词还在审核中或审核被拒绝
优化:定期检查失效关键词

7、单元内关键词的质量度:
解析:单元内关键词点击率会相互影响。一个推广组内,关键字质量度趋于一致;
优化:定期删除低质量度关键词;在质量度单元新增关键词;

8、账户生效时间
解析:百度竞价账户生效时间越长质量度好
优化:稳定投放

两个间接影响因素:
出价:通过影响排名,进一步影响关键词的点击率,点击率影响质量度
排名:排名影响关键词的点击率,点击率影响质量度

六个对于质量度没有影响的因素:
信誉星级:质量度与信誉星级无关
匹配方式:质量度为“精确匹配模式下统计出的质量度”,故与关键词的匹配方式无关。所以通常情况下一个成熟的账户,完全匹配(精确匹配)占比较高。
资质:质量度与资质无关
行业:质量度与客户所处行业无关
关键词提交时间(新提词/老词):质量度与是否新提词无关,新关键词的质量度是行业平均质量得分。
创意附加样式(如蹊径、优惠页等):创意附件样式(新样式)不直接影响关键词质量度。

关于质量度优化的基本建议:
经常有朋友问我,如何优化和提升质量度的得分,甚至怎么才能做到质量满分等等。在这里建议大家,不要盲目最求高分,因为2分以上的关键词都具有置左资格!

我的2014

0、见了很多有意思的人,比如小也香水CEO、湘大的师兄忠哥
1、自学网站分析,获得Google analytic认证
2、在这些地方呆过:长沙、成都、杭州、永州、湘潭、贵阳
3、看了几十本书,有纸质越来越少了,大部分都是通过kindle阅读。我觉得挺不错的有《流量的秘密》、《周鸿祎自述——互联网方法论》、《三体》、《奥美定数字营销观点》
4、在长沙买了房,明年4月份交房
5、有6次跳槽机会,最高薪资是目前的两倍
6、回家2次(春节、国庆)
7、看过不少电影,最有印象的是《星际穿越》、《心花路放》、《浮生一日》、《黑镜子》;年度最喜欢明星:黄渤、陈奕迅;继续追剧《行尸走肉》、《冰与火之歌》
8、着手翻译一本书,希望在2015年完成

close