肖磊从广告投放3P关系(广告主、用户、广告平台)切入,讲解腾讯在大数据挖掘的一些尝试和实践。首先,作为一个marketing人员,我更关注的是了解腾讯广点通内部面临的挑战,以帮助自身提升在广点通平台投放的投放效能。

#广点通目前会面临以下困境:
一、广告位方面
1、广告上下文较少,没有明显的意图带入,没有固定的页面内容;
2、广告位众多,涉及网页、客户端、手机等

二、广告特征方面
和搜索广告不同,广点通不会有搜索引擎的refer带入
区别与内容广告,广点通缺乏比较明确的页面内容
用户到Qzone,更多只是逛一下,做一些好友互动等活动

三、用户方面
1、点击数据非常稀疏。大部分用户,一个月内都没有点击;平均1000次曝光,点击 1~8。
2、曝光数据偏态。以某个广告位为例,40%的用户,一天内曝光=1,80%的用户,一天内,曝光<3

四、投放方面
1、素材内容对点击影响很大,创意的引导决定点击率
广点通广告点击率
2、新广告的冷启动。每天新增几十万新广告,缺少用户反馈信息,类目不均衡。如何让新广告有能好的展现,面临一定困难;

五、系统方面
1、用户体验,<50ms
2、数据的偏差。用户误点击,恶意点击等
3、海量数据建模、预测

腾讯的在精准推荐方面的解决方案:
一、实时 查询
1、场景,广告位少,广告少
2、线下全量预测,线上查询
3、HADOOP ,RDT:可解释,少迭代,训练&预测都很快
4、预测结果存储量巨大,成本巨大
8亿用户*TOP100个订单*广告位
1.6T * #广告位

二、融入用户行为的混合模型
用户行为
越放下,环境越复杂,对于广告推荐算法的调整越大

三、定制化用户画像
用户画像

#广点通团队花大量的资源投入研究用户行为、用户画像,所以在投放过程中细分人群属性是绝对有意义的。

新广告投放方面的解决方案:
四、图片feature
1、爬取广告素材的图片
2、计算图片的色彩特征:亮度、饱和度、色彩度、对比度、尖锐度等;
亮度标准差
#图片亮度标准差在8左右点击率最高,这里为创意的设计给出了一个指导;
亮度标准差点击分布
3、图像相似度
计算方法:对每个图片的gist特征512维的 float & dense 向量直接计算其simhash值
相似图片检查

图片相似度这个问题,让我联想到一些广点通代理商引导客户复制创意的广告计划,来帮助提升业绩。所以,从长期来看,一套素材打天下,不是理智的行为。
————
基于腾讯亿级用户画像,百亿级访问流量,在社交网络的环境中的一些数据挖掘的尝试和实践。
演讲人:肖磊 腾讯
视频链接:http://cloud.video.taobao.com/play/u/1607006061/e/1/t/1/p/1/10535216.swf