《北方人的巴赫》里有一个爱乐者的故事。罗伯特,一个常居阿拉斯加的男人。为了巴赫,不做白领而去做了管道工。就为了冬天来临的时候,开着装了防滑链的车,翻山越岭到处看看,车上的音响正惊天动地地响着巴赫。

音乐是非常特殊的艺术形式,仿佛是描述多变的心绪,比文学更抽象,比绘画更多变。

请大家稍作回忆——你第一次认真地喜欢一曲音乐是什么时候?可曾有那么一个瞬间,你无比渴望耳畔涌来一个,让你寒毛倒立,让你心头一紧的旋律?

我们热忱地期待技术真的可以像音乐世界里的“上帝之手”那样,润物细无声得就把你需要的清风送达耳畔。那么“上帝之手”是如何实现的呢?揭秘QQ音乐推荐系统如何读懂你的心。

智能推荐系统_智能推荐系统的特点_智能推荐系统的特点包括多选题

致尊敬的耳朵

——对话音乐智能推荐系统

从0认识你

1969年,阿拉斯加大雪,积雪成冰,山丘野地人家,全都沉寂在剔透的冰封世界里。

罗伯特不得不放弃了外出计划,围炉在家。寒冷的冬夜没有乐曲,耳边却回响声着火车上听到的巴赫片段。乐曲似乎比炉火更能取暖,无奈想得越用力,印象却越不清晰。

摇头作罢,罗伯特缩成一团迷蒙睡去。

他做了个梦,梦中一切都太不真实,唯一触手可及的一台发荧光的小型机器,和上面赫然显示的2016。

手刚触及一个黄绿图标,机器却响了。是乐曲!但却不是他心念的《哥德堡变奏曲》。

欢迎来到QQ音乐推荐系统的世界。我们更常称其为RS(QQ Music Recommendation System)。

对于每一个初入音乐软件的“罗伯特”,RS对你都是一无所知的(特别是,如果你既没有主动搜索歌曲,也没有主动选择喜欢的风格)。

如何从一无所知,到准确推荐?这在RS里,被称为“冷启动”。

最快的方法大概是:先扔给你一首歌,看看你的反应(是兴奋得点红心,还是怒切歌?)。但是“扔”的动作也很讲求技巧——怎么个“扔”法才能命中率最高?

每首歌都有流派、语言、歌手等不同属性。RS有数据显示,听者对各个属性的敏感程度是不同的,敏感度排序是语言>歌手>流派。简而言之,我们最不能忍的是听到不喜欢的语言(比如外文歌),其次是歌手,再次才是风格流派等。

① 语言是第一推荐要素。QQ音乐用户中90%都以听中英文歌为主,所以最初,RS会以中英文混合推荐;听者对不同语言会有不同偏好,产生“收藏”、“切歌”等行为,这就是RS学习的第一步;

②歌手是第二推荐要素。锁定了语言偏好后,RS开始试探性地推荐歌手;同样根据听者的反馈,快速锁定一个小范围的歌手候选区间;

③经过前两步,推荐范围已经较为聚焦;听者也累积了相当的个性化数据,破冰完成,“冷启动”进而顺利转向常规的推荐方法。

小动作,大解读

罗伯特皱了皱眉,机器里发出的靡靡之音让他有点烦躁。他尝试触碰那些图标,音乐戛然而止。一阵手忙脚乱,又点按了好多其他图标。

直到他意识到,音乐可以受他的控制停下又继续,或因他的不满意而换一曲。

起初的音乐总是不尽人意,后来恼人的曲好像越来越少了?这是为什么?

罗伯特的每次触碰都被RS小心地记下了。RS可以从“切歌”、“收藏”等行为中迅速读懂听者的偏好,从而“投其所好”,这一点在收听“个性电台”时体现得最为明显。

这并不难理解:当你收藏《晴天》时,很可能说明你喜欢周杰伦,对此,RS后续推荐曲中出现周杰伦的几率就会增高;当你点删除(不再播放),会导致类似歌曲的出现几率降低。

“收藏”、“删除”、“下载”行为反应的好恶都很鲜明(在RS中,称为重度实时行为),对于此,“简单粗暴”的推荐规则往往就很有效。

相比之下,另一类操作包含的态度就很“暧昧”——切歌。切歌行为受到环境、心情等诸多额外因素的影响;而且切歌时机也很有深意(默默脑补3秒切和3分切)。

比如,在过往收听中,你被RS打上了喜欢周杰伦的标签,但今天你却切掉了《晴天》,原因可能是多样的(比如…今天是阴天?);仅凭这次切歌而放弃向你推荐周杰伦,效果可能南辕北辙。

这时就需要RS中一套更加智能的预测机制(原理类似统计中的判别分析, Logistic回归),将歌手、流派、切歌时机等多种影响因素综合,去评估听者对这首歌的真正态度。评估结果表示为一个介于0到1之间的数(1代表喜欢,0代表不喜欢),越接近1则喜欢的概率越大。

勾勒你的模样

越发熟练地点击。罗伯特循着图标,翻阅到软件中的音乐分类:Pop, Light, Folk…Sad, Silent, Sweet…他发现,在这个不知藏了多少乐曲的机器中,每一首歌都被打上了坐标。

这时他也恍然意识到,为什么听到的曲越来越让自己满意:似乎在机器眼中,他也成了一个需要定位的坐标。

一双挑剔的耳、一次次点击,代表着一种独立、行走的音乐形态。在音乐王国里,轮廓清晰。

描绘出你的听歌偏好,为你推荐对应的歌,是RS最基本的推荐方法(被称为“基于内容推荐”)。思路大致是:1.你喜欢乡村音乐——2.《Country Road》是乡村乐——3.向你推荐《Country Road》。

但是等等,真实的世界往往是这样的:你除了喜欢古典乐,还喜欢英文歌,还喜欢陈奕迅;《Country Road》除了是一首乡村乐,还是英文歌;还是一首抒情歌……这样下来,简单的逻辑也承载着复杂庞大的信息。

这时就有赖于RS中两张设计精细的信息表——用户画像和音乐画像。

用户画像是将听者的听歌行为数据抽象出来,转化为简洁形象的标签。随着你软件使用的深入,RS会在各个标签下不断更新你的信息。目前QQ音乐的用户标签分为6维:

1.内容偏好:包括歌手、语言、年代、流派偏好等;

2.社交属性:依托于腾讯成熟的社交生态链,可以挖掘出年龄,性别,职业,地区等数据;

3.场景偏好:在QQ音乐不同场景下的听歌分析,如排行榜,歌单,本地歌曲等;

4.人群属性:有多种群体划分方式,比如按活跃度划分,按流派偏好划分等;

5.听歌时间段:在一天中的听歌时间分配;

6.黑名单:描述对某类歌手或歌曲的反感。

相应地,音乐画像是在为歌曲打上各式各样的标签。分为六类:

1.歌手纬度:歌曲主要歌手的相关数据;

2.音频特征:如mfcc,pitch等音频信号的特征数据;