本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经验分享,旨在帮助读者更好地理解和应用这些领域的最新进展
此趋势和调查文章的目的是双重的。我们首先从学术和行业角度确定并阐明我们认为MRS研究面临的最紧迫挑战。我们回顾了解决这些挑战的最新技术并讨论了其局限性。其次,我们详细介绍了我们为该领域的进一步发展而设想的未来方向和愿景。因此,本文应有两个目的:为感兴趣的读者提供有关MRS研究中当前挑战的概述,并通过确定该领域有趣但未充分研究的方向为年轻研究人员提供指导。
音乐推荐系统(MRS)的研究最近在学术界和行业中都获得了很大的兴趣。借助Spotify,Pandora或Apple Music之类的音乐流媒体服务,如今,音乐爱好者可以访问数千万首音乐作品。通过过滤大量的音乐项目,从而限制了选择的负担,MRS通常非常成功地建议适合其用户喜好的歌曲。但是,这样的系统还远远不够完善,经常会产生不令人满意的建议。部分原因在于用户的品味和音乐需求高度依赖于多种因素,而在当前的MRS方法中,这些因素并未得到足够深入的考虑,这些方法通常以用户与项目交互的核心概念为中心,或者有时是基于内容的项目描述符。相反,我们认为要满足用户的音乐娱乐需求,就需要考虑听众的内在、外在和语境方面,以及更体面的互动信息。 例如,已知听众的性格和情感状态(内在的)以及他们的活动(内在的)会影响音乐的品味和需求。用户的情境因素也是如此,包括天气条件,社交环境或名胜古迹。音乐播放列表或收听会话的组成和注释还揭示了有关哪些歌曲搭配得很好或适合于特定场合的信息。因此,MRS的研究人员和设计人员应该以一种整体的方式重新考虑他们的用户,以便构建针对每个用户的特殊性的系统。
在此背景下,在本趋势和调查文章中,我们通过讨论各自的最新技术水平及其局限性,详细阐述了我们认为是MRS研究中当前最紧迫的挑战之一(第2节)。无法完全解决所有挑战,我们专注于冷启动,自动播放列表继续和MRS评估。虽然这些问题在某种程度上在其他推荐领域中也很普遍,但是音乐的某些特征在这些情况下提出了特殊的挑战。其中包括项目的持续时间短(与电影相比),音乐的高情感内涵以及用户接受重复推荐的情况。在第二部分中,我们介绍了我们对MRS研究的未来方向的愿景(第3节)。更准确地说,我们详细介绍了受心理启发的音乐推荐(考虑人的个性和情感),情境感知的音乐推荐和文化感知的音乐推荐的主题。我们以总结和确定感兴趣的研究人员面对讨论的挑战的可能起点的结论作为结尾(第4节)。
在下文中,我们确定并详细说明了一些重大挑战,我们认为音乐推荐系统的研究领域目前正面临这些挑战,即克服冷启动问题,自动播放列表继续和正确评估音乐推荐器系统。我们回顾了各个任务的最新状态及其当前的局限性。
在我们开始深入研究这些挑战之前,我们首先要强调使音乐推荐成为特定工作,并将其与推荐其他项目(例如电影,书籍或产品)区分开。
项目的持续时间:在传统电影推荐中,感兴趣的项目的典型持续时间为90分钟或更长。在书中推荐,消耗时间通常甚至更长。相反,音乐项目的持续时间通常在3到5分钟之间(古典音乐除外)。因此,音乐项目可能被认为更易于使用。
项目集合的大小:常见的音乐集合有几千万,而电影的集合要小多(几万)。因此,可扩展性在音乐推荐中比在电影推荐中更重要。
顺序消费:与电影不同,音乐作品是按顺序消费的,一次最多消费一次,即在收听会话或播放列表中。这给MRS带来了许多挑战,与确定推荐列表中项目的正确排列有关。
先前推荐项目的推荐:与电影推荐者相比,MRS的用户可能会在以后的某个时间点再次推荐同一首乐曲,而电影或产品推荐者通常不希望重复推荐。
消费行为:音乐通常是在背景中被动消费的。虽然这本身不是问题,但它可能会影响推荐系统对听众偏好预测。特别是,当使用隐式反馈来推断听众的偏好时,听众没有注意音乐(例如,没有主动点击跳过歌曲),可能被错误地解释为正反馈。
聆听意图和目的:音乐为人们服务于各种目的,因此塑造了他们聆听音乐的意图。构建MRS时应考虑到这一点。在广泛的文献和实证研究中,Schafer等人,从129种不同的音乐用途和功能中,提炼出了三种音乐聆听的基本意图:自我意识,社交关系以及情绪调节。自我意识被认为是与听音乐的非常私人的关系。自我意识维度“帮助人们思考自己是谁,他们想成为谁,以及如何走自己的路” 。社交关系描述了使用音乐来与朋友亲近并向他人表达身份和价值观。情绪调节与情绪管理,当涉及到人类的幸福时,这是一个至关重要的问题。实际上,一些研究发现,情绪和情绪调节是人们听音乐的最重要目的,因此,我们在下面分别讨论情绪在听音乐时扮演的特殊角色。
情绪:众所周知,音乐会唤起强烈的情绪。但是,这是一种相互关系,因为用户的情绪也会影响音乐的喜好。由于音乐与情绪之间的这种紧密联系,以情绪词自动描述音乐的问题是一个活跃的研究领域,通常被称为音乐情绪识别(MER)。尽管可以使用MER来通过情绪术语来标记音乐,但是如何将这些信息集成到MRS中仍然是一项非常复杂的任务:
聆听情景:情景对音乐的喜好、消费和互动行为有很大影响。例如,与准备与朋友在周五晚上外出热身时相比,听众在准备浪漫晚餐时可能会创建不同的播放列表。最常被考虑的情景类型包括位置(例如,在工作场所的通勤,上下班或在家中放松)和时间(通常分为例如,上午,下午和晚上)。此外,情景还可能与听众的活动、天气或使用不同的听觉设备有关。例如,智能手机上的耳塞与家庭中的高保真立体声。由于听音乐也是一种高度社交活动,因此调查听众的社会背景对于理解他们的听觉偏好和行为至关重要。通过讨论情境感知型MRS作为趋势研究方向,可以认识到在MRS研究中考虑此类情境因素的重要性,请参见第3.2节。
冷启动的另一个子问题是稀疏性问题,即实际产生“用户-音乐”评分的数量远低于全部的“用户-音乐”之间评分的数量,当用户和物品的数量很大时,这种情况尤为突出。**高稀疏度导致评分覆盖率低,因为大多数用户倾向于对一小部分商品进行评分,推荐结果常常变得不可靠。**在大多数实际推荐系统中,稀疏度的典型值非常接近100%。在音乐领域,这是一个特别重大的问题。例如,分析了Yahoo!音乐数据集,截至撰写本文时,它代表最大的音乐推荐数据集。他们报告的稀疏度为99.96%。为了进行比较,Netflix的电影数据集的稀疏度为 98.82%。
研究已经提出了许多方法来解决音乐推荐领域中的冷启动问题,其中最重要的是基于内容的方法、混合、跨域推荐和主动学习。
对于新项目问题,一种标准方法是提取许多能够定义音频信号声学的特性,并使用基于内容的用户兴趣学习(用户画像特征学习)以实现推荐。特征提取通常是自动完成的,但也可以由音乐专家手动完成,例如Pandora的“音乐基因组计划”。 Pandora每首歌曲最多使用450个特定的描述符