个性化推荐系统范文

时间:2023-03-03 15:56:33

引言:寻求写作上的突破?我们特意为您精选了12篇个性化推荐系统范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。

个性化推荐系统

篇1

随着信息技术和互联网的迅速发展,人们逐渐从信息匮乏时代进入了信息过载时代。这个时代,对于信息生产者而言,如何让自己生产的信息脱颖而出,收到广大用户的关注是一件很困难的事情。对于用户而言,信息量的增大加重了找到感兴趣信息的负担,从而降低了信息的使用效率。推荐系统正是在这一环境中诞生的,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统

1 推荐系统概念、组成要素

目前被广泛接受的推荐系统的概念和定义是Resnick和Varian在1997年给出的:“它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”。个性化推荐系统主要由三个要素组成,分别是:候选对象、用户、推荐算法。推荐系统把用户模型中兴趣需求信息和推荐对象模型中的特征信息匹配,同时使用相应的推荐算法进行计算筛选,找到用户可能感兴趣的推荐对象,然后推荐给用户。

2 推荐技术

推荐算法是整个推荐系统中核心的部分,在很大程度上决定了推荐系统的质量。目前主要的推荐技术基本包括以下几种:基于关联规则的推荐技术,基于内容的推荐技术,协同过滤推荐技术和混合推荐技术。

2.1 基于关联规则的推荐技术

关联规则是数据中所蕴含的一类重要规律,对关联规则进行挖掘是数据挖掘中的一项根本任务,关联规则挖掘就是从数据项目中找出所有的并发关系,这种关系也称为关联。关联规则挖掘的经典应用就是购物篮数据分析,目的是找出顾客在商场(或普通店铺)所选购商品之间的关联。

关联规则可以这样表述。设I={i1,i2,…,in}为所有项的集合,事务T表示事务集合。数据库D为事务数据库。关联规则形如XY的蕴含式,其中X、Y均为项目集,并且X、Y没有交集。关联规则的强度可以用支持度和置信度表示。支持度为同时包含X、Y 项集的事务在数据库D中的百分比。置信度为包含X的事务同时也包含Y在数据库D中的百分比。目前已有大量文献提出关联规则挖掘算法,在众多算法中,最著名的是Apriori 算法。

Apriori算法是由Agrawal等人在1994年提出来的,是一种最有影响的挖掘布尔关联规则频繁项集的算法。该算法分两步进行:第一步,生成所有繁琐项目集,繁琐项目集是支持度高于最小支持度的项目集;第二步,从繁琐项目集中生成所有可信的关联规则,可信关联规则是置信度大于最小置信度的规则。

基于关联规则的推荐技术其优点是:简单直接,领域通用性强,规则的挖掘可以离线进行,可以保证推荐算法的实时性要求。其缺点是:存在着严重的"冷启动"问题,新加入的项目由于缺少相关的用户数据,难以被系统中的规则发现,从而得不到推荐,并且随着系统项目数量的不断增加,规则也会呈出相应的增长趋势,使得规则的管理成本相应升高,降低了系统的运行效率。

2.2 基于内容的推荐技术

基于内容的推荐算法重要的是建立项目特征属性库,系统通过用户已关注项目的特征属性值,来掌握目标用户兴趣点,依据用户兴趣点与待推荐项目属性值的匹配程度进行推荐。用户兴趣点的产生依赖于系统所采用的机器学习算法,如基于向量的表示、文本挖掘、判别树、神经网络等技术。基于内容的推荐结果直观易理解,不需要过多的领域知识,但是需要有足够数据构造分类器,一些例如稀疏问题、新用户问题和复杂属性等问题不易处理。

2.3 协同过滤推荐技术

基于协同过滤推荐技术是当前主流的,应用最为广泛的一种推荐技术。该推荐技术可以分为两种,一种是基于用户的协同过滤推荐技术;另一种是基于项目的协同过滤推荐技术,这两种协同过滤推荐技术的不同之处在于两者针对的对象不同。基于用户的协同过滤推荐技术是给用户推荐和他有共同兴趣的用户喜欢的物品;基于项目的协同过滤推荐技术是给用户推荐和他之前喜欢的物品相似的物品。

2.3.1 基于用户的协同过滤推荐技术

基于用户的协同过滤技术是推荐系统中最古老的算法。该算法在1992年被提出,并应用于邮件过滤系统,1994年被GroupLens应用于新闻过滤。该算法主要包括两个步骤:第一步,找到和目标用户兴趣相似的用户集合;第二步,找到这个集合中用户喜欢的,且目标用户还没有听说过的物品,将该物品推荐给目标用户。

2.3.2 基于项目的协同过滤推荐技术

基于项目的协同过滤技术是基于这样一个假设:用户更倾向于选择与用户喜欢的项目相近的项目。该推荐过程分为两个步骤,第一,计算物品之间的相似度;第二,根据物品的相似度和用户的历史行为为用户生成推荐列表。

2.4 混合推荐技术

目前,推荐技术已经发展出了很多种,但每种推荐技术都在不同程度上存在各自的缺点,每种推荐技术在针对特定的用户或者项目时才能发挥出自己的优势。因此人们提出了混合推荐来互补推荐技术各自的不足,已达到一个理想的推荐效果。在大部分的混合推荐技术研究当中,是将基于内容的推荐技术和基于协同过滤技术相结合。相对于使用单一途径算法的推荐技术,基于混合推荐技术往往表现出更高的推荐精度和更好的推荐质量。

3 推荐系统的应用

自推荐系统诞生近20年的时间里,推荐系统的应用领域迅速扩展。从电子商务、音乐视频网站,到作为互联网经济支柱的在线广告和新颖的在线应用推荐,到处都有推荐系统的身影。下面简单介绍个性化推荐系统的应用以及该领域较成功的网站。

3.1 电子商务

电子商务网站是个性化推荐系统的一大应用领域。著名的电子商务网站亚马逊是个性化推荐系统的积极应用者和推广者,被读写网称为“推荐系统之王”。亚马逊的推荐系统深入到了各类产品中,其中最主要的应用有个性化商品推荐列表和相关商品的推荐列表。

3.2 电影和视频网站

在电影和视频网站中,个性化推荐系统能够帮助用户在大量视频信息中找到令他们满意的视频。该领域较成功的一家公司就是Netflix。Netflix在2006年开始举办著名的Netflix Prize推荐系统比赛。该比赛对推荐系统的发展起到了重要的推动作用。

3.3 个性化音乐网络电台

个性化推荐的成功应用需要具备两个条件。第一是存在信息过载的问题,第二是用户大部分时候没有明确的需求。在这两个条件下,个性化网络电台无疑是最合适的个性化推荐产品。目前国际上著名的有Pandora和Last.fm,国内的代表则是豆瓣电台。

3.4 个性化阅读

阅读文章是很多互联网用户每天都会做的事情。目前互联网上的个性化阅读工具很多,国际知名的有Google Reader,国内有鲜果网等。同时,随着移动设备的流行,移动设备上针对个性化阅读的应用也很多,其中具有代表性的有Zite和Flipboard。

[参考文献]

[1]Resnick P.Varian HR Recommender systems[外文期刊].1997(03).

[2]许海玲.互联网推荐系统比较研究[J].软件学报,2009.20(2):350.362.

[3]王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7).

[4]刘兴涛,石冰,解英文.挖掘关联规则中Apriori算法的一种改进[J]. 山东大学学报,2008,43(11):67-71.

[5]胡斌.基于高阶潜在语义分析的音乐推荐系统的研究,硕士论文.北京工业大学计算机学院,2009.

[6]Schafer JB,Konstan J,Riedl J.Recommender systems in e-commerce[M].On Electronic Commerce,1999.P367-461.

篇2

互联网近十来的飞速发展,使之成为了人们获取信息的主要渠道之一。人们在互联网上获取信息不仅方便,而且得到的信息量比较全面,最重要的是互联网上的信息查询不受时间和空间的限制。同时,网络信息的海量性增加了用户信息查询的负担,导致了人们很难在浩淼的信息海洋中找到自己真正感兴趣的信息。用户对信息有不同的需求,而现在互联网对用户的表达相同的信息查询需求返回的是同样的信息内容,不会考虑用户的个性化。在科技飞速发展的环境下,我们不仅要满足用户信息查询的方便性的要求,还要在实现这个前提下尽量保证返回信息的质量,这样个性化的信息服务就应时而生。个性化的信息服务因能根据用户的不同信息查询需求返回用户真正感兴趣的信息而逐渐取代了传统的信息服务模式成为一种新的信息服务方式。

1.本体的概念及应用

从20世纪90年代初ontology(本体)引入计算机领域以来,不同研究者给ontology(本体)的定义虽然形式各不相同,但从真正涵义上来讲都是统一的,他们都认为本体都是对一个共享的概念模型的形式化描述。即本体的本质是概念模型。它对某个领域的具体的现象或知识进行抽象,形成该领域人们共同认可的概念或知识及其之间的关系,最后形成计算机可读的一种描述。简而言之,Ontology(本体)就是从不同层次形式化描述领域内的概念,概念含义及之间关系的理论,是领域内部各个概念之间进行交流的语义基础,这就把简单的术语明确到了某个领域。本体是以获取所属领域内的知识,提供对该领域的共同理解为目标的。

本体是用计算机可以理解的形式化语言来描述概念的,解决了人与计算机,计算机与计算机之间的沟通问题,所以被应用在信息交流的很多领域。本体能够明确概念的含义及概念之间的关系,所以在信息检索中引入本体理论后,用来描述查询需求的关键词之间的语义关系会更加明确,可以建立词语间的网状结构,这就提高了检索提问式的有效性和准确性。同时信息检索系统引入本体后能为用户提供多个检索口,用户不仅可以直接从自己比较熟悉的检索口进入系统查询信息,也可以比较完整地找到自己真正需要的信息。另一方面本体也为词语、术语的标准化、形式化提供了理论基础,在信息检索过程中,系统可以参照本体对异构信息进行标引,整合,解决了异构信息之间的交流问题,从而帮助用户在异构信息源中查询信息。领域本体的使用不仅使专业领域内问题的研究变地更加确定,也能够帮助多领域间的信息集成,交流和合作,即使是新用户也能简便而全面地了解本领域知识。

在知识管理中,利用本体规范知识概念及其之间的关系,能有效地将隐性知识转化为显性知识,知识的搜索和共享的几率大大提高,继而为知识共享和知识重用提供了可能。

2.个性化信息推荐系统

个性化信息推荐系统是使用多种数据分析技术,在特定类型的数据库中进行知识发现的一种应用技术,本质上是一种“信息找人”的服务模式。它根据用户的特点和兴趣主动、及时、准确地向用户提供所需信息,再根据用户对于推荐内容的反馈进一步改进推荐结果,继而达到为用户推荐真正所需信息和为用户提供更优质服务的目的。

为了缩短用户寻找到兴趣信息的时间,提高浏览的效率,个性化推荐系统向用户推荐与其兴趣模型相匹配的信息,或者是与目标用户具有相近兴趣模型的用户群浏览过的信息。个性化信息推荐系统根据推荐技术的不同可以分为三种:基于规则的系统,基于内容的系统和基于合作的系统。

2.1 基于规则的推荐系统

基于规则的推荐是根据事先生成的规则向用户推荐其感兴趣的信息的一种信息推荐方式。假如事先生成的一个规则为“如果用户对图书馆学感兴趣的话,则数字图书馆也是其感兴趣的内容”,当用户再次浏览有关图书馆学的网站信息时,系统则可以同时向用户推荐数字图书馆的相关信息。由此可以看出,一个规则本质上就是一个If-Then语句。基于规则推荐信息的基础是系统管理员根据用户访问记录所制定的推荐规则。基于规则的信息推荐系统的优点是方便,简单,直接,容易实现。其缺点是系统事先制定的推荐规则质量很难得到保证,而且随着规则的愈来愈多,系统的管理也变的越来越艰难。

2.2 基于内容的推荐系统

基于内容的推荐是指通过比较资源与用户模型的相似程度向用户推荐信息的一种信息推荐方式,最终系统把与用户兴趣模型相匹配的信息反馈给用户。这种推荐方式优点是实现简单,适合处理文本信息,推荐的结果查准率比较高。缺点是它要求内容与用户兴趣的精确匹配,所以查全率有待提高。基于内容的推荐系统的典型结构如图2.1所示:

图2.1 基于内容的推荐系统

2.3 基于合作的推荐系统

基于合作的推荐和基于内容的推荐不同,它不是通过比较资源和用户兴趣模型的相似性,而是通过比较用户兴趣之间的相似性,依据目标用户具有相同或相近兴趣的用户对资源的评价向用户推荐信息的。合作推荐是一个较常用到的一个信息推荐方式,其中具有相同或相近兴趣模型的用户可看做是一个个的用户类。系统在推荐给目标用户信息时通过参照同类用户的兴趣,不仅可以使目标用户发现新的感兴趣的信息,也能提供一些难以用具体概念表达的信息,如质量等,避免了内容分析的不完全和不准确。但是基于合作推荐的前提必须是某些信息必须被用户类中的某个或某些用户浏览过,否则不能把这些信息推荐给其他用户。如果某个人的兴趣比较特殊,不能归为任何一个用户类,则这个用户也可能无法获得个性化系统推荐的信息。基于合作的推荐的典型结构如图2.2所示:

图2.2 基于合作的推荐系统

3.引入本体后的个性化信息推荐系统

个性化信息推荐系统的目的是向具有不同兴趣的用户推荐个性化即满足其需求的信息。现有的推荐系统虽有优点但也不可避免的具有一些缺点,如基于内容的推荐中关键词之间是没有任何语义关系的,但是现实中还存在同义词等,系统是将信息和用户兴趣进行精确匹配的,所以一些表达方式不同但本质相同的信息就可能不被推荐,从而导致查全率不高等。因此为了提高系统推荐的质量,就要在信息推荐系统中引入本体的理论。本体作用是在领域中提取共同认可的词汇形成概念,进而对概念及其之间的关系进行形式化表达。它能充分考虑关键词之间的关系,这样系统在向用户进行信息推荐时就不再是单纯的关键词匹配,有助于提高推荐信息的质量。

3.1 引入本体后基于规则的推荐系统

基于规则的信息推荐系统的中的规则是系统管理员根据用户的访问记录制定的,可能每个访问记录就对应一个规则,所以规则就变得多而乱,难以管理,而且很难处理复杂抽象的用户请求。例在图书馆领域内的以下三个规则:

(1)如果用户对图书馆自动化感兴趣的话,则情报检索系统也是其感兴趣的内容。

(2)如果用户对图书馆自动化感兴趣的话,则检索系统也是其感兴趣的内容。

(3)如果用户对图书馆学感兴趣的话,则用户对检索系统也感兴趣。

在数字图书馆领域,概念“图书馆学”和概念“图书馆自动化”之间是父类和子类的关系,“情报检索系统”与“检索系统”具有相同的内涵,由此规则(1)和规则(2)其实实质相同,规则(3)中“图书馆学”是“图书馆自动化”的父类,用户在实际的选择中如果对父概念感兴趣则一定也对其对应的子概念感兴趣。而以上三个规则中认为“图书馆学”,“图书馆自动化”,“情报检索系统”和“检索系统”四个概念之间是没有任何联系的,所以就造成了规则的繁多。

在本体中我们已经定义了“图书馆学”是“图书馆自动化”的父类,“情报检索系统”与“检索系统”是同义词,所以以上三个规则就可以缩减为“如果用户对图书馆学感兴趣的话,则用户对情报检索系统也感兴趣”一条规则,如此就大大减少了规则的数量,节省了储存规则的空间,方便系统对规则进行管理。引入本体后基于规则的信息推荐模式如图3.2所示:

3.2 引入本体后基于内容的推荐系统

基于内容的推荐系统中关键词之间的匹配是精确匹配,而表达不同本质相同或者具有上下位关系的关键词之间就不能形成联系,从而影响查准率或查全率。如基于规则的信息推荐系统中的关于数字图书馆的例子,在引入本体后用户如果输入的查询关键词是“图书馆自动化”,系统则会考虑到“图书馆自动化”和“数字图书馆”的上下位关系,最终把关键词为“图书馆自动化”的信息资源也推荐给用户。本体也可以引入用户的查询语句中,如用户要查询“情报检索系统”的相关信息,系统考虑“检索系统”和“情报检索系统”的同义关系,把“检索系统”也当做用户的兴趣之一,修正用户兴趣模型。基于内容的信息推荐系统中,在用户兴趣模型和信息资源中引入本体后,表示资源的关键词和用户模型关键词之间就不再是简单的匹配,而是会考虑到关键词之间的语义关系的语义层面的匹配,推荐结果的质量大大提高。引入本体后基于内容的信息推荐系统过程如图3.4所示。

3.3 引入本体后基于合作的推荐系统

基于合作的推荐系统是根据用户兴趣模型之间的相似度来推荐信息的。用户模型是用关键词表示的,所以分析用户兴趣模型的相似度就变成了用来表示兴趣模型关键词的匹配,可能也就会出现和基于内容的推荐一样的问题。

如某个用户的兴趣关键词之一是“图书馆,另一个用户的兴趣关键词之一是“图书馆自动化”,因为不理解两个关键词之间的上下文关系,所以系统就会认为这两个关键词是不匹配的,继而认为两个用户的感兴趣的内容是不一样的。引入本体之后,表示各个用户兴趣的关键词之间就有了语义关系,如上下位,同义词关系等,这就增加了系统分析用户兴趣的准确度,扩大了相似用户类。系统在某个用户的表示兴趣模型的关键词中引入本体分析,形成新的兴趣模型关键词集,接着与系统中储存的经过处理的其他用户兴趣模型再进行匹配,就会大大增加匹配的可能性。具体过程如图3.6所示。

4.结语

文中在分析现有个性化信息推荐系统的基础上,发现了基于规则的信息推荐技术存在规则多而繁,不易管理;基于内容和合作的信息推荐技术存在关键词之间缺乏语义关系的弊端,于是在现有个性化信息推荐技术的基础上引入了本体理论。引入本体后的信息推荐系统在用户兴趣模型的表达上考虑到了关键词之间的关系,能更为准确地表达用户的兴趣所在,用来表示文档内容的关键词之间也具备了同义或上下位等语义关系,能更详细而精确地表达信息内容。在传统信息推荐系统的基础上引入了本体的理论克服了现有三种推荐技术的不足之处,使得文档信息和用户模型的匹配成为了语义层次的匹配,提高了推荐结果的质量。

参考文献

[1]刘凯.信息可视化概念的深入探讨[J].情报杂志,2004 (12):20-25.

[2]李健康,张春辉.本体研究及其应用进展[J].图书馆论坛,2004,24(6):80-86.

[3]仇利克.领域Ontology的构建方法论及其存储研究[D].[硕士学位论文].青岛:中国海洋大学,2006.

[4]李衍淼.基于本体的智能信息检索系统研究[D].[硕士学位论文].山东:山东科技大学,2006.

[5]史忠植.知识发现[M].北京:清华大学出版社,2002:135-155.

[6]潘红艳.个性化信息服务的研究与实现[D].[硕士学位论文].大连:大连理工大学,2005.

篇3

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)10-2446-04

Abstract: On the base of social computing personalized recommendation system design, design of the acquisition module is a data source, but also the basis for system data analysis, related to the quality of the system. Therefore, a collection module as a personalized recommendation system, play a decisive role, this paper makes a detailed study of the module, which provides a theoretical foundation for designing the back modules, and also provides some useful experience in development and design for the system.

Key words: acquisition; module; system

基于社会计算的个性化推荐系统的采集模块,关系到系统的质量,为系统的性能指标提供可靠的保证。采集模块实现了对网页文档信息的自动采集“爬虫”功能,能够基于用户的信息关键词来搜索。

采集模块由网页文档信息采集模块、lucene索引建立模块和搜索推荐主干模块构成,分别从模块的描述、功能、输入项、输出项、流程逻辑和接口详细介绍了其实现的原理。

1 网页文档信息采集模块

1)模块描述

本模块的重点之一是网络爬虫的编制。网络爬虫需要实现自动地抓取网页文档,提取网页地址,并且循环进行。尽管网络资源在同一个域之内,但为了提高爬取效率,还需要实现多线程才能保证更新的效率。另外,对于抓取到的文本存储路径相对于网页的网址,必须进行转换,才能更快速地在本地数据库中搜寻到该网页。而对于 IP地址则要做一个判断,以实现在规定范围的搜索。

2)模块功能

主要功能由start函数实现,其原型为:Start(UribaseURI ,intthreads) ,UribaseURI参数是表示需要下载的链接,后面的函数表示线程数量。路径的转换则需要通过转换字符实现。基本功能如表1网页文档信息采集功能表所示:

3)模块输入项

模块输入主要是对爬虫参数的设置,爬虫参数的设置要求如表2爬虫参数设置说明表所示:

4)模块输出项

本系统主要进行新浪博客的网页文档抓取,数据采集结果主要包括该博客网页文档以及该博客的地址,博客的题目、内容、作者以及采集的时间等。

5)模块逻辑流程

本模块的逻辑流程:首先分析源地址,然后获得地址列表,接下来反复循环每个地址,并调用相关方法来获取内容,通过计算,并得到文章相关信息,最后将获得的信息保存在数据库中。

6)模块接口

数据的采集是从新浪服务端将博客网页文档数据存储到本地数据库的过程,模块的接口如图1所示。

2 lucene索引建立模块

1)模块描述

索引建立模块独立于运行平台,实现了文档的解析和索引的创建,在本系统中解析的文档类型主要是html文档。

以 IndexWriter 建立索引 IndexWriter 的构造函数有三种接口,针对目录 Directory 文件 File文件路径 String 三种情况在索引结束时使用 Lucene 的 wirter. optimize( ) 方法优化索引。

2)模块功能

实现模块功能之前需要利用IKAnalyzer中文分词器对文档内容进行分词。分词器IKAnalyzer可以进行文档的筛选,获取目标文档,无用部分则剔除掉。其常用接口有org ,apache, Lucene, analysis,Analyzer 虚构类。

在该模块中主要利用格式转换类的方法,对格式文件采用与其相对应的解析方式来实现格式的转换,HTML文档利用 POI 解析。下一步则是将实现了转换的文件作为分词器的输入,对其进行处理,最后编写框架为所有文档实现索引的创建,通过为字节流创建索引来实现为所有文档建立索引的目标,如表3索引建立模块功能表所示。

3)模块输入项

a)采用IKAnalyzer分析器进行目标文档筛选;

b)利用POI对HTML文档进行解析;

a)后台管理页面数据输入手动操作,下达“索引创建”命令;

d)执行框架语句,通过为字节流创建索引来实现为所有文档建立索引。

4)模块输出项

此模块的操作是通过登入系统后台管理,在建立索引页面下达命令,进行索引的创建,自动生成,如图2 索引创建界面图所示。

5)模块逻辑流程

本模块的逻辑流程是:首先从本地数据库中获取数据,得到待筛选文档,通过判断该文档信息是否为目标文档。如果不是的话,就剔除,重新原有的操作,如果是目标文档,则将目标文档进行格式转换,从而来建立索引。

6)模块接口

从模块逻辑流程可以知道,本模块的接口也是由本地数据库,通过后台管理程序来自动完成索引的建议,其模块的接口如图3所示。

3 搜索推荐主干模块

1)模块描述

模块中包含服务器 Action 类, Action 类有对应的 Service 类和 Lucene 搜索类。连接应用服务器,下达命令之后可以从索引文件中搜寻出目标文档,其整体框架如图4搜索推荐主干模块整体框架图所示。

服务器接收命令,传递给对应的 Action 类, 然后Action 类调用对应的 Service 类,再利用 Lucene 搜索类从找到目标文档,最后在JSP 页面显示搜索结果。此过程中采用 Action 类解析方法,把字节流以JSP 页面高亮显示出来,检索目标文档则是利用 Lucene 的检索接口 Query 与QueryParser 实现。采用QueryParser.parse 完成对搜索结果的排序,通过org.apache.Lucene.search.Sort 实现,。

2)模块功能

服务器可以利用搜索模块传递文档 URL,进而搜寻到文档的位置,并采用文件系统将文档解析到一个动态页面,即一个可以显示不同文档内容的页面。最后是将搜索结果,即找到的目标文档 URL 集合倒排展示,并且对输入的关键词,以及关键词出现次数等,以高亮显示出来,如表4搜索推荐主干功能表所示。

3)模块输入项

a)前台页面数据输入:名称:搜索关键词;标识:keyword;数据类型:varchar;数据来源:用户键盘输入。

b)模块类调用命令:

服务器识别用户提交的关键词,传递给对应的 Action 类,Action 类再调用对应的的 Service 类,然后交给 Lucene 的搜索类处理。

4)模块输出项

Jsp界面将搜索结果推荐出来,以高亮显示博客作者,搜索关键词以及关键词出现次数等,如图5搜索结果推荐页面图所示:

5) 模块流程逻辑

本模块的逻辑流程是:首先从接收搜索命令获得搜索的目标,传递给Action类,从而找出其对应的Service类,再通过Lucene搜索类来实现目标文档的推荐,最后以设置好的高量度形式显示出来。

6) 模块接口

本模块主要是把数据存储层的数据,通过业务逻辑层的业务处理,来实现表示层的表示,从而实现目标文档的搜索推荐功能,其接口如图6 搜索推荐主干模块接口图所示。

4 模块管理

为了更好的实现资源的统一管理,将其设计在后台统一界面进行管理,其管理页面结构如图7统一管理结构图所示。

参考文献:

篇4

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)27-6067-02

现如今,我们可以看到很多解决信息过载问题的方法。例如,分类目录和搜索引擎。但是这两种方法都不能满足现在用户的个性化需要。因为现在的用户更多的是希望系统能够帮助他们准确、快速地推荐出他们想要的和他们潜在的喜好信息。而搜索引擎只能向那些能够表达出准确的关键词的用户推荐产品,因此不能解决用户的很多其他需求,如果当用户不能够找到准确描述自己需求的关键词时,搜索引擎就无能为力了。而个性化推荐系统就不要求用户给出很清楚的目标,它只要了解用户过去的选择过的信息来对用户的爱好进行建模,进而主动地把那些能够满足用户兴趣需求的信息推荐给用户。个性化推荐算法的出现,让那些对自己需要不明确的用户能够找到他们的兴趣点,主动地去浏览网页。网购已经成为我们生活的一部分了,如果我们不想出门,可以到当当或淘宝网上搜索想要的产品,然后你会搜出很多相关的信息,产品数目非常巨大。同时使用网络的用户数目也很巨大。好的推荐系统能够挖掘出用户可能喜欢,而自己还没有觉察到自己喜欢的产品。尽管现有的推荐系统已经取得了巨大的成功,但是还需要在不同领域中进一步完善和发展。该文简单介绍一些实用的推荐系统和推荐算法。根据推荐算法的不同,推荐系统可以分为如下几类:协同过滤系统;基于内容的推荐系统;基于用户—产品二部图网络结构的推荐系统;混合推荐系统。

1 协同过滤系统

协同过滤系统是最古老的并得到广泛应用的一种推荐系统。这个算法的诞生标志了第一代推荐系统的诞生。其核心思想是,根据该用户之前购买过的产品,来推荐一些该用户可能喜欢的产品(那些和用户之前喜欢的产品相似的产品);也就是根据该用户的需求可以先找到和他有相似兴趣爱好的其他用户,然后把其他用户感兴趣的,而该用户没有听说过的产品推荐给他。

协同过滤推荐系统的算法可以分为两类,基于记忆和基于模型。基于记忆是预测系统中所有被打过分的产品信息,注重于预测用户的相对偏好而不是评分绝对值;缺席投票就是基于记忆方法的一种扩展。基于模型是把打过分的数据收集起来进行研究来得出用户行为模型,然后,再对某个产品进行预测打分。

协同过滤系统现在得到了很好的应用。它具有以下的优点

1)能够帮助用户推荐那些用户本人没有发现的喜欢的产品,相对用户来说的新信息。

2) 能够过滤难以进行基于内容分析的信息。

虽然协同过滤推荐系统得到了很好的应用,但是也面临很多问题。由于是基于用户对产品的评分,所以不论是对新用户还是新产品的推荐,准确度都不是很高。由于用户的数量的不断增加,计算量也不断的加大,直接影响了系统的性能。

2 基于内容的推荐系统

基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续和发展,它是根据用户已有历史信息计算相似性作出推荐的。在基于内容的推荐系统中,产品是通过相关的特征的属性来定义,系统根据用户对产品的评价特征,研究用户的兴趣点,比较用户资料与待预测产品的相似程度。而推荐相似度最高的产品。

基于内容的推荐算法在对信息的获取和信息的过滤两个方面的研究已经很成熟.现在有很多基于内容的推荐系统都是先对产品显示出来的文本信息进行分析,找出相似度比较高的产品进行相应的推荐.

在基于内容的推荐系统中,我们常常把产品的内容用一些关键词来描述出来.基于内容的系统推荐,就是把不同的候选产品和用户过去喜欢的产品进行比较,然后将相似度最高的产品推荐给用户.

基于内容的推荐系统中,通过用户的感兴趣的信息建立用户资料,把用户的兴趣点进行归纳。然后再把归纳出的几个主题文件与文本内容的相似度进行对比,把相似度较高的选择出来展示给用户并更新用户的资料。自动获取或更新用户资料的方法既要考虑用户资料的易更新性也要考虑用户资料的准确性。我们要想准确地挖掘用户感兴趣的信息那就要消耗大量的计算资源,同时也会影响到更新速度。反之,如果更新速度快,其准确性就会受到影响。我们可以通过人机交互的方法来解决这个问题。通过简单的交互式问题来收集用户的信息,从而得出用户的兴趣爱好.然后在根据获得的信息给用户进行更好的高效的推荐.

总的来说,基于内容推荐系统的优点有以下几点:

1)可以解决冷启动问题。

2)可以解决稀疏性问题,用户是否对产品打分都不会影响推荐算法。

3)能够给用户推荐出很新颖的并非很流行的产品。

4)能够提高用户的黏附性。在给用户推荐产品时能够做出很好的解释,从而使得用户能够拥有很好的系统使用体验。

基于内容的推荐系统在技术上还存在一些困难。假设两个相同的产品,用不同的特征词来表示,这样的产品就会被系统认为是相似的产品.又或者用相同的特征词来表示不同的产品,那么这样的产品就很不容易被系统区分.我们可以发现基于内容的推荐系统没有考虑到推荐的多样性.

3 基于网络结构的推荐算法

基于网络结构的推荐算法是利用用户和产品的内容特征作为抽像的节点,再把抽像的节点作为算法的信息.所有算法要用的信息全部都隐含在产品和用户的关系中。

基于二部图资源分配的算法,假设一个由多个用户和多个产品形成的推荐系统.其中如果用户A浏览过产品B,那么A和B之间就会有一条连线(生成一个结点),否则,无连线(无结点).从而,此系统可以用用户和产品之间的所有结点建立一个二部分图.图中显示对于任何一个目标用户A,推荐算法的目的是先把用户A从未浏览过的产品过滤出来,再对这些产品按用户A的喜好程度进行排列,然后把排列在前面的产品推荐给用户A.如果用户A浏览过的全部产品,都具有向用户A推荐用户A没有浏览过的产品的能力.这种能力可以看成关于相关产品的一些可再分的信息资源——拥有信息资源的产品会把更多的信息资源给予他们信赖的产品.

提高精确度的算法有:通过去除重复属性获得高精度的算法(即二阶关联来提高算法的精确程度);通过引入耦合阈值提高算法精确性。

这里我们要重点考虑的是,当用户的兴趣爱好相同的时候,推荐冷门的产品要比推荐热门的产品意义更大。因为有些热门产品有时对有些用户你不推荐也会购买或者浏览这些产品,而对于那些冷门的产品,如果没有好的推荐,就很难被可能喜欢他的用户发现。所以挖掘这些暗信息对推荐系统的意义也很大。一个好的推荐系统就是帮助用户发现那些他们感兴趣但很难发现的商品,满足用户的个性化需求,这也是个性化推荐系统应该主要解决的问题。

基于网络结构的算法为个性化推荐系统的推荐算法研究指明了新的方向。但是,该算法在处理新用户,新产品等问题上还存在不足。因为在新用户或新产品第一次进入系统时(用户没有选择过任何产品,产品也没有被任何用户选择过),这个时候系统里的用户和产品没有任何信息,所以系统无法与其他用户或产品建立关联关系网络。关联网的建立时间会影响到长期兴趣点和短期兴趣点的区分及推荐的准确性。

4 混合推荐算法

协同过滤,基于内容和基于协同的推荐系统,它们都有各自的优点和缺点。现在有很多学者都在研究基于多种方法的混合推荐系统,并提出了混合推荐算法.经过实际数据的研究显示,混合推荐系统中的推荐算法有更好的准确率。因为它把两种不同的推荐系统结合起来,尽可能的实现他们两者的优点,不断地提高推荐系统的性能为目标的。现在,最常见的混合推荐系统是基于协同过滤和基于内容的,同时也发展出了其他类型的组合,下面简单进行介绍。

4.1 在协同过滤系统中加入基于内容的算法

一些混合推荐系统都是基于内容的协同过滤算法.即利用用户资料来实现传统的协同过滤计算.该算法用户的相似度与那些共同打分的产品信息无关,而是通过基于内容的用户资料计算得出。这种算法不仅可以解决协同过滤系统中的稀疏性问题,而且当产品和用户资料很相似时会被直接推荐,不再是只有当产品被用户资料相似的用户打了分才能被推荐..

该算法通过增加一个附加打分,可以向用户推荐附加分高的信息产品.这个附加打分是通过分析文本在协同过滤系统中用户的打分向量上增加的一个打分.此外,把基于文本分析与基于网络的推荐算法相结合,值得我们去研究.我们可以从标签和关键词之间建立的关系出发,再结合于基于网络的推荐算法来实现.

4.2 其他混合推荐系统

基于内容和协同过滤算法的统一概率方法,把用户喜欢的数据信息通过浅层语义分析,把信息分成相关的主题,然后预测出用户喜欢的主题.该方法能够有效的解决稀疏数据的问题.混合效用回归模型是根据用户已打过分的信息,用户和产品的相关资料建立用户模型,通过回归分析进行估计和预测出用户对某一个产品特性的要求程度,来给用户推荐满足用户要求的产品.有关混合推荐系统还有,利用基于知识的方法进行的推荐(通过用户的历史行为来挖掘用户下一个喜好的内容),基于神经网络的混合推荐系统.基于知识和协同过滤的混合推荐系统(能够向用户推荐有用的知识和相关的知识).基于知识的自动问答系统(通过系统与用户的交流从中提取用户喜欢的内容)。

4 结束语

随着信息技术和Internet的发展,人们已经进入了信息过载的时代。大量的数据信息同时涌现在用户的面前,使得用户无从下手,很难获得他们想要的那部分信息,从而使信息利用率不断降低.相应的在现在网络中也出现了很多搜索工具,尽管他们都可以帮助用户来过滤并获取他们想要的信息.然而这些工具只能满足主流需求,没有考虑到个性化的需求.所以,仍然不能很好地解决信息过载的问题。那些“暗信息”很难被用户挖掘,如果没有外界的帮助,普通用户根本无法找到它们。采用合适的推荐算法,可以帮助用户找到用户根本就不可能找到的信息。推荐系统的作用就是帮助用户和信息之间建立相应的联系。一方面帮助用户发现对自己有价值的感兴趣的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢.

文中根据4种不同的推荐系统简单地介绍了几种不同的推荐算法。虽然这些推荐系统都有一定的应用领域,并且取得了巨大的经济利益。但是这些系统不管从理论角度还是从应用角度来看都面临着许多问题,还需要进一步的深入研究。

参考文献:

篇5

【关键词】智能Web 个性化旅游电商

1 智能Web时代的到来

当我们去订餐的时候,饭店订餐系统引用了我们公开的健康调查数据,从而为我们搭配适宜的绿色饮食;当我们与陌生人在线聊天时,对话内容得到通讯软件后台的事实核查,保证交流内容的真实和安全(如facebook);当我们在线购书时,电商平台能够根据用户购物行为的相似度判断来给出最合理的推荐(如亚马逊)。这一系列的发生与正在发生的案例为我们诠释了一个时代的到来,智能Web时代。

所谓智能,是指能够不断通过大数据分析抽象出普遍规则,进而替代穷举的一种高效机器学习方式。拓展开讲,一款智能Web应用要首先具备大数据能力,或者叫内容聚合,这是机器学习的基础条件;然后需要具备参考结构,参考结构为原始大数据提供了科学的解释和展示形式,它为原始数据的分析和展现提供了重要的助力;最后还要具备合理的算法,算法为从数据转变为信息提供了可行的方法,并将信息抽象为引导用户交互的规则,这三大要素构成了智能Web应用的充要条件。

2 旅游电商推荐系统研究与设计

作为一类典型的智能Web应用,推荐系统因为谷歌的广告和亚马逊的商品推荐等形式为人们所熟知,它的出现为当下信息过载的大环境带来了良好的解决方案。通过对用户行为数据的积累和分析,将传统用户的搜索行为转化为推送行为,从而实现原始电商到智能电商的转变。

旅游电商对推荐系统的认识度和重视度目前还处于比较初级的状态,远不如消费品电商平台,这也反映出了旅游电商企业对大数据的分析处理意识与主流消费品电商的差距。我们认为,实现高效用的旅游电商推荐系统,需要在精准度和展现形式两方面进行深入研究,第一是要对旅游产品进行精确建模,只有精确建模才能在推荐计算中获得准确的结果。第二是推荐引擎的科学选择,常见的推荐系统引擎分为两类,协同过滤推荐和基于内容分析的推荐。协同过滤推荐是基于用户的行为数据积累做出推荐,例如基于相似用户的推荐和基于相似条目的推荐。基于内容分析的推荐则需要考量用户之间、条目之间和用户与条目内容之间的相似度。其中,相似度算法是不同推荐引擎的核心,我们通过如下常用代码片段来说明相似度的计算方法。

由代码1可知,事实上相似度计算的方法是多样化的,需要根据实际的问题进行相似度算法的选择,目前大量的实验表明,基于欧氏距离的相似度算法效果相对较好。

在大数据的精确分析基础上,再将推荐结果以服务而非广告的展示形式推送到旅游电商的各个营销环节,必将会极大的推动产品购买的转化率。

3 旅游电商推荐系统展望

在智能Web时代,随着人们对信息和服务的智能化要求,推荐系统必定会在旅游电商营销环节占据愈加重要的地位,同时,单一的旅游产品推荐将会无法满足用户的需求,旅游推荐系统的衍生形态将会慢慢发展起来,推荐系统的内容和展示方式也都将会呈现出多元化和个性化的趋势。作为旅游电商的从业者,必须清楚的认识到推荐系统、大数据分析、智能Web等要素对旅游电商发展的推动作用,并随势而动,才能在互联网+的时代获得市场和用户的青睐。

参考文献

[1]吴婷,熊前兴,贺曦春.基于用户特征和用户兴趣变化的协同过滤推荐[J].电脑知识与技术,2008,4(7).

[2]王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7).

[3]张娜.电子商务环境下的个性化信息推荐服务及应用研究[D].合肥工业大学,2007.

[4]许海玲.互联网推荐系统比较研究[J].软件学报,2009,20(2).

[5]王巧荣,赵海燕,曹健.个性化服务中的用户建模技术[J].小型微型计算机系统,2011,32(1).

作者简介

篇6

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)17-0069-03

据统计,目前我国大多数高校,在社团管理和推广方面仍然处理比较人工的工作方式。大多数社团一般是开学展示一次社团,之后就再没有社团介绍工作了。其次对于社团活动的推广,也仅仅是通过qq空间、个人发传单和去自习室宣传等工作效率较低的方式。此等方式耗时耗力,而且还造成学生学习时间的占用以及资源的浪费。为此我研究了此社团个性化推荐系统。在这里,学生进入之后可以选择自己喜好的社团进行浏览和收藏,每个社团包括自身的宣传信息和活动介绍。该系统通过收集每个学生的社团收藏的所有数据分析,每次推荐所有与之类型相关的社团,从而实现校园社团的个性化推荐。除此之外,系统会实时更新当前每个社团的活动情况,并且依照时间顺序和热搜顺序进行活动排序,方便学生浏览和参与当前比较热门的社团活动。该方式不仅改变了学院社团的推广方式,也极大地提高了社团活动宣传的效率。不仅如此,学生也可以在活动下面进行评论,可以提高学生之间的互动交流,促进友谊。

本系统采用JDBC框架、MySQL等技术,以用户端和服务器的框架来进行数据交互及。用户端则为学生登录界面,服务端则是社团和活动管理。服务器以java语言编写后台脚本,响应用户端的要求,以及数据返回。

1系统设计相关技术

1.1大数据

该系统初步借用大数据的概念,对用户的社团操作进行简单的数据分析。

对大数据的处理分析工作正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算服务为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。

正是基于大数据的数据分析和统计工作,从而实现用户爱好的分析和统计工作,进而为实现个性化推荐提供帮助。

1.2个性化推荐

基于内容的推荐算法(Content-based Recommendation)内容过滤主要采用自然语言处理、人工智能、概率统计和机器学习等技术进行过滤。通过相关特征的属性来定义项目或对象,系统基于用户评价社团的特征学习用户的兴趣,依据用户资料与社团属性的匹配程度进行推荐,努力向学生推荐与之类似的社团。

基于内容过滤的系统其优点是简单、有效。尤其对于推荐系统常见的冷启动(Cold Start)问题,Content-based方法能虮冉虾玫亟行解决。因为该算法不依赖于大量用户的点击日志,只需要使用待推荐对象(item)本身的属性、类目、关键词等特征,因此该方法在待推荐对象数量庞大、变化迅速、积累点击数稀少等应用场景下有较好的效果。但该方法的缺点是对推荐物的描述能力有限,过分细化,推荐结果往往局限与原对象相似的类别中,无法为客户发现新的感兴趣的资源,只能发现和客户已有兴趣相似的资源。这种方法通常被限制在容易分析内容的商品的推荐,而对于一些较难提取出内容的商品,如音乐CD、电影等就不能产生满意的推荐效果。

2系统设计

2.1设计思路

本系统通过各社团提交社团信息以及活动信息,然后网站管理人员给予收录,然后依次添加到网页的信息之中。然后有着本校的社团简介和人员信息。外人可以通过注册账号,然后查阅本校的社团信息。其次社团还会将各自要举办的活动发送管理员,然后管理员予以添加活动,之后用户可以在网页上找到相应的社团活动,通过联系方式,可以报名参加。这种方法可以有效扩大活动的宣传能力。其次每个活动的下面有活动评论栏,用户可以在这里评论。最后每个社团有着独特的标签系统,用户在喜欢的社团里点击收藏之后,可以在个人信息里看到系统的个性化推荐,推荐所有与用户喜欢的类型相似的社团,实现社团的个性化推荐。

2.2系统结构

本系统分为管理员页面和用户页面两部分组成。管理员页面主要负责社团信息的注册,其中包括写人社团信息的修改以及活动的创建及修改之类信息。管理员写入之后会将信息存入数据库,然后会在管理员页面进行显示。用户页面,用户须先注册用户登录,之后可以在查看主页的近期活动社团等信息,然后也可以选择喜欢的社团进行查看和收藏。然后点击活动列表,查看活动的信息介绍和举办时间来计划参加与否,还可以进行评论等操作。用户对社团收藏之后,可以在个人中心看到类似的社团推荐,方便用户得到类似的社团推荐。最后用户也可以对网站进行留言。并且可以看到别人的留言信息。如图1所示的系统结构图。

2.3数据库设计

本系统使用的是MySQL关系型数据库,结合系统需求可以抽取相关实体,其中包含有用户注册表,社团表,活动表,活动评论表,网页留言表。从图2数据库ER图可以看出各个表之间的关系,以及表与表之间的相互联系。

3系统主要模块和功能设计

本系统主要有5大功能模块:用户注册模块、社团和活动管理模块、用户评论模块、主页活动推荐模块、用户社团个性化推荐模块。其中用户社团个性化推荐模块是主要功能模块,给用户更多类似社团推荐,达到社团推广的目的。

3.1用户注册模块

此处是负责用户验证,方便活动评论和网页留言处查找用户评论。通过身份验证,绑定用户评论和搜索。其次通过用户个人爱好标签,来为用户推荐各种用户所喜欢的社团。实现用户社团个性化推荐模块。

3.2社团和活动管理模块

该模块主要通过管理员通过后台页面管理。通过收取学校社团提供的社团简介进行注册社团信息,之后各个社团提供活动信息,从而获取活动信息,管理员予以添加活动。其中管理员负责社团和活动的信息修改和注册。

3.3用户评论管理模块

此模块有两部分,一是活动评论,二则是网页用户留言。用户登录过后,可在相应的活动页面之下评论,也可以在网页留言页面进行评论,评论管理则依靠数据库进行数据的维护。

3.4主页活动推荐模块

此模块主要通过对活动表的搜索进行推荐。分为最近活动推荐,人气活动推荐。

前者依靠日期进行列举最近的活动,后者通过截止日期和评论数量进行列举。

3.5用户社团个性化推荐模块

此模块实现主要通过将社团划分为一个个的标签类型,然后用户对自己喜欢的社团进行收藏。然后用户的个人爱好里面就有了相应社团的爱好标签,然后系统会有依次推荐用户所收藏的爱好社团。其中个人爱好用户可以自己手动输入添加或者删除。

3.6系统总体设计

本系统以Web服务器为中转,实现社团和活动数据的互换。管理端实现社团和活动信息的维护。用户端实现对社团信息和活动信息的查看功能,以及对活动及网页评论。除此之外则是通过对社团进行标签划分从而对用户实现个性化推荐社团的功能。

4系统实现

4.1管理端实现

4.1.1管理端界面实现

管理端主页如图3,然后可以点击修改进入编辑页面,点击搜索直接进入社团界面。

4.1.2管理端功能实现

通过直接使用函数调用sql语句对数据库进行操作,从而实现社团和活动表的增删改查等操作。其次对于评论表,通过管理人员对数据进行维护,实现用户评论表的管理。

4.2用户端实现

4.2.1用户端界面实现

用户端界面依次有主页、用户个人中心、用户个人信息编辑、网页留言、社团信息、社团活动等6个页面。除此之外,还有着学校的一些官方微博和官网的跳转。用起来十分流畅,给人一种舒适之感。

4.2.2用户端功能实现

1)用户端主页

主页通过对数据库中活动表的时间和活动评论表的数量两者来决定主页活动推荐的顺序。至于主页社团顺序,主要通过字母序来排列。

2)用户个人中心

此处主要实现用户个人信息的管理和社团推荐。通过信息编辑,修改用户的爱好和其他的人信息。社团推荐则主要通过搜索所有符合标签的社团,然后将其一一列举出来,并提供跳转的标签。

3)网页留言

此处主要是按时间排序获取所有的用户留言。以及提供用户评论网页留言的功能。给用户留言的功能。

4)社团页面

此页面主要实现用户个人爱好收藏的目的。用户可在此处点击收藏,实现个人爱好的添加功能。从而给系统实现社团推荐的功能。其次则是列举该社团的简介以及所有活动。

5)活动页面

篇7

伴随现代远程教育及MOOC的快速发展,网络学习资源日趋丰富。一方面,海量学习资源使学习者有了更多的选择余地,可以根据个人的兴趣爱好、知识结构的积累,选择更适合自己的学习资源。另一方面,网络学习资源是异质的,有文本、音频、视频等多种形式,学习者在纷繁复杂的学习资源中,并不总是能够完全及时准确地发现自己想要的资源,这也使得很多网络学习系统无法得到充分有效的应用。

网络学习资源个性化推荐系统是一个基于REST架构的分布式资源库系统。主要包括管理员、用户、学习资源。管理员可以创建、修改、删除学习资源;用户可以浏览、下载、评价和获得推荐学习资源。用户在利用传统的类目、搜索学习资源的同时,系统还能够根据用户的个性化信息向用户提供个性化的推荐。

1系统结构

网络学习资源个性化推荐系统的基本功能如下:

(1)用户智能化管理:收集用户的兴趣偏好,根据学习资源的特征对用户进行推荐。

(2)分类浏览:将网络学习资源以传统的类目和Tag方式加以组织,从而有利于信息的进一步挖掘。

(3)个性化检索:依照用户的检索内容和学习资源的匹配度,加入用户的个性化的兴趣偏好,向用户反馈个性化的检索结果。

(4)个性化推荐:构建个性化推荐模型,基于协同过滤、知识库等不同的推荐模型向用户推荐学习资源。

根据以上分析,从应用角度设计和实现了推荐系统的体系结构,如图1所示。前端开发工具采用ASPnet Web API,它是Microsoft的REST架构平台,基于REST的架构能使应用程序独立于操作系统和程序语言,方便地与移动设备、数据分析平台等无缝衔接,同时也可以调用其他应用程序的功能。数据分析及推荐算法采用Python语言实现的sklearn机器学习模块和TensorFlow实现的深度学习模块。整个系统分为四大部分:前端用户接口、推荐系统核心功能、学习资源管理系统和用户数据处理系统。

2个性化推荐引擎

目前主流的推荐技术包括以下几种:基于内容的推荐、基于用户统计信息的推荐、基于协同过滤的推荐、基于关联规则的推荐以及基于知识库的推荐。基于用户、物品的协同过滤算法是推荐系统中应用最广泛、最成功的算法。协同过滤算法,通过分析用户与物品间的关系,计算物品、用户间的相似度,根据用户过往的评价行为利用分类、聚类的手段向用户提供推荐列表。

21用户偏好分析

用户偏好分析是个性化推荐准确性的关键,建立以用户历史行为为标准的用户模型是做好用户偏好分析的关键。结合用户历史行为和物品信息,可以得到用户每种行为下的用户偏好数据,建立偏好的维度和偏好程度。

将各种行为的偏好数据合并,从而得到用户在物品、类别、标签等各个维度上的偏好程度。在对不同维度的数据合并计算时,应当考虑用户对于不同行为类型的用户偏好程度,从而赋予不同的权重。

利用机器学习中的Random Forest算法,在使用人工标记后的训练数据,经过模型的训练、测试,从而将用户划分到不同的群体。在处理用户的偏好数据时,应当考虑时间因素的影响,根据不同的时间间隔,划分成长期、中期、短期和实时四个时间维度,从而解决用户因为时间的推移、兴趣爱好发生变化产生的影响。

22协同过滤

协同过滤的推荐方法,主要利用用户过去的行为或意见预测当前用户对物品的可能喜好,可以推]一些物品内容上差异较大但用户又感兴趣的物品,以近邻算法为主。基于近邻的方法,在数据预测中直接使用已有数据进行预测,将用户的所有数据加载到内存中进行运算。通常划分为基于用户的系统过滤和基于物品的协同过滤。基于用户的协同过滤是,获取和当前用户相似的用户列表,将这些用户喜欢的物品推荐给当前用户;基于物品的协同过滤,获取当前用户偏好的物品列表,将和这些物品相似的物品加入到推荐的候选列表中。

23深度神经网络

“深度学习”(Deep Learning)的概念源于人工神经网络的研究,于2006年由Hinton等人提出。含多隐层的多层感知机就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。比较常用的深度学习算法有,卷积神经网络、循环神经网络、递归神经网络及LSTM长短时记忆等算法。

Tensor Flow是谷歌于2015年11月9日正式开源的深度学习计算框架。Tensor Flow使用数据流式图来规划计算流程,可以将计算映射到不同的硬件和操作平台,大大简化了真实场景中应用机器学习的难度。

本系统利用Tensor Flow平台设计了两个深度神经网络:第一个深度神经网络用来生成候选学习资源列表;第二个深度神经网络用来对输入的候选学习资源列表打分排名,以便将排名靠前的学习资源推荐给用户。候选学习资源的列表并不完全依赖于第一个神经网络的结果,也可以使用其他来源产生的候选学习资源。

3结论

利用传统的类目式导航和简单的信息检索手段,用户很难在纷繁复杂的学习资源中准确地发现自己需要的学习资源,并且用户之间无法共享有价值的学习资源。采用本文设计的模型,在帮助用户快速获取大量的有价值的学习资源的同时,还能够根据其他用户已经获取的学习经验来提高用户的学习效率,这种个性化的推荐方式有助于提高用户学习效率和学习资源的使用效率。

参考文献:

[1]杨露基于协同过滤算法的鹤岗师专多媒体教学系统设计与实现[D].长春:吉林大学,2016

[2]裴艳基于学习分析的学习资源个性化推荐研究[D].西安:陕西师范大学,2015

[3]江周峰面向个性化学习资源共享的混合推荐系统的设计与实现[D].北京:北京邮电大学,2015

[4]应中运基于用户情境的论坛个性化推荐模型研究[D].重庆:西南大学,2014

篇8

中图分类号:TP301 文献标识码:A 文章编号:16727800(2012)011002202

作者简介:李霞(1978-),女,硕士,武汉纺织大学传媒学院讲师,研究方向为数字媒体。

0 引言

在Web2.0时代,泛在计算环境使人们的学习方式发生了改变,从传统的课堂学习到网上冲浪,再到利用便捷的媒体终端随时、随地地进行学习,以及泛在计算环境下的微学习方式。这种新媒体环境下的新的学习形态正逐渐得到人们的关注,成为信息时代学习方式的一个重要组成部分。

泛在计算环境下的微学习具有情景化、社会化的特点,为学习者构建了按需学习的生态性学习空间。要求学习资源具有丰富性、适应性、可进化性、富联通性、情境性、智能性等特点。微学习具有多时间、小片段、个性化和多媒介的特征。微学习资源由于其内容粒度小,具有动态重组的特征,适合学习者的个性化学习。

1 泛在计算环境下个性化学习存在的问题

国内研究者祝智庭教授和张浩等学者从词源学的角度分析“micro”具有微、小、轻、快等多层语义的基础上,将微型学习与移动学习和娱教技术以及一对一环境中的学习等相关概念相关联,提出在对微型学习的理解中,既要关注其学习内容组块信息含量的微型化和学习时间跨度的短暂性,也要认识到其蕴含的独特学习品性与格调特征;在微学习特征的研究上,李艺等提出它具有多时间、小片段、个性化和多媒介的特征。张浩等认为微学习具有“连续部分注意”的特征,并具有4种不同层次的聚焦方式:主聚焦、半聚焦、周边聚焦和随意聚焦。在微型学习的设计研究方面,祝智庭等认为应采取区别于以往维护学习管理系统(LMS)的思路,转向支持学习者“个人学习环境”(PLE,Personal Learning Environment)的创建。顾小清等则从关注实用性学习目标的角度提出微型移动学习者的学习目的由获取资讯、学习知识、提高技能、改变态度或观念等阶段构成,并总结了微学习的特点。

通过对当前研究分析可以看出:目前微学习研究主要还停留在概念与模式的讨论上,支持微学习的教学资源与系统还比较缺乏,如何对微学习的学习资源及相关个性化资源推荐系统进行设计开发,并在此基础上开发支持微学习是一项亟待解决的问题。

2 泛在计算环境下的学习者个性化模型

泛在计算环境下个性化资源推荐系统首先要解决推送服务要解决推荐对象的问题,用户是推荐的对象,用户分类规则是个性化推荐服务的基础和先决条件。合理细致的用户分类有助于提高推荐服务的个性化程度,从而提高信息服务的质量。

由于推荐系统没有存储或者存储很少新用户的信息,包括查看对象的历史记录和新用户对对象的评分,因此,基于模型的方法无法获得训练数据,而基于规则的方法难以进行推理。论文提出如图1所示的用户个性化模型,利用用户个体特征、用户学习行为、用户学习绩效等用户个性属性等来提供推荐系统的准确性。

学习行为包括信息检索、信息加工、信息交流、使用新型解决问题4个方面要素,其中信息检索又包括检索方式、定位信息、检索环境和检索过程4个维度;信息加工包括:信息取舍、信息整理分类、信息存储、反思所得4个维度;信息交流包括与人互动、与信息互动两个维度。

学习绩效包括学习绩效、学习策略、学习情感、学习成就4个方面要素。其中,学习策略包括元认知策略、认知策略、资源管理策略3个维度;学习成就包括技能的获得和知识的获得两个维度。

针对用户的个性化学习模型,然后再有针对性地设计泛在环境下的个性化学习推荐系统。

3 泛在环境下的个性化学习推荐系统设计

目前,远程教学中教师为学生提供的教学辅导及双向沟通主要仍是通过EMail、电话、传真等传统方式进行,这些方式的实时性、交互性都很难满足教学辅导的要求,从一定程度上影响了教学质量的提高。因此,将短消息应用到个性化学习系统中,设计一个功能完备的基于短消息的个性化资源服务推荐系统,以满足广大移动用户的教育信息查询-定制-推送等需求。

系统以分布式结构为基础,可运行于多种主流操作系统,包括UNIX(Solaris、HP Unix、Linux等)、Windows NT/Windows2000等操作系统之上,通过与移动通信网络的实时连接,可以在瞬间将短信发送到指定手机上,其应用服务平台框架如图2所示。

系统具有以下特点:

(1)支持标准的短信中心系统协议接口。根据各移动通讯商不同的短信中心(SMCC),通过TCP/IP端口的接入,支持不同的短信中心标准连接方式(如:CMPP/SMPP/ SGIP等)。通过CMPP/SMPP/SGIP协议提供的双向通讯接口实现短信信息的提交和下发,借助短信中心系统提供的短信承载功能,实现信息在信息处理服务端和移动台之间的传输,所有的服务系统均直接接入短信中心系统,减轻短信中心系统的处理负载,进而为用户提供性能稳定的各种信息服务。

(2)多层安全性保障。除了使用防火墙等软硬件保护外,还采用多层安全保障——既有GSM网络的标准加密和用户ID-密码的认证机制,还有用户服务器和SMSC之间的防火墙进行安全过滤,对数据包加密并过滤非法的连接和包的传送,易于信息的交换。

(3)较强的系统自适应能力。支持CMPP/SMPP/SGIP接口协议,确保和不同厂商的短信中心设备互联,适应于网上多样的短信设备,保证与其它系统的互连互通,适应不同服务、应用商的需要。

(4)在教学功能上,支持学习进度、作业情况查询,通知、公告等信息接收,学习计划、日程安排制定,个性化学习指导、教学资源推送等功能。

泛在环境下个性化学习推荐系统的工作流程如图3所示。系统为用户提供与其兴趣和生产水平相适应的基于短信平台的教育资源信息推荐服务需要在用户动态建模方法的基础上,采用内容过滤(Contentbased Filtering)和协作过滤(Collaborative Filtering)相结合的方法。

首先,根据用户模型将用户聚类到具有相同或相近的兴趣与知识水平的学习用户群体;然后,用户通过搜索系统接口提交多种形式的搜索请求。服务平台根据关联索引相应的索引数据库搜索相关知识资源并对搜索结果进行扩展,然后采用协作过滤方法根据与该用户同一社区的其它用户对资源的评价,剔除搜索结果中质量较低的资源,并补充社区用户推荐的资源,再采用内容过滤根据用户模型与知识资源的特征向量,过滤掉搜索结果中相关性不大的资源,由排序模块根据相关性大小进行排序,并通过知识资源搜索系统接口将资源URL与快照返回给用户;再对前期搜索到的资源目标进行过滤(Filtering)与重排序(Reranking);最后对资源的访问日志进行序列模式挖掘,根据资源被访问的频率及评价反馈,获取资源的热点特性,为优化资源搜索结果,提高优质资源的利用率提供支持。

参考文献:

[1]祝智庭,张浩,顾小清.微型学习——非正式学习的实用模式[J].中国电化教育,2008(2).

[2]陈维维,李艺.移动微型学习的内涵和结构[J].中国电化教育,2008(9).

[3]张浩,杨凌霞,陈盼.微内容环境中的学习者体验设计初探[J].远程教育杂志,2009(6).

篇9

中图分类号:G642 文献标识码:A DOI:10.16400/ki.kjdks.2015.10.018

The Modeling Research in Personalized Recommendation

System Based in Network Learning

ZHUANG Kejun, HE Baoxun

(China West Normal University, Nanchong, Sichuan 637009)

Abstract The learner model is the key part of web based personalized recommendation system. Based on the learner information model standard, this paper creates the learner model framework in the personalized recommendation system based in network learning, and discusses the way of collecting the characteristics of learner information and analysis technologies.

Key words learner model; modeling; personalized recommendation

网络学习个性化推荐系统的主要功能是能根据学习者的学习特征向学习者自动推送适合学习者的学习资源、学习活动和学习策略,是网络环境下实现个性化学习的支撑平台。学习者模型是对学习者特征的抽象和表示,是网络学习个性化推荐系统的核心和关键部分,其好坏直接关系到个性化推荐系统为学习者提供个性化服务的水平,因此,构建合理的学习者模型成为搭建网络学习个性化推荐系统平台的瓶颈问题。

学习者模型建模的关键主要是要解决以下三个问题:首先,需要确定学习者模型主要描述学习者的哪些特征信息以便为系统提供最可靠的推荐依据;其次需要考虑这些学习者特征信息如何获取和采集;第三,对采集到的信息如何处理才能准确表征出学习者的特征,以此为基础为学习者提供个性化的服务。本文将就学习者模型建模的这几个关键问题展开讨论。

1 学习者模型框架

学习者模型是系统建立的对学习者特征的描述,其主要功能是对学习者的基本信息、学习风格、学习活动过程中的学习行为、学习路径、学习的绩效表现等信息进行记录、存储、提取,以帮助系统更好地理解学习者在学习过程中的个性化需求,从而为学习者提供个性化的学习服务。CELTS-11学习者信息模型规范将学习者特征信息分为个人信息、学业信息、管理信息、关系信息、安全信息、偏好信息、绩效信息和作品集信息八类,但这八类信息对学习者特征信息的描述在粒度上较为粗糙,需要在此基础上做进一步的拓展。结合网络学习中学习者的个体差异,全面考虑学习过程中影响学习的学习者因素――包括智力因素和非智力因素,我们在CELTS-11的基础上对学习者特征信息进行扩展、归类合并,构建出网络学习个性化推荐系统学习者模型框架图(如图1所示)。网络学习个性化推荐系统学习者模型框架图由5种学习者特征信息组成,这5种学习者特征信息包含为学习者基本信息、偏好信息、学习目标、认知状态和知识水平。

图1 网络学习个性化推荐系统学习者模型框架图

2 学习者特征信息的采集

根据学习者特征信息在学习者模型中是否会随学习活动的开展而变化更新,我们将学习者特征信息分为静态信息和动态信息两类。静态信息主要指那些在学习活动过程中保持不变的信息,如学习者基本信息、偏好信息等,而动态信息则是那些会随学习活动的开展而变化更新的信息,如学习目标、认知状态、知识水平信息等。通过对学习者模型研究文献的梳理,我们发现,学习者特征信息的获取与采集方式主要包括两种方式,显性采集方式和隐性采集方式。显性采集方式是指系统在学习者知晓的情况下采集由学习者直接提供的信息的过程,隐性采集方式是指系统在学习者不知晓的情况下通过对学习过程中学习行为的监控而获取信息的过程。

2.1 学习者特征信息的显性采集法

学习者特征信息的显性采集法主要包括以下途径:搜集学习者第一次在系统注册时提供的注册信息以获取学习者的相关基本信息;通过调查问卷表获取学习者的学习风格、学习需求、学习目标、知识水平等的初始状态信息。通过显性采集法可以获取学习者模型中的绝大部分静态信息,如学习者的基本信息就是学习者注册时提供的,包括学号、姓名、性别、专业、毕业学校、民族、联系方式等;同时还能获取动态信息的初始数据,这些初始数据加上静态信息可以帮助系统建立起一个对学习者的初步认识,即对学习者模型的初始化。当学习者第一次进入系统学习时,系统可以依据初始学习者模型为学习者推送合适的学习资源、学习活动和学习路径,个性化地为学习者提供学习服务。

2.2 学习者特征信息的隐性采集法

隐性采集法主要通过实时跟踪并记录学习者的学习行为,分析学习者特征的方法。隐性采集法通常是在学习者不知晓的情况下进行的,因而不会像显性采集法那样会导致学习者在系统中的停留时间增加。隐性采集法采集到的信息是学习者在学习活动中的学习行为信息,会随学习活动的开展而变化更新,属于学习者模型中的动态信息,这些动态信息将是学习者模型更新的重要数据源。学习者模型将会对隐性采集法采集到的信息进行“学习”,从而修缮学习者模型,使学习者模型朝着越来越接近真实学习者特征的方向发展,使个性化推荐系统的个性化服务更趋于完善。

隐性采集法通常通过两种途径获取学习者特征的动态信息。第一种途径是系统跟踪和记录学习者在学习活动过程中的学习行为数据,如学习者对各种类型学习资源的访问次数可以反映出学习者对不同类型学习资源的偏好程度;学习者花费在某个知识点上的学习时间可以反映出学习者对该知识点的认知状态;学习者针对学习任务完成的作品集合数量以及练习测试的成绩数据可以反映出学习者的知识水平状态等。通过对这些学习过程中的学习行为数据进行跟踪、记录、挖掘,可以获取学习者特征中的动态信息,对静态信息进行补充和完善,使学习者模型对学习者特征的描述和刻画随学习活动的开展而更为准确全面。第二种途径是系统从与学习者相关联的网络学习伙伴、指导教师等的联系活动中搜集到的与学习者学习活动相关的数据,如学习伙伴对学习者在小组协作活动中的评价信息,指导教师在论坛、聊天室对学习者发言信息的评价等,这些信息都是判断学习者学习态度和学习能力的重要指标,这些信息对学习者模型中学习者特征的描述也是具有重要意义的。

3 学习者特征信息的分析步骤与技术

网络学习个性化推荐系统通过显性和隐性方式采集到的学习者特征信息往往是有噪音的,系统必须对这些数据进行分析、处理、归类和整合,才能获取能够表征学习者的特征值,作为系统个性化推荐的依据。

一般来讲,学习者在注册时向系统提供的显性信息,如学习者的姓名、年龄、专业、民族、出生日期、联系方式等信息可以直接被系统识别并作为学习者特征值存入学习者模型库。学习者在参与学习前或在学习过程中参与问卷调查的数据,如回答学习风格测量量表得到的数据列表等需要通过相应的规则进行计算,从而归纳总结出学习者的学习风格特征。除此之外,系统在学习者学习过程中通过监控学习者学习行为采集到的大部分动态信息如学习者的学习目标、学习路径、学习行为、学习状态、作品集合、学习交流协作等数据都无法直接作为学习者特征值存储在学习者模型中,需要对其做进一步的筛选、挖掘、整合、归类、重新描述之后,才能够作为学习者特征值存储于学习者模型中供系统实施个性化推荐使用,我们采用数据挖掘技术来对系统采集记录下的学习者学习活动的行为数据进行分析,挖掘出学习者的学习偏好、分析出学习者的学习状态和知识水平。对系统采集到的显性信息和隐性信息,使用数据挖掘技术分析学习者的特征需要经历两个步骤,数据预处理阶段和模式发现阶段。数据预处理阶段又包含四个步骤:首先,通过数据清洗对采集到的学习者特征信息进行筛选,将系统记录下的冗余信息和记录清除掉,筛选出那些能反映学习者特征的信息作为数据挖掘的数据源;其次,利用Cookies技术从服务器日志文件的记录中识别每一个用户;第三,识别会话,判断出用户对站点的访问;最后,对学习者的会话进行事件定义。通过数据预处理阶段得到的数据需存储起来作为模式发现阶段的数据源。模式发现阶段可以使用的技术主要包括决策树、规则归纳法、人工神经网络、贝叶斯网络、统计计算法和视频分析技术等。

4 结语

学习者模型的建立是网络学习个性化推荐系统的关键环节。本文在对学习者模型建模关键问题分析的基础下,构建了网络学习个性化推荐系统学习者模型框架,确定了学习者模型要刻画的学习者特征信息的类型,在此基础上,将学习者特征信息采集的方式分为显性采集法和隐性采集法,并对每种采集法的信息采集途径予以阐述,最后,论述了使用数据挖掘技术分析采集到的学习者特征信息的步骤及技术,对网络学习个性化推荐系统学习者模型建模的过程进行了有益探索。

基金项目:西华师范大学基本科研业务费专项资金资助项目“基于WEB的网络教学个性化推荐系统学习者模型构建研究”(项目编号:14D027)

篇10

 

一、引言

基于Internet技术的教育网络化趋势不仅为学生提供了便利的学习方式和广泛的选择,也为学校提供了更加深入地了解学生需求信息和学生行为特征的可能性。但随着Web上信息量的爆炸式增长,网上的资源得到极大丰富的同时也充斥着大量的垃圾信息,当学生们面对这些庞大芜杂的信息海洋时变得无所适从,因而迫切需要能从这些纷繁芜杂的信息海洋中主动过滤并推荐给学生他们所需信息的个性化辅助教学推荐工具,本文就是针对这个问题而提出的。

目前人们利用数据挖掘技术,提出了许多个性化推荐系统。本文提出通过心理学量表对学习风格进行测试,并针对实际收集到数据的稀疏特点,采用项目评分预测的协同过滤算法[1](Item-Based Top-N推荐算法),尽可能准确地测试出学生的学习风格。然后结合Web日志挖掘技术,收集不同风格学生浏览网页的特点,通过AprioriAll算法求解频繁访问序列[2],得到不同风格学生的Web使用习惯,然后依据当前学生浏览页面向学生实时推荐下一步可能会访问的部分网页Web挖掘,提高学习效率。

二、个性化教学系统结构设计

根据WWW体系结构和网络学习系统的特点,需要采用一种新的设计框架来处理挖掘过程。作者采用挖掘学生历史浏览行为(记录在服务器日志中)和分析学生学习风格这两类特征来构建学生模型。

首次登陆系统时需对学生的学习风格进行测试,首先利用项目评分预测协同过滤算法(Item-Based Top-N)对未评分的项目进行评分,然后统计总分即可得到学生的学习风格类型这一特征值;对于己注册的学生则提取MFR路径(最大前引用)对Web服务器中的Web日志进行预处理,可得到学生最大向前向访问的路径,再用AprioriAll算法挖掘学生访问网页的频繁序列,把这一频繁序列作为特征值连同学生风格这一特征值进行数据预处理,即可得到学生个体兴趣模型,然后对其进行访问模式挖掘即可得到学习风格类型相同的学生所具有的访问模式,最后根据这一访问模式利用个性化推荐算法进行学习内容推荐。本文的系统结构设计如图1 所示。

图1个性化挖掘和推荐模块

三、 实现个性化教学推荐系统的关键步骤

1 构建学习风格及兴趣模型

学习风格是学生对学习方法的定向或偏爱,是学习者特有的认知、情感和生理行为,是学生持续一贯带有个性特征的学习方式。因此本文结合学习风格构建能代表学生特征的学生学习风格及兴趣模型。为了更加准确的测试出学生的学习风格类型,本文采用了所罗门风格量表和Kolb风格量表进行测试,由于学生数目的急剧增加和项目众多的风格量表导致学生评分数据的不完善,而产生了数据的稀疏性,这使得计算目标用户的项目评分后不能准确的测试出学生的学习风格。本文来采用基于项目评分预测的协同过滤推荐算法[1]计算项目间的相似性,预测学生对未评分项目的评分,就可以有效地解决数据稀疏情况下的学习风格的测试问题,能更加准确的测试出学生的学的风格中国学术期刊网。具体实现如图2所示。

图2学习风格的测试流程

首先可以得到学生学习风格测评数据矩阵,假设用户为User-1,User-2,…,User-n,心理学量表的测量相目为Item-1,Item-2,…,Item-m,这样矩阵的形式如图3所示。

显然当缺少学生对某一些项目的评分时,量表就无法完成对学习风格的评价,在自主学习的环境产生这种现象中是很常见的。为此有必要填补学生未评分的部分,完成对学习风格的评价。作者通过两步来完成对未评分项目的填充:

 

用户项目

Item-1

Item-2

Item-j

Item-m

User-1

R11

R12

R1j

/

User-2

R21

/

R2j

R2m

/

 

 

User-i

Ri1

Ri2

/

/

User-n

/

Rn2

篇11

个性化推荐,被认为是当前解决信息超载问题最有效的工具之一.推荐问题从根本上说就是从用户的角度出发,代替用户去评估其从未看过的产品,使用户不只是被动的网页浏览者,而成为主动参与者。准确、高效的推荐系统可以挖掘用户的偏好和需求,从而成为发现用户潜在的消费倾向,为其提供个性化服务。

二、个性化推荐系统概述

个性化推荐系统是指根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。它是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。购物网站的推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求。

2000年,我国正式开始了个性化推荐的研究,清华大学的陆海明等提出了基于Agent多混合智能实现个性化推荐;2001年清华大学的冯翱等人提出了基于Agent的个性化信息过滤系统Open Bookmark;南京大学的潘金贵等人设计并实现了个性化信息搜集智能体DOLTRL-Agent。近几年来,个性化信息推荐服务逐渐从理论走向实践,从探索走向完善,逐步成为商业界的焦点。

三、常用的个性化推荐系统算法分析

下面对常用的个性化推荐系统的算法进行简要的分析。根据算法的不同,当前已有的个性化推荐系统大致可以分为以下几类:基于规则的推荐系统;基于内容的推荐系统;协同过滤系统;基于用户-产品二部图网络结构的推荐系统;以及混合式推荐系统。

1、基于规则(Rule-based)的推荐系统

关联规则挖掘是数据挖掘领域的一个重要分支。对于基于关联规则的推荐算法来说,其作用机理就是:首先统计得到挖掘出的规则前件,然后针对目标客户的历史购买行为,向顾客推荐规则后件。该算法的优点是容易理解,研究基础广泛且成熟,支持其实现的软件丰富,有较好的实践条件;缺点是随着事务的增多,规则的发现将非常耗时,并且规则难以解释。

2、基于内容(Content-based)的推荐系统

基于内容的推荐起源于信息检索领域,它利用资源和用户兴趣的相似性来过滤信息。首先分析项目的内容,根据用户评价过的项目建立用户的兴趣模型,即用户描述文件。根据用户描述文件的不同又可以分为基于向量空间模型的推荐、基于关键词分类的推荐、基于领域分类的推荐和基于潜在语义索引的推荐。

基于内容的算法的优点是直接、简单,推荐结果易于解释。但也存在一定的局限:首先,特征提取能力有限,它仅适用于产品特征容易抽取的领域,当项目特征很难被一组关键词来清晰描述时,基于内容的推荐算法就显得苍白无力了。

3、协同过滤(Collaborative filtering)系统

协同过滤是目前应用研究的最为广泛最成熟的个性化推荐技术。主要分为基于用户的协同过滤系统和基于项目的协同过滤系统。其核心思想是:首先,基于系统中已有评分数据,计算给定用户(或项目)之间的相似性;然后根据计算得到的相似性,寻找目标用户(或项目)的最近邻居集合;最后使用最近邻居集合中的用户(或项目)的评分情况来预测目标用户对目标项目的评分值。

协同过滤的推荐系统主要优点有:

(1)对内容信息不易抽取的项目能产生完全自动化的推荐;

(2)能根据项目的质量和用户的品味产生推荐;

(3)能为用户发现新的兴趣。当然,协同过滤推荐系统也存在一些弊端:

(1)数据稀疏性问题,这也是协同过滤系统目前存在的最普遍的问题。

(2)冷启动问题,当一个新项目刚加入系统的时候,由于没有任何用户对它进行过评分,该项目便无法得到推荐。

(3)同一性问题,对于名称不同本质相同的项目,协同过滤无法发现潜在的联系;

(4)扩展性问题,随着系统中项目和用户数量的增多数据库将变得非常庞大,为用户产生推荐的精度和实时性都因此而降低。

4、基于用户-产品二部图网络结构(Network-based)的推荐系统

基于网络结构的推荐算法不考虑用户和产品的内容特征,而仅仅把它们看成抽象的节点,所有算法利用的信息都藏在用户和产品的选择关系之中.分别利用用户一产品用二部分图建立用户―产品关联关系,并据此就提出了基于网络结构的推荐算法。其中,提出了一种全新的基予资源分配的算法,通过在协同过滤算法中引入二部分图上的扩散动力学,部分解决了数据稀疏性的问题。

5、混合式(Hybrid)推荐系统

基于规则的、基于内容的以及协同过滤的推荐算法由于自身的特点,在实际应用中都存在一些缺陷,因此就提出了把多种不同算法结合起来形成混合算法的解决方案。

四、个性化推荐系统对电子商务网站的意义

个性化推荐系统作为一种电子商务服务,是网络营销的重要手段。据VentureBeat统计,Amazon的推荐系统为其提供了35%的商品销售额。个性化推荐系统能够有效地留住顾客、防止顾客流失,提高销售额,因此受到越来越多的关注。综合来看,个性化推荐系统对电子商务网站的意义,主要可以概括为以下几点:

1、把网站浏览者转变为购买者

有些用户浏览网站并非有有购买目的,如果网站通过个性化推荐系统对其进行推荐,有可能使顾客形成购物冲动,从而促进销售。

2、提高电子商务网站的交叉销售能力

个性化推荐系统可以发现顾客所购买商品之间存在的内在关联,网站可以根据推荐算法的输出结果,对相关商品进行组合推荐、捆绑销售等,从而促进销售。

3、提高顾客对电子商务网站的忠诚度

个性化推荐系统可以让顾客受困于海量的信息当中,因此适当的使用个性化推荐系统对顾客进行商品信息推送可以提高顾客的购物舒适度和满意度,从而提高顾客的忠诚度。

4、优化电子商务网站

根据Web日志数据分析用户的行为模式,推荐超连接列表,或者动态地生成可能的网页超链接。尽可能迎合每个用户的浏览兴趣并且不断调整网站链接结构适应用户浏览兴趣的变化,使每个用户在浏览网站时都有该网站的唯一用户的感觉。

五、结语

网络交易量不断增长的时代,已经出现了很多实用的个性化推荐系统。它能够利用顾客期望的产品单、购物车、顾客提交的评价以及购买记录等,为顾客推荐适合的产品,提供多项推荐服务。本文简单介绍了几类基于不同推荐算法的推荐系统.虽然这些推荐系统都已经投入应用,并且取得了可观的经济效益,然而,这些系统都面临着许多问题,需要从理论和应用角度进行深入的研究。(作者单位:山西省运城市广播电视台)

参考文献

[1]张靖.网络个性化服务资源综合推荐研究[J].计算机仿真.2009.26(11):157-165)

[2]刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展.2009.19(1):1-15

[3]李智琦,陈世颖,杨怡凝.基于数据挖掘的个性化推荐在SNS中的应用[J].电脑知识与技术.Vol.7,No.28,October 2011.

[4]曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报.2002.13(10):1592-1561

[5]吴丽花,刘鲁.个性化推荐系统用户建模技术综述[J],情报学报,2006,25:55-62

[6]王茜,杨莉云,杨德礼,面向用户偏好的属性值评分分布协同过滤算法[J],系统工程学报,2010.04

篇12

【关键词】 协同过滤;个性化推荐;学习行为;自主学习

【中图分类号】 G40-057 【文献标识码】 A 【文章编号】 1009―458x(2012)08―0078―05

一、引言

E-learning作为一种基于计算机通信技术的学习方式,可以最大限度地利用网络教学资源,学习者在学习过程中不必受到时空环境的限制,随时随地根据自身需要进行自主学习。这种新型的学习形式目前已经广泛的应用于各种在线课堂教学和技能培训领域。虽然E-learning教学资源建设已经取得了阶段性成果,但是主要有以下几个问题:(1)资源数量爆炸性增长。如今在线学习资源数量繁多,资源的质量和水平参差不齐,学习者往往无法辨别资源的优劣,导致学习资源的利用水平并不理想。(2)资源种类多样化。在线学习资源除了传统的文本类型以外,还有声音、图像、视频等多种媒体类型,媒体类型的不一致也给资源的搜索和归类带来了不便。(3)资源非线性呈现。与传统教学中的书本不同,在线学习资源一般以超文本链接联系各个知识点,学习者以非线性的方式进行学习,知识点的“跳跃性”也容易让学习者在学习时产生迷茫感。以上问题使得目前很多的E-learning系统无法根据不同学习群体的不同学习特征来提供个性化的学习支持服务。随着人们对在线学习资源认识的不断深入,具有智能分析技术的在线学习资源系统将是未来资源建设发展的趋势之一。由于学习者群体的特殊性,每位学习者都有其潜在的学习兴趣,协同过滤技术可以帮助学习者快速地发现有价值的资源,自主选择学习内容,根据自身的兴趣度来完善知识体系。因此,本文将协同过滤技术手段和在线学习资源的特征相结合,从学习者自主学习的角度来构建满足学习者个性化需要的在线学习资源系统。

二、文献综述

个性化推荐是对用户的兴趣、爱好、行为进行分析和建模,根据分析得出的结果给用户提供“个性化”、“定制化”的服务,以解决目前互联网中信息过载这一问题。目前,个性化推荐技术可以分为内容过滤推荐、规则过滤推荐和协同过滤推荐。

1. 内容过滤推荐技术

基于内容的推荐是较早提出的一种推荐技术,该算法的原理是利用概率或者机器学习技术将用户的已有兴趣表示为模型,然后与资源进行比较,通过两者之间的相似程度来为用户进行推荐。

2. 规则过滤推荐技术

基于规则的推荐是将推荐规则事先进行保存,然后通过这些规则对用户进行推荐。规则过滤推荐系统中规则的质量和数量决定了推荐的效果,从本质上说规则就是“if-else”类型的语句,这些语句分别描述了不同情境下以何种方式进行推荐。

3. 协同过滤推荐技术

协同过滤技术最早于1992年出现在Tapestry系统中,当时主要用于解决电子邮件系统的筛选问题。随着协同过滤技术的发展,协同过滤技术在商业领域取得了较大成功。国外最具代表性的协同过滤系统有Amazon和Facebook的广告系统,Amazon是根据用户购买和查看图书的记录来为其推荐可能感兴趣的书籍,Facebook则是依托其庞大的用户群,根据朋友间的兴趣来进行广告营销。与国外相比,国内的协同过滤系统研究起步较晚,目前国内比较成熟的协同过滤系统主要有当当网和豆瓣猜。当当网和Amazon的功能类似,同样是用于图书商品的推荐,豆瓣猜是通过分析用户读书记录来预测用户可能喜爱的书籍。协同过滤技术为网站增加了收入来源,增强了用户体验度,受到了用户的好评。

以上三种个性化推荐技术的优缺点如表1所示。

协同过滤技术从算法上分类可以分为基于用户的(User-based)协同过滤算法和基于项目的(Item-based)协同过滤算法。基于用户的协同过滤算法认为相似用户评价的项目之间存在相似性,可以以此来预测某个用户对该项目可能的评价;基于项目的协同过滤算法则采用计算项目之间相似度的方法来预测用户对其他项目的评价。

围绕协同过滤技术算法,国内外研究人员从个性化推荐的角度进行了一系列的研究工作。关于User-based算法,2009年Xia提出了一个改进的User-based协同过滤算法[1],在算法中引入用户加权值,来提高算法的准确度;2010年,Robert和 Istvan将分布式技术与User-based协同过滤算法相结合,提出了一个完全的分布式推荐系统[2];Zhao 和Shang 提出了一个云平台的用户协同过滤算法,提高了协同过滤算法的可扩展性能[3];Mu和Chen在User-based协同过滤算法基础上引入了犹豫度概念(Hesitation Degree)来提高协同过滤算法的准确性[4]。关于Item-based算法,2009年,Luo和Tian采用slope-one方案来应对协同过滤中的评级矩阵稀疏性问题[5];2011年,Lei 和Junzhong 将用户从众的心理和一般用户评价心理区分开来,采用均衡的基于项目的预测方法来对项目进行评价预测[6];Gao和Wu以Userrank排名的数据模型为基础计算项目之间的差异性,提高算法的推荐质量[7]。以上研究工作的重点是从协同过滤的算法效率和扩展性的角度来提高个性化推荐的精度,而对于学习者进行在线学习时产生的学习行为特殊性并没有给予太多的关注。鉴于以上问题,本文的研究重点是设计出一个基于协同过滤技术的在线学习资源模型,该模型能够利用协同过滤技术的突出优点,分析学习者的学习行为特征,为学习者推荐出可能感兴趣的学习资源,提高在线资源的利用率,促进学习者完成知识的加工和建构。

三、基于协同过滤技术的在线学习

资源个性化推荐系统模型

通过对国内外研究成果进行分析,本文将学习者在线学习过程中的学习行为与在线学习资源特点作为设计基于协同过滤技术的数字化学习资源模型的依据,在强调学习者自主学习的基础上结合协同过滤技术算法,形成一套基于协同过滤技术的在线学习资源个性化推荐系统模型,如图1所示。该模型中最重要的部分有3个:学习者行为日志和学习资源库、数字化模型以及协同过滤引擎。

1. 学习者行为日志

由于学习者在线学习的过程中不仅仅是对学习资源库中资源的简单提取,同时会产生收藏、下载、浏览和评价等学习行为。这些学习行为显性或隐性地表现了其学习兴趣,所以在该模型中,我们将学习者的学习行为收集并记录下来,挖掘学习者的学习行为轨迹,建立学习者的行为模型。

2. 学习资源库

学习资源是个性化推荐系统的基础。作为学习者学习资料的来源,学习资源库提供了文本、音频和视频等资源供学习者学习。由于资源库中资源数量庞大,推荐系统对于每个资源都加入了社会化标签,标签的引入有助于对资源内容进行分类,实现资源的统一管理和高度共享。

3. 协同过滤引擎

协同过滤引擎是个性化推荐系统的核心。该引擎将学习资源库中带有社会化标签的“孤立”资源关联起来,并且将学习者行为模型数字化为学习权重值,选择合适的推荐策略,产生候选推荐资源集,以多种媒体呈现的方式为学习者推荐其可能感兴趣的学习资源。协同过滤引擎能够有效地解决目前学习资源建设水平低,不利于学习者搜索等问题,保证了个性化推荐的质量。

四、 基于协同过滤技术的在线

学习资源个性化推荐算法

协同过滤算法基于以下假设:(1)用户之间的兴趣是具有相似性的。(2)由于用户对资源的操作评价包含了他们的兴趣偏好,所以我们以此来作为对其他用户预测项目的依据来源。传统的协同过滤算法主要分为三个步骤:获取用户-项目信息、计算查找相似用户集、产生推荐结果。协同过滤技术主要依赖于用户对项目的操作和评价,可以筛选出从内容和类型上难以区分的项目,用户之间可以共享资源和经验,而且其自动化和个性化的程度相比传统推荐方式要高出很多。但是从以上步骤我们可以看出,传统的协同过滤算法推荐结果依赖于用户对项目的评分,当用户对项目的评分过少时,推荐结果就会出现误差,这也就是我们常说的矩阵稀疏性问题。

本文将协同过滤算法引入到数字化学习领域,针对矩阵的稀疏性问题提出了一种改进的协同过滤算法。解决矩阵稀疏性问题的传统方法主要是通过给矩阵添加默认值,这种方法虽然能从一定程度上缓解矩阵的稀疏性问题,但是不能有效地对用户的兴趣倾向给出正确的分析。基于以上问题,本文给出的推荐算法的思路是在矩阵初始化时,如果用户对项目的评价较少,则挖掘用户对资源的其他行为(如:浏览、收藏、下载等),将用户的行为操作作为权重值加入到用户相似性计算中,该算法与传统的协同过滤算法相比,能够有效地解决矩阵的稀疏性问题,推荐精度也有了大幅提高。

基于协同过滤技术的在线学习资源个性化推荐算法流程如图2所示,在推荐过程中当学习者-资源矩阵过于稀疏时,该算法会对用户行为进行挖掘,填补矩阵稀疏的缺陷,以此提高推荐的精度。

1. 获取学习者―教学资源矩阵信息

首先将M个学习者对N个教学资源的评价转化为分值(主要是学习者对学习资源的显式评分),然后形成如表1所示的MN矩阵。其中第i行j列的Ei,j代表了第i个学习者对第j个教学资源的评分。

2. 计算学习者―学习资源矩阵稀疏性

首先我们给矩阵稀疏性设定一个最小限定值Φ,然后计算矩阵的实际稀疏情况。

稀疏计算公式为:

Sparsity=■,其中EvalNum为学习者对资源的评价数量,LearnerNum为学习者的数量,ResNum为学习资源数量。当Sparsity < Φ时,说明教学资源库评价矩阵过于稀疏,对用户行为进行挖掘。挖掘完成后对照表4计算和规格化用户行为的权重值,添加到评价矩阵中。

3. 计算查找相似用户集

在协同过滤算法中,计算查找相似的邻居集是最为关键的一步,首先从表3取出中m个学习者对n个教学资源的评分,然后通过相似度计算方法计算出学习者之间的相似度。其中相似度计算方法主要有两种:余弦相似性算法和修正的余弦相似性算法。

(1)余弦相似性算法是最为典型的相似性计算方法,过程是将用户对项目的评分看做是n维的向量,然后通过计算其余弦的夹角来得出用户之间的相似度,其具体算法如公式(1)所示。

Sim(i,j)=■ (1)

(2)修正的余弦相似性算法将余弦相似性算法做出了修改,为了减少用户主观性引入用户对项目平均评分的概念。在计算时将项目的评分减去该用户对所有项目的平均评分。其具体算法如公式(2)所示。

Sim(i,j)=■(2)

本文将步骤2中的用户行为权重值加入到相似性算法中,形成了一种改进的相似性计算方法,为加入权重值的学习者-资源评价数值,改进的相似性算法如公式(3)所示。

Sim(i,j)=■ (3)

相似度计算完成后将会得到与用户相似度最为接近n个用户的邻居集Z={User_1,User_2,User_3,…User_n;}

4. 产生推荐结果

一般根据上步得出的邻居集中用户对项目Itemn,s的评分,就可以预测出目标用户对该项目的评价,并且产生最终的推荐结果。因为学习者学习和评价的风格有所不同,所以本文采用如下推荐方式。

Pj,k=■j+■sim(j,x)(R■-■x)/■sim(j,x) (4)

在公式(4)中Pj,k为推荐系统预测的学习者j对资源k的评分,■j为学习者j所有已经评分分值的平均值,Z为上一步得出的最近邻居集,最后取出相似度最高的N个资源,得出推荐结果,推送给学习者。

五、基于协同过滤技术的在线学习

资源个性化推荐系统应用

本文在上述研究成果的基础上,结合在线学习资源和协同过滤技术的特点,设计开发了基于协同过滤技术的在线学习资源个性化推荐系统(如图3所示),并作为推荐模块应用于网络培训教学中。与传统的在线培训系统相比,在线学习资源个性化推荐系统能有效收集网络教学中学习者的反馈信息,为其他学习者提供需求相似的资源列表,与学习者进行交互,节省在线学习者获取信息和知识的成本。接下来,我们以该推荐系统中实际的用户数据为例,阐述系统是如何为用户推荐个性化资源的。

首先,个性化推荐系统中的行为收集模块从用户日志文件中收集用户行为,建立用户行为模型(如表4所示),并将其数据化。

然后,推荐系统中的用户显示评价模块收集用户主观评价数据(分值代表用户对资源的喜好程度,分值越大代表用户对该资源的兴趣度越高,如表5所示)。

最后,以用户的行为数据和评价数据为依据,计算资源相似度,产生用户最近邻居集,预测出用户n在使用资源n时可能感兴趣的资源列表(如表6所示)。该资源列表由推荐系统自动分析生成,以此来提高学习者的学习效率。

六、结论与展望

本文首先分析了传统协同过滤技术普遍存在的问题,进而提出了一种改进的协同过滤算法,该算法引入了用户行为权重值概念,缓解了协同过滤算法普遍存在的冷启动问题。其次将协同过滤技术与在线学习资源相结合,设计了在线学习资源个性化推荐系统,实现了学习者自主学习,自主评价,资源共享等功能,提升学习者的学习效果。虽然在线学习资源内容不会发生变化,但是随着用户学习的不断深入,学习兴趣和方向可能不断变化,如何根据用户兴趣的变化进行实时地推荐,需要进行深入的研究。

?眼参考文献?演

[1] Xia Jianxun.An Improved Similarity Algorithm Based on Hesitation Degree for User-Based Collaborative Filtering[A]. Conference on Communication Faculty [C]. Nanning, PEOPLES R CHINA: Proceedings of 2009 Conference On Communication Faculty,2009,104-108.

[2] Ormandi,Robert;Hegedus,Istvan.Overlay Management for Fully Distributed User-Based Collaborative Filtering[A]. 16th International Euro-Par Conference on Parallel Processing[C]. Ischia, ITALY:EURO-PAR 2010 PARALLEL PROCESSING PT I,2010,446-457.

[3] Zhao Zhi-Dan;Shang Ming-Sheng .User-based Collaborative-Filtering Recommendation Algorithms on Hadoop[A]. 3rd International Conference on Knowledge Discovery and Data Mining[C]. Phuket, THAILAND: Third International Conference On Knowledge Discovery And Data Mining Proceedings,2010,478-481.

[4] Mu,XW; Chen, Y. An Improved Similarity Algorithm Based on Hesitation Degree for User-Based Collaborative Filtering[A]. 5th International Symposium on Intelligence Computation and Applications[C]. Wuhan, PEOPLES R CHINA: Advances In Computation And Intelligence,2010,261-271.

[5] Luo,Q;Tian,X.A Personalized Recommendation Algorithm Combining Slope One Scheme and User Based Collaborative Filtering[A] International Conference on Industrial and Information Systems[C]Hankou,China: 2009 International Conference On Industrial And Information System,Proceeding,2009,152-154.

[6] Lei Ren; Junzhong Gu.An Item-based Collaborative Filtering Approach based on Balanced Rating Prediction[A] 2011 International Conference on Multimedia Technology[C].Hangzhou,China: 2011 International Conference on Multimedia Technology,2011.

[7] Gao,M; Wu, ZF.Userrank for item-based collaborative filtering recommendation[J]. Information Processing Letters,2011,(9):440-446.

收稿日期: 2012-04-15

作者简介:孙歆,硕士生,浙江工业大学教科学院(310014)。

王永固,副教授,博士,浙江工业大学教科学院副院

友情链接