社交媒体文本分析范文

时间:2023-08-02 09:27:53

引言:寻求写作上的突破?我们特意为您精选了4篇社交媒体文本分析范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。

社交媒体文本分析

篇1

中图分类号:

文献标志码:A

文章编号:1002-0845(2007)06-0000-00收稿日期:2006-12-04作者简介:张福远(1978-),男,河北廊坊人,教师,硕士研究生,从事比较高等教育、教育社会学研究;宗淑花(1969-),女,河北香河人,讲师,从事职业教育研究。

“如果拨开美国高等教育的美丽光环,笼罩在下面的本科生教育质量问题就会暴露出来”。自20世纪80年代以来社会各界对美国研究型大学的指责就不绝于耳,而其中批评最多的则是忽视本科生教学的问题。

一、功利主义的驱使

美国的研究型大学之所以将本科生的教学置于边缘地位,其中一个主要的原因就是“惟利是图”。这种功利主义的驱使让学校和教师对本科生的教学都无法热衷起来。

1.对经费和排名追求―――忽视本科教学的幕后黑手

美国研究型大学经费来源主要有五条渠道:联邦政府、州及地方政府、学费、私人捐赠以及学校的销售和服务。以1995年为例,联邦政府及他渠道对大学投入的研究经费总共为269亿美元,而大学本身的投入为39亿美元,只占总投入的14.5%[1]。可见,研究经费主要来自大学外部的支持。大学在获得外部经费支持的同时,一些不利影响也相伴而生。其一,外部对大学的投入明显带有实用主义倾向。这迫使大学潜心于见效快、易赢利的应用型研究,从而忽视了基础研究。其二,效益至上企业精神被贯穿到大学的管理之中。大学过分强调这种精神势必会导致教师太注重个人可见业绩,而忽视教学。其三,联邦政府对大学研究经费的资助大幅缩减。据统计,自20世纪80年代后联邦政府对研究型大学的经费资助不到以前的60%[2]。为了缓解财政危机,研究型大学不得不以更快更多的研究成果来换取外界的经济援助。然而,本科教学与外界的经济支持没有直接关系,这也是忽视本科教学的一个主要原因。

为了获得更多的经费,大学必然要施展浑身解数。其中开展研究项目、建设一流的学科、追求大学的排名为各大学所热衷,因为这些与研究经费的申请直接挂钩。于是申请项目、引进知名教授,以此来提高学科和大学的排名,就成了大学获取研究经费的主要手段。美国伯克利大学教授Clark Kerr 认为,这种盲目的追求是造成本科教学被荒废的一个主要原因。在他的著作《The Uses of the University》中写到:由于一个学校的品牌是争取科研经费的门面,这就需要引进一流的研究教授。于是造成了大学花大价钱去挖“明星研究员”的情况[2]。然而,这些重金聘请来的大牌教授不愿意从事本科教学,大学只好再聘请专门的“教书匠”来应付本科生的教学。由此可见,研究型大学为了在研究经费的竞争中获得更多的份额,纷纷将精力投入到研究项目的建设、学科排名的提升等领域中。而对于本科生的教学,因为不能得到实惠就自然居于次要地位了。

2.不合理的晋升与报醚机制―――教师远离本科教学的“罪魁祸首”

人们工作的主要目的之一就是要追求更高社会地位和经济收入,这本来无可厚非,美国大学的教师对此也同样津津乐道。问题并不在于此,而在于研究型大学不合理的晋升和报酬机制,使教师在追求这些目标的过程中产生了偏差。

首先,来看晋升机制。在美国许多大学教师梦寐以求的是能够获得一个“终身教授”的职位。然而这极为困难,申请者需要做多项独立科研、发表高水平文章、指导博士生等工作才有机会争取到“终身教授”的职位。这些晋升的条件中,科研和学术是最重要的因素。2001年美国博耶本科教育委员会对研究型大学进行了一次调查,调查中教师在回答“你为何重研究,轻教学?”这个问题时,许多教师都提到:感觉教学并未被领导给予足够的重视―――奖励太少、在晋级中分量太轻[3]。这是一个非常现实的问题,研究型大学的教师要想获得晋升机会就要在科研和学术上大做文章,本科生的教学自然就受到了冷落。再来看教师的报酬与学术和教学的关系。在研究型大学研究者与“教书匠”的收入差别很大,研究型教授年薪可以到20万美元,但是以教学为生的“教书匠”教一门课只有三千美元;还要面临失业的危险。所以在研究型大学,同事们将专心于本科教学的教师戏称为“奉献型教师”[4]。这种不合理的晋升与报酬机制长期存在,教师的思想中就产生了一种强烈的功利主义倾向,即要想迅速提高自己的收入与威望,就要以研究为重。长此以往,对本科生的教学重视―程度就可想而知了。

二、分类和评价机制的偏好

1.缺失的分类标准―――本科教学遭遇冷落的隐患分类机制会使事物产生一种“升级效应”,也就是说会产生一种追求更高类别的趋势。美国大学的分类机制,也同样对其产生着“升级效应”。但是,由于这种分类标准将某些重要的因素排斥在外,于是造成了在追求升级过程中的一些隐患。1900年美国大学协会确立研究型大学的两条标准:一是该大学是否设有研究生院,二是该大学是否为大学协会会员。1970年卡内基教学促进基金会首次提出了《高等教育机构分类》的报告,其中提出了研究型大学分类的两个量化指标:博士学位的授予数和科研经费的数量。1994年,卡内基教学促进基金会在1987年的分类标准基础上,制定了新的分类标准。新标准将研究型大学区分为研究型大学I 类和研究型大学Ⅱ类。[1]

从卡内基教学促进会对美国研究型大学分类的不断修正中,可以看出虽然分类的量化指标系数在不断变化,但是主要是以博士学位的授予权和数量,以及得到研究经费的数量两个方面作为标准。而分类标准中对本科教育的相关条件却只字不提,这无疑为美国大学在追逐研究型的过程中忽视本科教学埋下了隐患。

2.有失偏颇的评价机制―――把本科教学导向低谷的无形之手美国大学的评价在世界上是最丰富的,其中以《美国新闻》的评价被认为最具权威性。笔者就以《美国新闻》的大学评价指标体系为例来说明评价机制对研究型大学本科教学的影响。其大学评价指标包括7项指标,分别是:同行评价和学校声誉(25%)、师资质量(20%)、在校生的回返率和毕业率(20%~25%)、新生质量(15%)、学校资金(10%)、毕业率的增长(5%)以及校友捐款人数的百分比(5%)。从这7项评价指标中可以看出,没有一项指标是直接将“本科生的教学质量”作为衡量标准。只有在“在校生的回返率和毕业率”这个选项中提出两个维度:“其一是一年级新生的回返率;其二是6年的毕业率。”第一年的退学率往往是4年中最高的,回返率占这一标准的20%。另外,美国大学实行学分制,学生毕业少至3年,多至七八年。因此,6年毕业率成为衡量大学质量的另一重要标准,占此项的80%。于是,在评价指标体系中回返率和毕业率,就成为了能够代表学校教学和服务质量的标准。在这样的评价机制下本科生的教学质量很难得到准确的评估,也就是说本科生的教学对于大学评价影响不大。

三、学术观念的偏差

大学是学术的圣地,教师或多或少都摆脱不了对学术的倾慕,而学者型教师正是美国所倡导的大学教师形象。在美国的研究型大学绝大部分教师都赞同这样的观点:学术起始于对知识的发现,即研究。因此,研究成了学术的最初含义与重要内质。教师往往把研究等同于学术,由此导致学者的职责就是研究。进而推之,学者的责任感越强,就越乐于把研究视为个人之事,就越易于出现自己埋头搞研究的现象。美国大学的大批教师正是因为有此学术观,才表现出重研轻教的行为。从另一方面而言,把学术等同于研究的学术观是排斥学者以教学为重的,因为教学不是研究,本科教学尤其与学者的研究存在着诸多差异。

然而,“学术二研究”吗?对这个概念的认识直接影响着大学教师的职业认同。如果将学术与研究划等号,则无法解除大学教师认识的内心矛盾。因此,必须建立新的学术范式,重新界定学术的内质。基于此,博耶先生提出了一种新的学术观,即学术包括发现、综合、应用知识与教学四个方面[7]。这种新的学术观,将学术看作是一个动态的过程即:发现―综合―应用―传播,四者交替进行、相互作用、不断循环,构成了学术健全的身躯。而教学就是一种最有效的传播方式,于是教学就成为了学术研究过程的一个环节,也就不能被排斥在学术研究之外。如果研究型大学的学者们都能以博耶的范式来界定学术,把教学看作学术研究的一部分,那么就可以给教学以足够在重视,研究型大学的本科教学就不会受到今天这样的冷落了。

综上所述,美国研究型大学对功利的追求导致的短视效应,缺失的分类与评价机制以及狭隘的学术观是造成许多研究型大学教师只顾研究不重本科教学问题的深层原因。

参考文献:

[1]沈红.美国研究型大学的形成与发展[M].武汉:华中科技大学出版社,1999

篇2

类似的事情近年来经常发生。

企业一直依赖于存储在关系型数据库中的结构化(可量化的)数据来分析其商业运作、竞争状况以及全面的业务运营环境。实际上,企业所依赖的仅仅是其所能获得信息的极少一部分,甚至还未达到20%,而这些未被分析到的信息却以非结构化(定性的)数据形式广泛存在。

可实现的BI圣杯

时至今日,许多企业已经意识到,如果有方法可以收集、集成、查询和分析那剩余的80%非结构化数据,决策支持将会得到极大的提升。但这个目标一直难以实现。企业迫切需要一种方法从不同格式的非结构化数据包括Word文档、PDF文件、E-mail消息、短信息、媒体文件、客户服务调查、呼叫中心的记录、PowerPoint Presentation、各种其他类型(非量化)的企业文档中梳理关键的业务信息。另外,收集和分析外部的非结构化数据如来自Web页面、博客、聊天室、及其他社交和新闻媒体等。遇到的挑战就是得寻求一种有效方式将这种非结构化数据和结构化数据进行集成,并将它们一起分析,发现关键的趋势和相关性。

文本分析技术恰恰能够破解这一难题。它是一种将文本数据进行转换,使它们适合于查询以及高级分析所拥有的、为我们所熟悉的功能。它应用语言与统计机制以抽取用于对文档、音频、视频和图像进行分类的概念和模式;它可将非结构化信息转换为适用传统分析机制应用的数据,揭示之前计算机无法处理的大量信息中的意义与关系。

前沿:文本分析及统一存储

业界已有的共识就是定量分析仅仅能够提供一定数量和特定类型的信息用于基本的商业决策。定量的(结构化)数据非常适合于为回答“什么”问题提供信息,但是定性的(非结构化)数据在回答“为什么”问题时却更有用。要了解全面、准确预测,企业对这两种类型的答案都需要。但一些公司仍然保持着独立的结构化数据分析系统和非结构化数据分析系统,这导致了成本高昂,集成延迟,无法综合分析数据,无法做出实时、全面、智慧的决策等问题。

理想的方式是将集成的结构化和非结构化数据存储到同一个地方――最好是一个可以管理多种数据类型以及支持所有关系型商业智能的标准报表、数据挖掘、预测分析和文本分析的优化的分析引擎。单一的存储为IT管理和业务用户带来明显的好处――能够以更短的时间获得一个关于企业的业务环境综合、关联的视图。

因此,需要将文本分析加入到企业的商务智能中,以消除目前让挖掘海量定性的数据变得困难和成本高昂的障碍。

文本分析可以理解为一种语义层的技术,来补充传统的商业智能。BI长期关注定量数据,而文本分析将BI报表、分析和可视化功能扩展到占80%的、以文本和其他非结构化形式存在的业务信息。它使得任何书面或口述的材料可以被分析,包括电子邮件和文本消息,Web页面、博客、论坛以及其他社交和新闻媒体,联系中心记录以及调研反馈,保修和保险索赔,企业报表和申请以及法律文档和科技文献。

系列实践证明,统一的文本和定量数据存储可以消除那些在文件系统中管理非结构数据的系统管理员进行逻辑设计的复杂性,也消除了一旦文件系统损坏或停机而带来的数据不可访问的风险。中心式的数据访问意味着更稳定和更安全的系统。

现在,技术已允许结构化和非结构化数据存储在统一的分析引擎中,基于该引擎, 涵盖全企业,找到相关的非结构化数据,并将它们从文件格式中抽取出来;对非结构化数据进行预处理并将它们和现有的结构化数据一同加载到数据库中;基于联合的数据存储执行所需的分析,发现趋势、机会、威胁、低效率,以及其他可以带来更好商业决策的洞察力。

数据量迅猛增长,竞争愈发激烈,监管更加严格……那些继续基于对商业环境仅仅20%的理解而运营的企业将发现自己的劣势正在不断扩大。领先的企业将部署领先的技术和高级分析机制,从来自另外80%的信息――不断增长的、传统上未被使用的非结构化数据――中获得洞察力、智能以及其他关键信息中得到更多好处。

案例

eBay的极限分析

霍娜

全球最大的电子商务平台eBay拥有全世界最大数据仓储系统。近年来,它的数据成长的脚步相当惊人:eBay现在每天有50PB的新增数据,使用者平均每天对5万种商品进行数百万次的网上查询。除此之外,eBay还有7,000多个商业用户和分析人员,为了分析,每8秒钟会产生1TB的数据量。这些加起来,eBay每天要处理的数据量高达100PB。多么惊人的数字!对eBay 来说并不只是数据量的增加,eBay分析平台高级总监Oliver Ratzesberger认为,近年来在分析数据领域最大的挑战就是要同时处理结构化与非结构化的数据。

篇3

引言

随着web2.0的快速发展,社交网络逐渐从各个方面影响着中国网民。微博成为了社交网络中社交工具的典型代表。网民使用微博在互联网上的活动主要是获取信息与信息,的信息含有自己对某事物的看法、观点、感知等个人情感。

它们主要以文字,表情符号(新浪微博默认表情及标点符号)形式出现。通过用户之间的互动传播(一个微博用户具有双重角色,即博主与粉丝),这种社交网络媒体具有传播速度快,传播范围广等特点。因此对微博情感识别与分类就显得尤为重要。

对微博文本的情感进行识别与分类,不仅能让企业及时了解客户需求寻找到潜在的客户群体,通过实时、准确地评估其情感。能够获得客户市场反馈信息及客户的消费习惯,帮助企业进行有效的需求管理及企业战略调整,从而快速应对市场变化,提高企业竞争力。还能帮助政府部门实时监控民众情绪,对负面情绪及时采取措施,防止不法分子企图通过微博平台传播谣言,以此保证社会的和谐稳定,政府了解民意,为制订国家政策提供参考。

同时也能协助医生分析心理障碍者,及时掌握患者情绪波动,准确对患者病情进行有效的对症下药。避免了患者不能准确描述病情,而带来的不相关治疗。

因此对微博情感进行研究具有重要的理论与实践意义。文章意在为政府或企业等利用到微博情感分析数据的领域提供基础。

鉴于自主采用Java语言开发的新浪微博的情感识别与分类系统,对中文微博的情感进行识别与分类研究。系统使用爬虫技术[1],抓取微博的文本内容,然后进行分词,去停用词,文本规范等预处理操作,再抽取情感特征,对文本情感识别与分类,最终输出分类结果。

一、相关工作

1.1文本获取及预处理

对微博数据资源的获取有两种形式,一种是用户以普通文本形式直接在系统前台相应位置输入待分析的文本,系统可以自动进行情感识别与分类;另一种是用户以微博文本URL形式输入,系统对用户输入URL连接采用网络爬虫技术抓取微博正文内容。

网络爬虫结构先将用户输入URL作为爬虫起点,通过web协议(主要是HTTP协议)采集页面,使用多线程或并列技术获取网页数据信息,网络爬虫结构也提供了链接过滤模块(过滤掉不符合URL规范的链接),页面数据库模板(存储已经爬取到本地的原始页面数据,以备预处理阶段建立索引使用)。

为了提高分类的准确率,减少获取文本内容不必要干扰,对文本进行预处理操作十分必要。系统的预处理操作主要包括:

1.文本规范化处理,判断待处理的文本是否含有由两个#组成的话题标签,若有则删除两个#及它们之间的文字内容。

2.使用正则表达式判断微博文本是否含有以下三种含@微博标签,若有将它们删除①以@开头,以:结尾②以@开头,以空格结尾③以回复@开头以:结尾。

3.判断英文词语是否含有感彩,删除不必要的英文词语。

4.用中文描述替代含有感情的“?”和“!”去除一些标点符号。

5.使用得到普遍认可的支持Java开发语言的ICTCLAS分词工具分词,去除停用词。

1.2文本特征抽取

文本特征抽取[2-3]是从文本中选取一部分能够反应其内容信息的特征词汇并计算其特征权重。特征抽取的主要目的是为了降低向量空间的维度,消除无关特征的噪音,通过选择可区分性强的少量特征来提高分类器的分类精度和效率。常用的特征选取方法有: 文档频率、信息增益法、期望交叉熵等。文档频率[4](Document Frequency )一种简单的特征约减技术,常用自动特征选择,通过设置目标特征的文档频率阈值来进行特征的抽取。DF是含有该目标特征的文档数与所有文档数的比值,可表示为

信息增益法[5]是指文本包含该特征项与不包含该特征项时的信息熵的差值,根据所获信息增益的多少筛选有效特征,已成为机器学习领域应用较为广泛的特征选择方法。信息增益法计算公式可以表示为:

由于当特征数目较少时,使用该方法得到的数据稀疏,分类结果会不理想,因此本文首先对预处理后待分析的文本里出现的每个词计算其信息增益,设置一个阈值,抽取特征词,按照信息增益值降序选择特征项组成特征向量。

期望交叉熵[6](Expected Cross Entropy)反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。

词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。

期望交叉熵计算公式:

为了提供特征词抽取的时间效率,针对微博的数据量很大的特点,使用期望交叉熵和TF-IDF求方差的方法抽取情感特征词。

1.3文本情感识别与分类

采用基于朴素贝叶斯主客观句识别方法[7]和支持向量机的分类方法[8-11]对文本分类。朴素贝叶斯方法是一种基于事件概率简单而误差率较小的分类方法。基本原理是:在事件相对独立的条件下,事件A在事件B发生的条件下的概率且与事件B在事件A发生的条件下概率是不相同的。及文档A属于B i类概率表示为

系统应用思想:对有已知类别集合S(x1,x2,…,xn),求在待分类项出现的条件下,集合中各个类别出现的概率,哪个类别的概率值大,就认为待分类项属于那一类别。并将对每个特征项主客观句的条件概率计算结果输出,作为支持向量机分类器的输入值。

系统的工作流程图如图1所示。

二、实验分析

使用第二届自然语言处理与中文计算机会议所提供包含4000条已经标注是否含有情感色彩的中文微博语料,含有13252个句子,且主观句中又表明了所属具体情感类。情感类别分为7个类别,分别是:喜好、安乐、惊奇、厌恶、悲哀、愤恨和恐惧。

选择这些数据作为系统测评数据主要是与系统测试结果进行比较,核实评价实验结果的召回率(R),准确率(P),性能评价指标F值。求解公式如下所示:

系统将实验测评数据首先进行预处理,对其进行规范化、分词去除停用词、抽取情感特征,然后采用朴素贝叶斯方法,使用其公式计算结果来识别主观句,支持向量机方法先将抽取的特征词转换成向量形式,再将向量化后的文本放到向量机的模型中,最终输出分类结果。通过计算支持向量机的情感分类方法召回率达到74.4%,准确率高达63.76%,F值达到0.6534.

实验中采用准确率,召回率,F值测评指标,对常见的情感特征抽取方法[16]实验结果进行了对比,见表1,通过对比朴素贝叶斯和支持向量分类方法对主客观句的识别结果,得出结论:本实验中对主客观句的识别朴素贝叶斯方法比支持向量机方法的实验结果更好。因为支持向量机方法准确率虽更高,但召回率较低。

实验结果见表2。对已识别的主客观句,我们采用支持向量机的一对一的多步分类方法及一对其余的一次分类方法进行情感分类。

实验结果见表3。实验结果表明:一对一多步情感分类方法效果优于一对其余一次分类。因为一对其余分类方法可能出现重叠现象或因不可分类现象而引起数据集的抖动。因此实验最终选择支持向量机的一对一多步分类方法。

三、结语

微博作为网民在互联网主要活动之一,逐渐从各个方面影响着人们,网民带有情感的言论对各行各业都有着不可估量的使用价值。因而对微博文本的数据分析研究有一定的社会意义。

通过查阅文献发现基于朴素贝叶斯识别主客观句的方法及基于机器学习支持向量的方法有较高的精度。而由于针对中文微博的研究大部分是理论性的研究,因此本文通过构建系统,将基于朴素贝叶斯的识别主客观句个方法及支持向量机的方法的研究思路实践化。实验结果对企业、政府及广大网民均有重要的社会意义。

展望:

1.后期会打破仅在初步解决微博文本的情感识别和分类问题的研究,接下来会投入对用户的图片信息,链接的视频声音信息进行研究。

2.本文去除英文词语,采用的是人工标注方法。鉴于部分国人倾向于有使用英文的习惯,所以会不断的完善系统情感库,或设计系统能自动翻译,以此减少人工工作量。

参 考 文 献

[1] YANG Yuekui,DU Yajun,HAI Yufeng,et al.A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree[A],Asia Paciic Conference on Information Processing (APCIP 2009)[C].Washington DC:IEEE Computer Society,2009:420-423.

[2] 张彪.基于关联分析的文本分类特征选择算法[J].计算机工程.2010(22):184-186.

[3]谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2011,26(1):73-83.

[4] Dai Liuling,Huang Heyan,Chen Zhaoxiong.A Comparative Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing,2004,18(1)26-32.

[5] 李海瑞.基于信息增益和信息熵的特征词权重计算研究[D].重庆大学,2012.

[6] 廖一星.文本分类及其特征降维研究[D].浙江大学.2012

[7] 蒋良孝.朴素贝叶斯分类器及其改进算法研究[D].中国地质大学,2009

[8]杨鼎,阳爱民.一种基于情感词典和朴素贝叶斯的中文文本情感分类方法 [J].计算机应用研究,2010,27(10):3737-3739

[9]A.Basu,C.Watters,M.Shepherd.Support Vector Machines for Text Categorization.Proceedings of the 36 th Hawaii International Conference on System Sciences,2003.

[10]赵晖.支持向量机分类方法及其在文本分类中的应用研究[D].大连理工大学,2006.

[11]张博.基于SVM的中文观点句抽取.[D].北京.北京邮电大学,2011

[12]Youngjoong ko,Pjinwoo Park,Pjungyun Seo.Automatic Text CategorizationusingtheImportanceofSentence s[A].Proceedingofthe19thinternationalconferenceonComputationlinguistics[C],Taipei,Taiwan,2002:1-7.

[13] 韩忠明,张玉莎,张慧,等.有效的中文微博短文本倾向性分类算法[J].计算机应用与软件,2012,29(10):89-93.

篇4

[2]维基百科.新浪微博 [EB/OL].http:///zh-cn//新浪微博

[3]孙茂松,王洪君,李行健,等.信息处理用现代汉语分词词表[J].语言文字应用,2001,(4):23-28.

[4]ICTCLAS[EB/OL].http://.

[5]黄美璇.基于主题发现的舆情分析系统的设计与实现[J]. 北京联合大学学报,2012(2):34-36.

[6]唐果,陈宏刚.基于BBS热点主题发现的文本聚类方法[J].计算机工程,2010(7):79-81.

[7]蒲筱哥.Web自动文本分类技术研究综述[J].情报学报,2009(2):233-241.

友情链接