信息分类标准范文

时间:2023-08-12 08:25:21

引言:寻求写作上的突破?我们特意为您精选了12篇信息分类标准范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。

信息分类标准

篇1

1.1 学科大类设置不全,知识体系不完整

以中文雅虎(Yahoo)为例,它将网络信息分为14个宽泛的类目,每个大类又分出若干二级类,二级类目下细分出三级类目,可根据需要细分出四、五级类目。可以说,Yahoo采取的是一种逐层扩充的方法,以使知识的覆盖面越来越全。但是,从Yahoo分类每年都发生的明显变化和迅速增长的网络信息资源我们可以看到,仅仅设置这14个大类是难以涵盖人类社会生产生活的各个方面的。又如搜狐(sohu),将网络信息分为18个大类,网易(WWW.163.com)将网络信息分为19个大类,都有类似情况。总之,由于各种原因,现在的网站分类设置还不完善。知识覆盖不全,体系过于简单。几乎所有的中文搜索引擎的分类体系都存在着知识残缺不全、体系设计不完整的通病。

1.2 类目划分标准不够合理

信息资源在同一层次下划分的标准不够统一,有时出现两个或两个以上划分标准的现象。具体来讲,同一层次类目在选择上存在的问题有:一方面,网站为了突出当今的热门和主流信息,将一些下级类目提升到大类中,如大多数中文网站把“电脑网络”或“计算机与网络技术”与“科学技术”并列为大类;又如网易将“体育竞技”和“少儿乐园”放在大类中。另一方面,子类的设置的标准问题,如Yahoo的“科学”这一大类下设有“电脑与信息技术”、“活动”、“教育”、“科普”、“酷站”、“能源”、“字典”、“组织”等等的二级类目。此外,在大类的展开中常出现整体不包含局部的违反逻辑规则的现象。

1.3 各网站采用的分类标准不同,各行其是,导致了用户在使用时无所适从

以网络信息资源为基础建立类目体系,虽有较好的实用性,但类目划分的规律性不强,从而造成了各搜索引擎的分类不一致,体系也不太严密、科学,类名不规范,各个搜索引擎设立分类目录时力图突出的是自己的特色。

如新浪设立了“少儿搜索”大类,搜狐把“公司企业”单独列为一个大类,这就使得用户在使用时必须对某个搜索引擎的类目比较熟悉,否则当人工的分类有时与某些用户的习惯不一致时,会造成这些用户无法在正常的路径中找到资料。

1.4 类目名称设置不够规范合理,不能全面反映类目的内容,给用户查找易造成误解

类名有时不能确切地概括类目的内涵,有时只有象征意义。此外,由于类目的下位类范围较宽,上位类有时很难有效限定其含义,再加上网络自编分类体系一般不使用注释揭示类目内涵,容易使一些类目的含义和范围难以确定。

设置好类目名称关键是选好类日用词。很多网络分类体系中采用一些含义模糊的语词,而且没有注释,这就使用户很难判断该类目的外延。如“网易”的“另类科学”,“搜狐”的“生活情趣”等类名,如果没有注释,根本就无法明白该类的内容包括什么。

1.5 类目排列缺乏逻辑性

目前,中文网站总的来讲类目排列比较随意,外延常常有交叉重叠。几乎所有的中文搜索引擎的分类体系都存在着类目排列混乱的通病。如新浪、网易、搜狐、中华网在线等,都把“文学”与“艺术”、“电脑网络”与“科学技术”、“经济”与“文化”及“政治”等原本密切的大类,却人为地分割开来。又如网易对“文学”大类之下15个二级类目的排列,逻辑性不是很强。再如新浪对”文学”大类之下30个二级类目的排列,即便是按类目的使用频率或访问量序列排列,也使人感到排列次序不规律,不易查找。

1.6 从事网络信息分类组织的人员都大多是非专业的分类人员,缺乏专业知识

随着网络信息资源的迅速增长以及信息需求的不断加大,网站业务量也快速攀升,而建立一个优秀的中文搜索引擎是一项庞大复杂的系统工程,在技术、设备、人力、财力的投入上都有比较高的要求。因此,许多网站扩大了工作人员的招收数量和范围,与此同时,许多网站却忽视了引进有信息处理专业知识的人才,因此造成了许多诸如以上提到的网络信息分类组织方面的问题。

面对海量网络信息,其分类体系的诸多弊端为用户充分利用网络信息、开发共享网络资源带来严重困难。因此,构建规范合理的网络信息分类体系,实现网络信息分类组织标准化已是大势所趋。

2 国内有关学者的研究观点

从1998年开始,国内对网络信息分类组织的研究此起彼伏。其中,有许多学者表达了网络信息组织“标准化”的思想。如黄如花在文献1中指出要“信息描述标准化”;又如郑福根在文献2中认为网络信息组织的原则之一就是“标准化原则”;再如张林龙在文献3中指出“建立统一的网络信息分类标准成为网络信息分类组织的迫切需要”等等。此外,从近几年的研究成果来看,要编制一部适用于网络信息分类组织的分类法已具备了一定的理论基础,此说法可从刘延章、余义芳在文献4中对1998年~2002年这5年间160余篇有关网络信息分类组织研究的一些结果中略见一二。下面是文献4中的部分观点:

(1)关于网络信息、网络信息用户、网络信息技术环境特点方面的研究成果极大地提高了我们对网络信息分类检索工具的标引对象、使用对象、所处环境的认识,为编制高质量的网络信息分类法打下了认识基础。

(2)关于网络信息分类法与传统文献分类法方面的比较研究为我们借鉴二者各自的特点、编表的理论、方法和技术提供了便利,从而为编制高质量的网络信息分类法打下了理论基础。

(3)关于传统分类法应用于网络信息分类组织方面的研究虽然有助于传统分类法特别是《中图法》自身的调整和改造,使之适应于网络信息分类组织的需要,但也为更好地编制网络信息分类法打下了方法基础。

(4)关于现代技术应用于网络信息分类组织方面的研究为编制高质量的网络信息分类法奠定了坚实的技术基础。

(5)关于中文网络信息分类体系的特点、问题及其改进方面的研究对于编制高质量的网络信息分类法具有现实的借鉴意义。

(6)关于统一的中文网络信息分类法编制方面的研究对编制高质量的网络信息分类法奠定了扎实的基础。

从上述研究结果可以看出,我国编制一部高质量的网络信息分类法具备了一定的理论研究基础和技术实现条件,为实现网络信息分类组织标准化提供了强有力的保障。

3 对网络信息组织标准化的构想

通过以上分析,要实现网络信息组织标准化,编制一部适于网络信息组织的《分类法》是非常紧迫,也是切实可行的。但网络环境下的信息分类体系与传统文献分类体系相比存在着许多差异:①网络分类是以事物为中心,而不是以学科为中心列类;②网络信息分类是以网络资源为分类的基本对象,类目收录对象的范围更广;③采用了更多的信息技术;④直接采用语词进行信息标引;⑤传统分类是以线性方式展开类目,而网络分类是以网状方式进行超文本链接;⑥更新速度快。因此,编制网络信息分类法应考虑以下两大方面。

3.1 宏观构想

编制网络信息分类法,实现网络信息组织标准化,应体现以下主要原则:

(1)科学性原则。网络信息分类法应结合网络信息资源的特点,在充分揭示各学科之间内在联系和相互关系的基础上,将学科分类与事物分类相结合,构建一套科学合理的网络分类体系。

(2)继承性原则。网络信息分类法应吸收传统分类法的精华,吸收目前各中文网站分类体系的优点,结合现代信息技术来共同建造。对传统的东西不能全盘抛弃,也不能全盘吸收,应在吸收借鉴的基础上有所创新,有所发展。

(3)动态性原则。由于互联网是一个多元、开放的信息系统,因此,网络信息资源具有范围广、数量大、动态性强的特点。这就要求网络信息分类也要随着互联网内容的变化及时调整,使各种类型的网络信息资源都能在分类法中找到自己的位置。

(4)实用性原则。网络信息分类法应考虑网络环境下用户需求的特点。在类目的设置上,既要体现分类体系的相对稳定性,又要方便用户快速查询。类目数量控制在20~25个,类目层次展开至3~4级为宜。

(5)多维性原则。传统分类法以线性方式揭示文献信息内容,而网络信息分类法要尽可能全面而深入地揭示网络信息的内容和形式,多层次、多途径、全方位、多角度地进行信息揭示和描述,用超文本链接技术,变线性方式为网状方式,构建新型网络信息分类体系。

(6)开放性原则。网络信息分类体系具有相对的稳定性,但网络信息资源的开放性和动态性决定了网络分类体系也要随时增添新的内容。同时,不断吸收新思想、新技术,进一步满足和适应社会以及科技发展的需要。

3.2 微观构想

根据上述对网络信息分类法宏观构想原则,结合传统分类法和现有网络信息分类体系的研究成果,笔者针对网络信息资源中的一类资源——综合性网站的框架构建了5大板块,对其中内容相对稳定的休闲娱乐、社会科学、自然科学和综合信息四大板快设计了22个一级类目。该分类体系以主题为主要聚类标准,充分体现网络信息组织分类——主题一体化思想。具体如下:

一级类目

热门追踪板块:考研 聊天室 游戏 同学录 人物 明星 下载专区 招聘 彩票 动漫 flash......

休闲娱乐板块:新闻与媒体 娱乐与休闲 体育与健康 旅游与交通 生活与服务

社会科学板块:社会文化 哲学与宗教 政治与法律 军事与战争 经济与金融 教育与就业 人文与艺术 历史与地理

自然科学板块:自然科学 医疗与卫生 农业科学 计算机与网络 工程技术 环境科学

综合信息板块:国家与地区 参考资料 综合网站

上述各板块中,热门追踪板块内容不固定,根据网上热点话题的变化而变化,其余四个板块的内容相对稳定,即休闲娱乐板块包括5个一级类目;社会科学板块包括8个一级类目;自然科学板块包括6个一级类目;综合信息板块包括3个一级类目。

Internet是一个开放、动态的网络体系,对其分类体系的构建,实现网络信息分类组织标准化是一个逐步完善的过程。本文所探讨的分类体系也需要进一步细化和发展,相信经过不断的努力和实践,实现网络信息分类组织标准化的这一天不会太晚。

参考文献

1 黄如花.网络信息组织的发展趋势.中国图书馆学报,2003(4)

2 郑福根.网络信息组织的理论与方法探讨.现代情报,2004(6)

3 张林龙.网络环境下的信息组织.情报杂志,2003(10)

4 刘延章,余义芳.近五年来网络信息分类组织研究的现状及其展望.情报学报,2004(4)

5 王知津,肖洪.网络信息组织对传统信息组织的借鉴.图书馆工作与研究,2003(4)

6 陈树年.搜索引擎及网络信息资源的分类组织.图书情报工作,2000(4)

7 董琳.网络信息分类组织的发展趋势与标准化.图书情报知识,2004(4)

8 王本欣.网络信息资源组织研究.图书馆学研究,2004(5).

9 宋剑祥.从国外分类法看《中图法》对网络信息资源的组织.图书与情报,2004(2)

篇2

1信息安全标准体系分类现状

1.1信息安全国际标准现状及分类体系

1.1.1美国国防部信息安全标准体系

美国国防部(DoD)将美军信息安全标准按安全部件与安全功能相结合的方法进行分类,其标准体系见图1,其中安全部件以信息流为主线贯穿始终,分为信息处理安全标准、信息传输安全标准、信息理解表示安全标准、安全管理标准和安全环境标准五类。安全功能从信息安全的基本要素(机密性、完整性、可用性、可控性、抗抵赖性)来进行划分,分为鉴别安全服务标准、访问控制安全服务标准、保密性安全服务标准、完整性安全服务标准、抗抵赖性安全服务标准和可用性安全服务标准六类。DoD的信息安全标准体系,虽然覆盖全面,但安全部件和安全功能之间的标准交叉重复比较多,层次不够清晰。

1.1.2联合技术参考模型(JTA 6.0)

JTA 6.0中的信息安全标准体系为实现对国防部信息系统的安全防护提供了支撑,包括(本地)计算环境、飞地边界、网络和基础设施、支撑性基础设施和安全评估五类标准。这种分类比较合理,但分类下面对应的标准大部分是国际标准和美国国家标准,因此,应在借鉴该分类的基础上,针对目前我国已有的国家标准,建立起合理的标准体系。

ISO信息安全工作组分类如图3所示。目前,ISO制定的信息安全标准按照工作组的分类分为信息安全管理体系(ISMS)标准、密码和安全机制、安全评价准则、安全控制与服务和身份管理与隐私技术五类。该分类方法比较粗糙,对于建立安全运行的信息系统,针对性不太强。

1.1.4国际电信联盟(ITU-T)标准

ITU-T SG17组负责研究网络安全标准,包括通信安全项目、安全架构和框架、计算安全、安全管理、用于安全的生物测定、安全通信服务,如图4所示该分类方法对信息安全技术分类比较粗糙,信息安全技术也只侧重于通信安全。

ITU-T颁布的比较有影响力的安全标准主要有:消息处理系统(X.400系列)、目录系统(X.500系列)、安全框架和模型(X.800系列)等,其中的X.509标准是PKI的重要基础标准,X.805是端到端通信安全的重要标准。

目前,ITU-T在安全标准化方面主要关注NGN安全、IPTV安全、身份管理(IDM)、数字版权管理(DRM)、生物认证、反垃圾信息等热点问题。

1.2国家信息安全标准体系

我国国家信息安全标准自1995年开始制定,至2002年共制定标准19项,全部由国际标准直接转化而来,主要是有关密码和评估的标准。在这19项中,2004年后已有12项进行了修订。自全国信息安全标准化技术委员会2004年成立以来至目前我国实际现存正式信息安全标准87项,这些标准中,既包括技术标准,如产品和系统(网络)标准,亦包括管理标准,如风险管理标准等,覆盖了当前信息安全主要需求领域。

由此可见,目前我国信息安全标准的制定工作已经取得了长足的进展,标准的数量和质量都有了很大的提升,本着“科学、合理、系统、适用”的原则,在充分借鉴和吸收国际先进信息安全技术标准化成果和认真梳理我国信息安全标准的基础上,经过全国信息安全标准化技术委员会各工作组的认真研究,初步形成了我国信息安全标准体系。该标准体系分类相对合理、全面,涵盖了体系结构、安全保密技术、安全管理和安全测评等方面的标准,但庞大繁杂的标准体系常常让开发人员无所适从,无法选取需要遵循的标准。因此,针对信息安全系统的开发工作要进一步精简标准体系,突出重点,尤其是影响系统集成方面的安全接口标准,进而增强各个安全组件之间的互操作和安全技术间的协作,提升整个信息系统的安全防护能力。

支撑性基础设施主要涉及到实现通信与网络、应用环境和数据安全所应用的支撑性技术,包括认证、授权、访问控制、公钥基础设施(PKI)和密码管理基础设施(KMI)。

通信与网络安全主要体现在网络方面的安全性,包括网络层身份认证、网络资源的访问控制、数据传输的保密与完整性、远程接入的安全、域名系统的安全、路由系统的安全、入侵检测的手段、网络设施防病毒等。

应用环境安全主要包括终端安全和应用系统安全。其中:

终端安全主要包括计算机和服务器的安全。其中服务器可以归结为广义上的终端,防火墙、IDS、服务器存储备份等技术可以为服务器提供安全服务。

应用系统的安全问题主要来自网络内使用的操作系统和数据库的安全,操作系统安全主要表现在三个方面:(1)操作系统本身的缺陷带来的不安全因素,主要包括身份认证、访问控制、系统漏洞等;(2)对操作系统的安全配置问题;(3)病毒对操作系统形成的威胁。数据库系统的威胁主要来自:非法访问数据库信息;恶意破坏数据库或未经授权非法修改数据库数据;用户通过网络进行数据库访问时受到各种攻击,如搭线窃听等。

系统中的数据是系统运行的核心,数据的安全性保障关系到整个系统能否正常运行和服务。数据安全通过数据容灾备份技术、网络隔离技术和加密技术保障数据的完整性、不受损坏、不被窃取。数据容灾备份主要通过对系统、数据、文件等进行快速、完整备份,保证数据的安全性,并支持快速恢复的机制。网络隔离技术主要通过隔离网络攻击来确保网间数据的安全交换。数据加密主要通过链路加密和节点加密来确保数据不被截获。

安全运维管理是在企业进行了一定的安全系统建设之后的工作,其目的是保证所应有的安全产品和技术能够真正、充分发挥其预期应有的效果和效率。安全运维管理包括安全设备的策略配置、安全测评、安全监控和审计、安全应急响应等方面的技术,主要完成安全风险的实时监控和安全问题的处理等系统安全保障工作。

3信息安全标准分类体系

信息安全技术参考模型是建立信息安全标准体系的基础和前提,只有在信息安全技术发展趋势的基础上建立起覆盖全面,分类合理的标准体系,才能科学地预见需要制/修订的标准,进一步明确信息安全标准化的研究方向,更好地支撑信息安全系统的开发和集成,确

保系统内部和系统之间形成安全可信的互连互通互操作。在前面提出的技术参考模型的基础上,进一步对信息安全标准体系进行了划分。 应用环境安全主要包括终端安全和应用系统安全。其中:

终端安全主要包括计算机和服务器的安全。其中服务器可以归结为广义上的终端,防火墙、IDS、服务器存储备份等技术可以为服务器提供安全服务。

应用系统的安全问题主要来自网络内使用的操作系统和数据库的安全,操作系统安全主要表现在三个方面:(1)操作系统本身的缺陷带来的不安全因素,主要包括身份认证、访问控制、系统漏洞等;(2)对操作系统的安全配置问题;(3)病毒对操作系统形成的威胁。数据库系统的威胁主要来自:非法访问数据库信息;恶意破坏数据库或未经授权非法修改数据库数据;用户通过网络进行数据库访问时受到各种攻击,如搭线窃听等。

系统中的数据是系统运行的核心,数据的安全性保障关系到整个系统能否正常运行和服务。数据安全通过数据容灾备份技术、网络隔离技术和加密技术保障数据的完整性、不受损坏、不被窃取。数据容灾备份主要通过对系统、数据、文件等进行快速、完整备份,保证数据的安全性,并支持快速恢复的机制。网络隔离技术主要通过隔离网络攻击来确保网间数据的安全交换。数据加密主要通过链路加密和节点加密来确保数据不被截获。

篇3

一、引言

XBRL自1998年由美国注册会计师Hoffman提出思想框架以来,XBRL在国际上已经获得了迅速发展,多个国家、机构及组织已经实施或正在推行XBRL的应用。分类标准的制定对于 XBRL 财务报告的披露起着规范与模板的作用,其质量直接影响着财务报告信息质量。关于分类标准中标准元素是否能满足上市公司披露需求和是否能有效率地表达财务信息一直是分类标准制定者、XBRL财务报告报送主体、信息披露监管者、信息披露中介乃至投资者都关注的问题,同时也是学术界关注的问题。基于上述的问题,本文主要从完备性和效率性方面对分类标准进行研究。

二、样本选择

本文采取了抽样研究的方法,抽样的总体是2011年上交所所有的A股上市公司。按照10%的抽样比例,以10为步长进行系统抽样。依据中国证监会《上市公司行业分类指引2001》所列的13个行业门类,剔除金融类企业,最终得到本文的93个样本。本文选取货币型财务信息,是因为货币型财务信息为财务报告最基本、最核心的信息,规范易于企业填报而较少出现歧义。并且,大多数企业按照统一规范表格填制财务报表正文,对于正文内容研究意义不大,因此本文仅选取财务报表附注中货币型财务信息作为研究对象。

通用分类标准采用财政部2010年的《企业会计准则通用分类标准》。该标准共计元素2984个,分为13种元素类型。在XBRL报表中表达货币型财务信息的元素是由货币型和Member型元素组成。在1464个货币类型元素和301个Member型元素中,剔除非报表附注元素、金融相关行业元素及首次执行会计准则企业元素。其余元素中,剔除单独列示在财务报表中的元素,得到本文研究对象元素,即非金融行业的附注货币型元素903个,Member型元素300个。

三、研究方法

本文采用人工翻阅公司年报,提取货币型财务信息并与分类标准元素逐一匹配的方法。本文收集了这93家样本公司2011年财务报告附注中的84个报告子项目的披露的货币型财务信息,根据财政部2010年的XBRL通用分类标准对具体披露内容进行判断匹配,匹配成功记为1分值。

四、研究结果

(一)效率性

分类标准的效率性即制定的元素冗余最小,是指分类标准应该在尽量满足企业对于财务信息披露需求的前提下,减少分类标准中的低使用率元素和关系(冗余元素),提高元素使用率。

研究结果表明,企业使用通用分类表中元素总数为1057个,其中Member型元素246个,占分类标准中元素的82%;货币型元素811个,占分类标准中的89.81%。通用分类标准元素制定在效率性方面较好,整体使用率为87.86%。

(二)完备性

分类标准的完备性是指标准体系中所含元素应尽量全面,能覆盖企业对于财务信息披露的所有需求。完备性不足体现在企业报表中披露的财务信息无法在分类标准中找到对应的元素,即分类标准中制定的元素存在不足。

企业因实际需要未能在通用分类标准中找到对应元素而进行元素扩展,共扩展标准未定义元素1145个。整体扩展率(扩展率=扩展元素/总元素集合)为48.76%,其中Member型元素扩展率为54.55%,货币型元素扩展率为46.50%。结果表明,通用分类标准的完备性方面还有很大的改善空间。

五、结论

通过实证研究方法,从通用分类标准元素完备性与效率性两方面,探究通用分类标准是否能满足企业信息披露需求。整体而言,现有通用分类标准元素制定效果在效率性方面较好,但在完备性方面较欠缺,存在本文提到的元素冗余与元素不足的问题。一方面,超过十分之一的元素从未被采用,另一方面,企业需要外扩展更多的通用分类标准未定义元素来满足自身信息披露的需求。通用分类表中在完善过程中应补充不足的元素以提高完备性,同时应剔除冗余元素从而提高效率性,更好地满足企业信息披露的需求。

参考文献

[1]张天西.网络财务报告:XBRL 标准的理论基础研究[J].会计研究,2006(9):56-63.

篇4

据不完全统计,目前已开发的中文网络信息分类法已有282种之多,而各种自编的网络信息分类法都存在着这样或那样的问题。分析存在的缺陷,提出完善的措施,是网络信息分类法标准化研究的重要内容。而研究网络信息分类法的标准化,对于提高各种自编网络信息分类法的质量,进而编制全国统一的网络信息分类法,优化网络信息分类组织,实现网络信息资源的共建共享,是会大有补益的。

一、网络信息分类法的缺陷

1.知识覆盖不全

几乎所有的网络信息分类法的分类体系都存在着知识残缺不全、体系设计粗略的通病。就拿全球百强中文网站前5名的新浪(省略)、Yahoo中文(cn.省略)、网易(省略)、搜狐(省略)、TOM・COM(search.省略)的分类体系来说,不是未列自然科学,就是未设社会科学。又如中华网(search.省略)、263在线(search.省略)名捕(省略)、搜星(省略)等的分类体系,也是既未列自然科学,也未列社会科学。

2.归类不够科学

许多网络信息分类法的分类体系,未能严格地按照类目的内涵和外延进行科学地归属类目。如搜狐的分类体系把“图书馆”归入“教育”大类,又在“文学”大类中作为交替类目列出,把“”归入“艺术”大类等。再如搜豹(省略)的分类体系把“农业”、“教育”、“地理学”、“历史”、“图书馆”、“理工院校”等归入“自然科学”。总之,归类不当的现象在网络信息分类法系统中比比皆是。

在网络信息分类体系中,划分失误的现象也是很多的,主要表现为:①划分过宽。如雅虎分类体系的“科学”大类,划分出的“地理学”、“教育”、“历史”、“图书馆”、“心理学”等。②划分过窄。如联合搜索(省略)“社会科学”大类,只列举了“哲学”、“政治学”和“法学”,未列“经济学”、“历史”、“地理”、“军事”等。③划分出子类的级别过高或过低。如智星酷搜(search.省略)的分类体系把“三个代表”、“周易”等与“哲学”等类并列,同属“社会科学”大类之下的二级类目,前两者则属级别过高之类。④划分出的子类相互包容。如上两例中的“哲学”包括“周易”、“三个代表”,“自然科学”包含“物理学”、“化学”和“数学”。

3.类目排列随意

几乎所有的网络信息分类法的分类体系都存在着类目排列混乱的通病。如新浪、网易、中华网、木子网(中文)、263在线等的分类体系,都把“文学”与“艺术”、“电脑网络”与“科学技术”、“经济”与“文化”及“政治”等原本密切的大类,却人为地分割开来。

有的网络信息分类法的分类类目之间界限模糊。如网易分类体系中新增的“行业分类”大类与原有的“公司企业”大类,外延多有交叉重叠,因为后者也是按行业划分的。

4.大纲缺乏稳定

有的网络信息分类法的分类大纲改变太大,使人难以把握。如亦凡搜索分类体系,原有大类10个,后又增补2个,共计12个;搜狐分类体系的大类数目及类名虽未改变,但首页与分类搜索界面上的大类排序却大相径庭;特别是木子网(中文)的分类体系,首页分类大纲的类名与点击后界面上的类名迥然不同;如把“娱乐与明星”改为“娱乐与影视”、把“艺术与表演”改为“艺术与建筑”、把“社会与历史”改为“社会与人物”、把“科学与技术”改为“科学与研究”、等。5.类名有失规范

网络信息分类法在其分类体系中采用了广大网民所喜闻乐见的俗称、简称、惯称等自然语言,诸如媒体、影视、环保、婚恋、高校、求职、、黑客、电脑、IT业等,这是无可厚非的。但有些类名缺乏范化处理,类下又无必要的注释,容易增加网民的知识负担,如名捕分类体系中的“说天说地”、“美眉写真”,天网搜索分类体系中的“嗜好”、“残障”、“讨论话题”,百度(ix.省略)分类体系中的“一见钟情”等。

二、网络信息分类法的完善

1.知识覆盖的全面性

知识覆盖面全是标准化的网络信息分类法的至关重要条件。它要求在其分类大纲及其层次展开的设计上都要体现出知识的全面性,其知识范围要涵盖所有的主题、学科、行业、产品等,即人类的全部知识领域和各种知识需求;其信息类型要包括所有的政府信息、事业信息、企业信息、社会信息等,即人类的全部活动所产生的文本、图形、图像、音频、视频等信息。一般来说,收集网站信息越多,概括出的类目就越多,分类体系的知识覆盖就越全面,所以说,尽可能地收集网站信息,是编制高质量的网络信息分类法的关键。目前的人工智能技术、自然语言理解技术、自动索引技术、数据库技术等,能够快速地把网络信息进行过滤、筛选、整序、建库,把新数据加入到自己的索引库中。

2.体系结构的完备性

标准化的网络信息分类法,体系结构应包括分类大纲、主类表、从类表、类目注释、类目索引、后控制词表、使用指南等。分类大纲是网络信息分类法进一步划分的基础,也是广大网民查询网上信息的起点,它直接影响着网络信息分类法的性能和质量,因此说,编制好分类大纲是至关重要的。分类大纲的一级类目以20-30个为宜。分类大纲中的类目数太少会造成覆盖不全,很多网站信息无类可归;太多会造成主题分散,也容易产生空头类目。主类目是由分类大纲展开的全部类目组成的网络信息分类法的主体。分类大纲展开的层次以4-6级为宜,如果太少会影响类目体系的清晰度,增加网民选择的负担;太多则会增加点击屏数,影响检索效率。目前多数自编的网络信息分类法都不设置类目注释、类目索引、后控制词表、使用指南等,但作为标准化的综合性的网络信息分类法而言,是不能缺无的。

3.类目组织的科学性

类目组织的是否科学是标准化的网络信息分类法一个重要标志。这就要求:在组织具有纵向关系的类目时,应尽可能体现出类目之间的从属等级关系,以便鸟瞰全貌,进行缩检和扩检;在组织具有横向关系的类目时,应尽可能体现出类目之间的并列相关关系,以便触类旁通,进行转向检索和相关检索。我们认为,不论是具有纵向关系还是具有横向关系的类目,应按类目之间固有的自然次序来组织,对于点击频率高、信息量大的热点类目和重点类目可越级提升,但必须在以不破坏原有的分类体系为条件。对于类目众多的同位类来说,可采取多重列类、分面列类及类组的形式来组织,在不适合采用上述方法组织时,也可按照汉语拼音顺序来排列。

4.基本类目的稳定性

基本类目是否稳定是衡量网络信息分类法是否成熟的一个重要标志。当然它不能像传统分类法那样体系僵化,很难适应科学技术和社会发展的需要。它需要及时维护,因为网络信息是以节点为中心的分布式的开放信息系统,不论是一个网站还是一个网页,每时每刻都处于变化之中,随时都要将产生的信息加进分类系统中去,把陈旧过时的信息剔除出去,删去无效的链接。标准化的网络信息分类法,要求基本类目(即分类法中一级类目和二级类目共同构成的类目体系)的数量、类名及其次序一旦确定,必须保持一定的稳定性,不能随意改动。但其基本类目以下的各级类目,可及时进行增、删、改,以适应组织动态信息的需要。

5.类目名称的通用性

类目是指具有某种共同属性的信息的集合性概念,而类名则是指表达类目这一概念的词语,因此类名规定着类目的内涵和外延,也因此类名就成为网民利用分类系统查询网络信息的入口词。因此,它必须作到通用、准确和精练,使网民能望名生义,不至于举棋不定,犹豫不决。目前各种自编的网络信息分类法使用的多是自然语言,如电脑网络、农工贸、科技、文教、家电等广大网民所喜闻乐见的俗称、简称、惯称等。但有些自然语言作类名使人费解,如精品世界、男左女右、黄页、酷站等,必须借助于类目注释、后控制词表等形式才能明确所涵盖的知识范围。总之,标准化的网络信息分类法,其类名必须达到上述要求,并使其规范化,是不能像目前有的网络信息分类法那样。

6.用户界面的友好性

标准化的网络信息分类法,对用户界面的要求主要是:①类目清晰。不同级别的类目应采取不同的版面形式,类目与其相关的网站信息也应采取不同的版面形式,使网民一目了然。②路径明确。网络信息分类法要在所有用户界面中设置路径指示标,用以指明网民查找的途径及其网站数,以明确网民自己所处的位置。③跳转便捷。网民可能从用户界面上所显示出的各种入口进行检索或转向检索,编制用户界面时应采用链接技术,使逆向检索或转向检索更方便。④帮助切实。网络信息分类法应在所有的用户界面中设置帮助系统。帮助系统不能只介绍一般的常识和检索方法,而应把检索中可能遇到的问题及其解决方法制成文件,以便切中要害,给予切实的帮助。

7.检索功能的齐全性

标准化的网络信息分类法,具有以下功能:

组织信息的功能:标准化的网络信息分类法应具有组织各学科知识、各种产品知识、各类型信息、各领域信息的功能。凡是通过ICP/IP协议在全世界计算机网络、网站、网页上的信息都能组织起来,从而提高网络信息分类法的检全率。

过滤信息的功能:网络信息分类法应具有过滤信息的功能,通过使用的分类体系并对上述信息进行标引,把一些无价值、质量不高、盲链接的信息摈除在要建的数据库之外,从而提高数据库的质量,也提高了网络信息分类法的检准率。检索信息的功能:标准化的网络信息分类法应具有多途径检索信息的功能,不但可以通过主分类体系检索,还可以通过从分类体系检索;不但可以通过正式类目进行检索,还可以通过交替类目、镜像类目、热门类目及相关链接进行检索;不但可以通过主题、专题、学科、专业进行检索,还可以通过地区、机构、人物、形态、时间、信息类型、网页等角度进行检索;不但可以通过菜单进行检索,还可通过在同一界面上的检索框内键入关键词进行检索等等。

作者单位:信阳师范学院图书馆

参考文献

[1]余义芳・中文搜索引擎分类体系存在的问题及对传统分类法的借鉴[J]・图书与情报,2004,(3):52-54.

篇5

信息分类法具有两种含义。其一是指信息分类的方法和技术,依据逻辑分类原理和对象的特征对特定文献进行系统揭示和组织的一种方法和手段,包括通过信息分类建立分类检索系统和检索工具;其二是指由许多类目根据一定的原则组织起来的分类体系,并用标一记符号来代表各级类目和固定其先后次序,主要由分类表及分类规则两部分组成。信息分类法的主要表现形式是分类表。此处讨论的是信息分类法的第二种含义,强调它是一种依据。

1. 档案信息分类

分类是使档案及其信息条理化、系统化的必由之路。档案分类在中国有很长的历史,由简单到复杂、由直观到抽象,但是一直以档案实体分类为核心。随着社会实践活动的丰富化、社会分工的细化,档案数量越来越多、门类越来越细,对实体的单一分类已经不能满足人们对档案信息的多角度需求,在这种需求不断上升的情况下,档案信息分类孕育而生。

档案信息分类并不是对档案的原始载体进行分类,而是对依附在载体上的原始信息进行分类。对档案原始载体的科学有效分类最大限度的保留了档案的原始记录性,使实体有序化和系统化,但是实体分类只是一种管理手段,管理的最终目的是为了满足人们对档案的利用需求,即对档案信息的需求。黝因此,需要针对档案信息开展信息分类工作。这一过程具体是在编制档案检索工具的时候进行的,通过对档案文件的著录、标引,然后将形成的条目按一定的分类规则组织起来,分类目录即是信息分类的成果。

2. 档案信息分类标准

检索问题一直是档案工作现代化的核心问题,而一个好的检索系统的基础是存储库内容的组织,即每一件材料的编码,库存的排列。档案信息检索并不是直接检索实体档案,而是档案著录、标引后形成的一个个条目。档案标引以及这些这些条目的排列都需要规则、一个通用的标准,即档案信息分类标准。它的制订,是为了建立全国统一的档案检索体系,有利于实现档案分类检索方法的标准化,这不仅是档案工作标准化的关键内容,“也是实现档案管理和检索利用现代化的必要条件。”

档案信息分类标准又可称为档案信息分类法,它体现的是一种文献的分类体系,就是表达一系列概括档案内容与事物的概念及其相互之间关系的概念标识系统,运用概念限定与概念划分的原理,将概括档案内容与事物的各种类目组成一个纵向层层隶属、横向并列列举的等级结构,既体现类目的从属关系,又体现类目的并列关系。传统的文献信息分类标准都是采用体系分类法。

3. 《中国档案分类法》的功能分析

《中国档案分类法》是我国唯一一部全国统一使用的档案信息分类标准。随着国家档案管理现代化设想的实施,档案工作标准化这一基础建设成为重点工作。《中国档案分类法》编制的主要任务是“探寻我国档案信息资源内在有的有机联系,以此建立档案信息的分类体系,并根据这一种分类体系确定每一件、卷档案所记述信息的相对位置。在实际工作中则主要体现为对档案进行分类标引、组织分类目录、建立目录、咨询中心。”U这个过程即是使用分类检索语言编制分类检索工具,实现检索目的。具体说来,就是先将档案信息按内容性质的不同予以系统化、条理化的处理,并借用《中国档案分类法》进行描述,使档案材料获得分类标识,形成分类目录,然后通过对集中在分类目录中的信息的不同类别的辨认、比较,将所需的信息查找出来。

《中国档案分类法》主要用于档案分类标引,编制分类目录,实现档案信息的分类与检索。分类目录是检索型目录的主要形式,它的特点是系统性和严密性。它打破了全宗、案卷等馆藏结构的限制,提供了一个更为广泛的检索范围,而且分类目录按类目的逻辑次序,从总到分,形成严密地号码标识体系。一般情况下,采用卡片的格式来编排分类目录,将分类号相同的卡片条目集中在一起,依照分类号码的顺序排列,构成分类目录体系,检索的时候按类目逐级查找。

4. 《中国档案分类法》存在的问题

4.1类目体系不够清晰,应变性不好

《中国档案分类法》是一种档案检索语言,由语汇和语法组成,即一个个的分类类目及其之间的相同、相关、等级关系组成。这些类目按固定的顺序组织排成一个树型结构,较好地反映了类目之间的纵向关系,但是类目之间相互交叉渗透的横向关系却得不到完善的表达,事物本身所存在的多方面联系与体系分类法的单线排列之间产生了矛盾。成千上万的类目,有些相互关联,有些彼此相似,有些名异实同,人们在使用分类表时,很难清楚的分辨这些类目具体在什么位置,它们之间又存在着怎样的关系,甚至根本就不知道它们的存在,这将花费分类人员大量的时间去查找、分析和研究,刁一能做出确切的判断。

4.2类目设置固定,缺乏弹性

分类体系是一个具有内在联系的逻辑系统,这个系统包容的是现有的及将要产生的一切档案文献。它必须充分考虑档案信息分类的特点、档案信息集中的程度以及档案分类检索效率。这就要求分类法的类目设置既要保持相对的稳定性,毙够容纳历史文献;又必须充分体现一定的动态性,能及时地反映新事物,与档案文献的发展相协调。

4.3分类体系的浏览、检索入口单一

体系分类法是层层隶属的树形结构,具有很好的导航功能,但是也存在缺陷。分类表是由10万个类目组成的庞大系统,这种分类体系的熟悉需要时间,如果要检索较低级位的类目,必须要从一级类目入口,按等级顺序查找所要类目,这种线性结构虽有较高的检准率,却降低了使用效率和便捷度,影响用户对分类检索的忠诚度。分类表较为单纯,只提供一个检索入口,用户只能从按照职能划分的基本大类入手,抽丝剥茧,找到档案信息所包含的主题概念,而且这种单程线性的关系不能一次性检索到所有相关主题概念,从而在查找过程中加大分析了主题与类目匹配分析的工作量。

5. 《中国档案分类法》的发展趋势

随着计算机技术、网络技术与存储技术的高速发展及其广泛应用,档案信息的处理、组织、存储过程将走向自动化。档案信息的表达与研究同现代信息技术的应用相结合,使得整个信息系统越发智能化,概念、词语、事物这些因子连接起来形成一个多维、网状的信息组织结构,完成对浩繁芜杂的档案信息的过滤与寻航。分类法的设计是整个信息服务的一个重要环节,它的未来发展方向决定了档案信息的组织与利用。

篇6

[分类号]G257 C931.6

1 引 言

好的网站信息分类体系对用户、设计者、管理者和维护者都有利。由于网站信息分类体系往往有不一致、冗余等特点,因此需要调整、优化网站信息分类体系。优化网站信息分类体系时,方法是关键,但目前对网站信息分类体系优化方法的研究还很少。

网站信息分类体系优化是对网站现有信息分类体系进行调整的过程。优化网站信息分类体系时,涉及到聚类标准、大类设置、分类体系展开层次、类目种类、类目名称、类目的均衡性和规律性、交叉关系的处理、类目排列、类目的注释和说明、用户的界面设计等内容。这些内容可以概括为特征、粒度、命名、结构、实现等要素。

考虑到网站信息分类体系和网站信息构建(Infor-mation Architecture,n)、网站开发关系密切,本文结合网站IA和网站开发方法提出了网站信息分类体系优化方法,并应用该方法对国家林业局网站进行了优化分析。

2 网站信息分类体系优化方法

网站IA包含了组织、标识、导航和检索系统。网站信息分类体系是网站组织信息的手段,可以视为网站IA的组成部分。网站IA方法对网站信息分类体系优化方法有借鉴意义。学者们提出了众多网站IA方法,虽然这些方法之间存在着差异,但它们均涉及到了分析、设计、实施(即实现)、评价等工作。网站开发也往往涉及到分析、设计、实现、测试(即评价)等工作。网站IA和网站开发方法中的评价工作主要是评价所实现的新系统,因此评价工作被设定在设计、实现等工作之后。

2.1 优化步骤

参照网站IA和网站开发的一般步骤,本文将网站信息分类体系优化工作也分为分析、评价、设计、实现等阶段。为了提高网站信息分类体系优化工作的效率,本文将评价工作设定在设计、实现等工作之前,从而提出一个在设计、实现等工作之后也可以进行评价优化的信息分类体系。于是,网站信息分类体系优化时可能存在着循环、反复。本文所提出的网站信息分类体系优化方法流程如图1所示:

2.2 优化阶段

优化网站信息分类体系时,分析阶段从特征、粒度(层次)、命名、结构等要素的正确性、适量性、可理解性、相关性、一致性等方面完成对现有信息分类体系的分析;评价阶段完成对网站现有信息分类体系质量的评估,并根据评价结果决定是否需要优化网站现有信息分类体系;按照优化内容的不同,设计阶段可以分为特征优化、粒度优化、命名优化、结构优化等环节;这些环节依次优化现有信息分类体系的分类特征、粒度关系、类别名称、类别间关系;实现阶段的任务是根据设计方案调整网站现有信息分类体系,并描述、说明优化后的体系。

2.3 优化方法

网站信息分类体系优化时,可以借鉴已有方法来完成网站信息分类体系的分析、评价和实现工作。本文借鉴文献中网站信息分类体系的质量框架来分析现有信息分类体系,用文献提出的指标体系来评价网站信息分类体系质量,用网站设计方法来实现网站信息分类体系的调整和描述。于是,本文中网站信息分类体系优化工作的关键挑战是找到设计阶段征优化、粒度优化、命名优化和结构优化等方法。

特征优化的任务是选择最合适的特征组合,可以采用自顶向下方法优化特征。自顶向下特征优化方法是在分类模式的基础上确定候选特征集合,再按照特征覆盖度大小筛选出所需的特征,并对特征进行细微调整得到特征组合;粒度优化时,需要判断粒度粗细是否合适、不同元素间的粒度是否均衡、粒子内部元素之间聚合度高不高,可以使用粗粒度优先方法优化粒度。粗粒度优先的粒度优化是指直接使用最粗的粒度关系或者基于相似度对较细的粒度进行合并、调整;为了保证用户熟悉类别名称,命名优化时要尽量使用通用的词语来命名类别,可以采用基于统计的命名优化方法。基于统计的命名优化是指用统计方法选择出现频率高的现有体系或同类网站中词语来命名类别。命名优化的任务还包括对错误类目名称的调整;结构优化方面往往采用自底向上逐层结构优化方法来优化结构,即在确定网站信息分类体系的层数的基础上,从最细粒度开始到最粗粒度根据类别之间的隶属关系、类别的重要性确定类别的位置。

3 应用上述方法优化国家林业局网站现有信息分类体系

表1是国家林业局网站(forestry.省略)“生态建设”部分现有信息分类体系:

分析上述信息分类体系,可以发现它有以下特点:

・类别偏多。国家林业局网站现有信息分类体系1层所包含的第4层或第3层(没有第4层时)的类别总数为307,而我国中央政府门户网站(省略)和国家农业部网站(agi.省略)1层所包含的类别总量分别只有79和78。

・层数偏多而且不均衡。国家林业局网站现信息分类体系最多有4层,如“生态建设”及其子类就有4层。其中,第3层类别总数为189,有第4层子类的第3层类别占第3层类别总数不到12.2%。体系中第3层和第4层类别的名字长度和子类数量差异比较大,许多类别只有一个子类且上下级类别名称相同(即单一子类)。不同层的类别间还有重名的现象。

・兄弟类别间关系不强。如聚合度不高,且所依据的分类特征不相同。

・现有分类体系中一些类别名称(如“网站地图”、“联系我们”)的含义和通常人们理解的含义不一致,有歧义。

・现有分类体系中很多第4层或第3层类别的信息量比较少。

・现有分类体系中政务公开相关的类别偏少,无法体现电子政务网站的特点。

分析这些特点,可以发现:国家林业局网站现有信息分类体系存在着类别偏多、粒度偏细、层次偏多的问题。这使得设计现有信息分类体系时需要大量的分类标准,从而增加了网站信息分类体系设计工作的难度。进而导致了现有体系存在着名称重复、兄弟类别之间聚合度不高、大量单一子类等问题。根据上文对现有体系的分析和文献中对现有体系的质量评价结果,可以知道现有体系还需要进行优化。已有的分析、评价为设计工作指明了方向:可以采用减少特征、粗化粒度、减少类目数量、减少层次、减少命名歧义性、提高命名长度一致性等措施来优化国家林业局网站现有信息分类体系。

按照自顶向下特征优化方法,先确定网站信息分类体系第1层类别的候选特征集合。林业电子政务网站有主题、原型、功能、实现、对象、地域、时间、角色等分类模式。考虑到网站侧重于监管、林业信息化建设相对薄弱等情况,可以以主题、原型为主要分类模式。应用主题分类模式时,从产业视角可以划分成木材加工、经济林果、苗木花卉、生态旅游、生物质能源等类别,从业务视角可以划分成造林绿化、防沙治沙、自然保护等类别。应用原型分类模式时,可以划分成文件、公告、公示等公文类别。用同样的分析方法,可以得到业务、产业、市场、公文类别、来源、媒体、语言、技术、交互方式、可实现的任务、相关机构、相关人物、时间、地域等特征组成的候选特征集合。通过对国家林业局网站现有信息进行归类,考虑到特征覆盖度的大小,可以筛选出业务、资源形式、交互目的、产业等四种分类特征。另外,考虑到网站信息分类体系中有许多链接到独立网站的类别,可以增加导航特征。因此,优化后的信息分类体系有业务、资源形式、交互目的、产业、导航等分类特征。

篇7

【中图分类号】 G272.5 【文献标识码】 A 【文章编号】 1007-4244(2013)11-241-1

分类是人们对事物的认识和管理的一种基本方法,也是在进行档案管理时的基本方法。档案的分类和其他文献的分类相比,具有独特的“二元主义现象”。在对一般的文献进行分类时,仅使用一种分类标准,形成一种分类体系,同时满足文献的实体有序化和信息有序化的双重需要。而在整个档案管理过程中,需要进行两次分类,这两次分类在分类对象、思路和目的等方面有着明显的差异,形成了档案信息分类和档案实体分类这两种分类体系。这两种分类体系在档案管理中同时存在,在不同的管理需要中发挥着各自不同的作用。

一、档案信息分类与档案实体分类的比较

(一)档案信息与档案实体。档案信息分类和档案实体分类的主要区别就是两者的分类对象不同。档案信息是利用变化载体的方法从原始档案文件中提取出来的,自身属于抽象的事物,需要附属在一个新的载体来存在,实现其价值。档案实体是档案的原始文件,主要是对档案进行原始记录。档案实体只是一种管理方式,主要根据档案在来源上的历史联系进行分类,档案信息分类则是采用形式逻辑的方式。档案管理的使用价值就是满足人们对档案的各种使用需求,人们在使用档案时,主要是利用档案信息资料。所以要基于档案实体对相关档案信息推行信息管理,分类相关信息能够使信息有序化,更加方便我们迅速查询和使用档案信息,实现档案管理的使用价值。

(二)历史主义和逻辑主义。从档案信息分类和档案实体分类的思路上来看,主要分为逻辑主义和历史主义两种派别。在进行档案管理时,档案实体分类主要是通过历史主义的原则,按照档案实际情况和内容界限直接认定,按照档案在其来源上的历史联系进行分类,档案馆中的所有档案被划分成若干个全宗,每个全宗又按照日期和形成档案的机构进行细微的分类,形成一个完整的实体分类体系。档案信息分类主要采用形式逻辑主义的原则,突破档案来源上的历史联系,按照社会组织的职能分工并结合档案信息内容的属性对档案信息进行分类,人们可以按照职能活动或事物的属性来查找档案。

(三)信息分类号与实体分类号。从信息分类和实体分类的目的及结果来说,档案实体分类的目的是显示档案来源的历史联系,比较完整的展现出一个组织或个人在社会活动中的发展过程。新标准中档号的组成包括全宗号、时间、保管时限和件号。而信息分类的目的体现在档案内容的逻辑联系,使分散保存的不同宗卷中内容属于同一专业或职能活动的档案划分到同一类目下,给所有档案进行分类号,展现每个信息在整体信息分类体系中所在的具置,编号是由汉语拼音和数字混合在一起构成,使人们能够利用档案的特点进行查找。

(四)试题管理与信息开发。档案的管理工作,在理论上可以划分为档案内容信息开发和档案实体管理。档案的实体分类是保管、鉴定和统计的基础,在档案实体管理工作中进行。档案信息分类属于一种检索语言,实体管理完毕后,在信息的开发工作中进行。

二、档案信息分类与档案实体分类并存原因

形成档案信息分类和档案实体分类在档案管理中并存的原因:档案和其他资料都是同属于文献的范畴,是内容较为完整、历史价值较高的信息记录,目的都是帮助人们通过信息形成某种认识,所以文献的分类需要适应人们对文献的需求特点。一般情况下,人们是根据信息内容和特点进行文献的查找和使用。档案信息分类,就是按照文献的内容和特征进行逻辑分类而形成的体系。档案信息分类是人们查找需求的基本途径,也是档案的必然要求。在档案管理机构中,长期利用档案信息分类,虽然为人们提供了很多便捷的条件,但是使同一出处的档案全部打乱,档案所记录的全部机关的历史活动内容被损坏、分解和混合,是档案失去了原有的实际价值,变成繁杂的资料。这种信息分类不能展现出档案所具有的实际价值和独特属性,不利于档案实体的实际管理,所以还需要编辑一些工具类书籍来辅助档案的实体管理。另一方面,分类需要尊重和维护事物的本性。档案是历史社会活动的记录,能够反映出纵向上时间的连续性和历史性。在进行档案管理时,信息分类是对档案内容进行横向分类,不能显示人类社会或者历史的纵向演变、发展过程。所以对档案进行分类管理时,除了要进行档案信息分类之外,还需要实体分类对档案进行历史性记录。从档案来源的历史联系出发,有效地维护某一组织或者个人职能活动的整个发展过程,反映人类社会的历史。

三、结束语

由于档案的根本属性不同于其它文献,使档案的分类也和其它文献有很大的不同。档案信息分类和档案实体分类二者之间,虽然不统一,却在档案管理中同时存在,各尽其职,互补互依。其产生的原因是档案的历史记录性,在档案管理实践中不断地证明,也会在日后的档案管理中,以其独特性对档案管理工作起到更加重要的作用。

参考文献:

[1]邓绍兴,陈智为.档案管理学[M].北京:中国人民大学出版社,2000.

篇8

中图分类号:C37 文献标识码:A 文章编号:1671-7597(2013)11-0000-00

随着地籍和地籍管理的不断发展和完善,自建国以来,我国已开展了多次全国土地资源调查,形成了各级土地管理机构,并生成了一套有中国特色的土地管理体系,全国大部分省、市县已完成了土地利用整体规划,但是随着土地信息化管理工作的深入开展,传统的地籍信息分类与编码的方式,越来越难以满足地籍信息化管理工作的需要。所以,对地籍信息进行分类并编制代码,也就成为最为迫切的任务。本论文从地籍信息代码的属性特征入手,在全国统一的规范和国家标准的基础上,遵循唯一性、适用性、合理性、可扩充性、简单性、规范性和完整性等基本原则,在制定符合国家规定和国家标准的基于属性的地籍信息分类代码的同时,分析分类内部、分类与分类之间的关系,给出分类和属性的完整描述。并总结基于属性的地籍信息分类代码表在建立地籍数据库中的重要意义以及在各项数据库流程中的应用。

1 地籍信息分类编码的基本原则和方法

在地籍信息系统中,把地籍信息按一定的方法和原则进行分类是非常重要的工作,所以经济地籍信息系统必须建立统一、合理的分类体系,而这样一个分类体系必须要做到科学性、系统性、兼容性、可延性以及综合实用性。

信息分类有两种基本的方法,线分类法和面分类法,线分类法也叫层级分类法,它是将初始的分类对象按照所选定的属性,逐次地分成相应的若干个层级类目。

2 地籍要素分类与代码表

制定统一的标准化的地籍信息分类与编码的重要性是不言而喻的。地籍信息编码分层分类编码主要参照国家土地的行业标准,测量规程及地图规范等。既要考虑到科学性、可扩展性,唯一性、规范性、稳定性和兼容性又便于操作。新的地籍信息编码表是在《土地信息学》中地籍信息编码表,结合《新的土地利用分类》,并参照《地籍测量规范》、《地籍图图式》、GB-14804-93《1:500、1:1000、1:2000地形图要素分类与编码》和《城镇地籍调查规程》为依据,采用线性分类法,编制出一套完整的地籍信息分类与编码,如下,该类代码采用数字码组成,该数字码由四位数字组成,逐次的排成的一个有层次,有顺序的代码,结构如下。

X X X X

| | | |

大 小 一 二

类 类 级 级

码 码 码 码

其中:

1)大类码、小类码、一级码、二级码用一位数字顺序排列。

2)一级类以下的代码可以用二级码进行扩充。

3)二级码一般为0。

该分类体系是以原有的《土地信息学》—地籍信息分类表为基础,分类代码由四位数字码组成,要素代码项首位数字为大类码;第二位数字为小类码;第三位数字为一级代码;第四位数字为二级代码,大类码、小类码、一级代码和二级代码分别用一位十进制数字表示。本设计地籍信息分类与编码的基本原则是实用性和科学性相结合的原则、连续性原则、多途径满足土地管理,地籍管理需要的原则、精简协调的原则,编码字符采用的是四位数字编码的方法。

3 地籍信息代码分类的分析与评价

3.1 地籍信息编码在地籍数据库中的意义

地籍信息编码的种类繁多,内容丰富,涉及到很多要素,怎么样把它们有机地进行管理和应用是一件非常重要的工作。它直接影响到数据库乃至整个城镇土地信息系统的应用效率,只有将它们按照一定的规律分类与编码,有序的输入到计算机中,才能把它们按类别存贮、按代码检索,以满足各种应用分析的需求。否则,这些代码进入数据库后,会成为一堆毫无规律可循的代码,不是无法找到,就是检索出的数据与要求不一定,甚至有可能使数据库完全失去使用价值,因此对地籍信息编码对于地籍信息数据库的建立有重要意义。

3.2 属性的地籍信息编码在数据库流程中的应用

随着我国经济的持续、快速的发展,各级土地管理部门的业务量急剧增大,因此,数据独立性、系统灵活性和伸缩性是数据库建设所需要考虑到的方面。其次土地管理部门各个业务,科室之间,既有较强的联系,又有较强的独立性,表现在数据处理流程上,就要对数据集中管理,又要突出数据的独立性。

在采集数据时,利用地籍信息代码来作为用户标识码(即ID),要素属性码的输入方式有手工输入和属性码菜单输入两种。前者通过键盘用手工方式输入,后者则是在数字化板上设计一种由相互垂直的网格线分割成许多小方格的属性菜单码,每个小方格代表某一属性码,数字化时将手扶跟踪器在小方格内取点,所得点位坐标,经计算机处理,便可得属性码然后赋给相应的要素,实现土地利用现状资料由手工操作到计算机操作,由纸质到电子化的重大转变,方便了成果资料的应用。

在维护数据时,地籍信息代码可以用于检查数据的精度和完整性,同时也可以对数据层次进行调整和重新组织。在对地籍数据进行修改和更新时,也需要地籍信息分类代码;同时还可以通过地籍信息分类代码与符号库连接,显示输出符号化的地图;在信息服务与共享时,地籍信息分类代码是非常重要的;总之它是实现系统与系统之间数据共享的重要依据。

4 结束语

目前,对于基于属性的地籍信息要素代码编制的研究与分析而言,我所做的工作只是全部地籍信息编码分析研究的一部分,当前已经完成的工作还有不足,比如地籍信息编码在地籍数据库和地籍信息系统中的应用没有深入介绍,以及地籍信息编码在土地调查和地籍管理中的应用没有分析,随着技术发展,我们的对于基于属性的地籍编码的研究也会逐步完善和强化,我们会在此基础上,把基于几何形状的地籍信息编码纳入此来,建立更加完善的地籍信息编码系统.要让国土管理部门的所有人员体验到技术的高速发展和工作中的便利。

参考文献

[1]宋其友,杨喜敏,李泰轩,李正华.土地信息学第1版[M].北京:测绘出版社,1997.

篇9

随着社会信息化进程的加快,社会中存在的各种行业、产品信息不断膨胀。这些信息在没有被有效地组织之前犹如一盘散沙,只有对其进行科学的组织,才能够充分发挥信息的使用价值,满足用户的检索需求。

近年来信息服务行业的蓬勃发展正适应了用户对信息组织的需求,该行业通过对社会中的各类行业、产品、知识进行有效的分类整合,建立相关索引以方便信息的查询,从而使用户或企业管理人员能够快速准确地获取相关信息,从而降低社会信息流的混乱程度,促进信息共享和信息有效访问,提高信息产品的质量和价值。可见,信息服务行业所采用的信息组织方法是该行业发展的关键,对其业务开展及服务质量具有直接性的影响[1]。

1 信息服务行业的信息组织方法及问题

最初的信息分类来源于图书馆的文献分类,随着互联网的迅猛发展,企业所接收和提供的信息量迅猛增长,人们对信息检索的需求量也越来越大。分类法的应用范围逐渐深入到各类信息服务行业中。目前,分类法在信息行业中主要应用于网站管理、搜索引擎服务、信息查询服务等方面。该行业所采用的信息组织分类方法主要有以下几种:

1.1 传统分类法

传统分类法指用于组织、整理图书馆藏书的分类法。如国外的《杜威十进分类法》、《国际十进分类法》、《美国国会图书馆分类法》等。在我国,最具代表性的传统分类法是《中国图书馆分类法》。传统分类法主要以文献为主要处理对象,其分类体系为等级列举式结构。

传统分类法以科学分类为基础,词汇选取规范,具有严密的逻辑性与结构完整性。但同时,传统分类法的单线型列举式的“树状”结构,不能反映现代信息的多元化发展。并且,传统分类法在表达类目、主题之间关系方面采用参见、组配、注释等方式,对于分界模糊、交叉性强的日新月异的行业产品综合信息也有很大的不适应性。此外,传统分类法的专业性对于信息服务行业面对的最终用户来说缺少易用性[2]。

1.2黄页企业分类法

黄页企业分类法是以分类法为核心思想并结合企业特征发展而来的一种信息组织方法,目前已被广泛应用在企业管理和业务模块等方面。黄页企业分类法主要以各种企业、组织机构为对象,是将企业信息根据产品或服务的特性进行归类后按一定方法编排的名录[3]。

黄页企业分类法能按专业集中地、系统地揭示企业性质,可使使用者整体清晰地把握企业特征,并且保证了高度的检全率。但是,现代企业从事产品趋于多元化,产品之间互相渗透和综合,因此,充分地、合乎客观实际地反映多维性的企业性质变得越来越复杂和困难。这使得对一些企业的专业范围很难界定,黄页企业分类法在检准率方面面临着非常大的挑战 。

1.3 人工分类法

人工分类法是以人工标引或自动标引方式采用自编的分类系统。目前大量网站和搜索引擎都采用人工分类法对网络信息进行分类组织。这些自编的分类体系以用户为中心,充分考虑到了最终用户的需求特点。

与传统分类法相比, 人工分类法通常以主题为核心建立分类,并且突出用户关注和需求的类目,词汇选取更加通俗易懂。此分类法最突出的特点是可以动态组织分类体系,根据需要随时调整或组织相关资源,具有较强的灵活性和适用性。但由于分类人员缺乏专业性,且内容未经严格审核,随意性较强,因此造成类目设置模糊、交叉严重,知识领域不全, 缺乏规范性、规律性等问题[4]。

1.4 全国主要产品分类与代码

《全国主要产品分类与代码》是我国于2002年颁布的产品分类标准。该分类法由可运输产品和不可运输产品两部分组成,以我国工农业商品和物资为处理对象,是产品分类法的代表,对我国生产领域产品的产量、产值等各种不同类型的数据处理和准确统计提供一个分类依据。

该分类法在信息日益更新的今天并没有及时进行动态维护管理,原标准已难以适应和满足社会的需求。并且,该分类法仅以产品为主要处理对象,标准的覆盖面不够宽,无法满足对多类型的信息进行组织的需求。

上述各种信息服务行业现存的分类体系分别以文献信息、行业信息、产品信息为处理对象,缺乏对行业、产品综合信息的系统完整的信息组织,并且普遍存在更新不及时、体系结构不能满足现代信息的多元性、交叉性的问题。因此,需要从现代信息的特点出发,建立符合大众需求的、对行业产品综合信息进行有效信息组织的新型组织方法,以适应用户的信息需求。

2 信息组织方法在号百公司中的应用

中国电信集团号百信息服务有限公司(简称号百公司)是中国电信股份有限公司的全资子公司。“号码百事通”是号百公司的龙头业务,是一切基于中国电信114台的增值业务的统称,其目的就是要在充分挖掘和整合用户号码信息的基础上,延伸和拓展传统的查号业务,满足用户现实和潜在的各类信息查询需求 。

对于号百公司这样一个信息查询服务行业的典型代表,良好的信息组织方式是其发展的核心竞争力所在。号百公司在遵循和借鉴传统分类法知识体系和现行的多种行业和产品分类体系的基础上,针对号百自身的业务服务特色及用户需求特点,设计并研制出了符合号百信息组织需求的信息组织工具――《号百信息分类法》。

2.1 《号百信息分类法》概述

号百公司所采用的信息组织方法是集“行业―产品―知识”三者为一体的综合性、分类主题一体化的《号码百事通信息分类法》(以下简称《号百信息分类法》)。它以服务机构(行业)为主要出发点,科学和实用地展示与组织相关的服务产品以及与服务产品相关的知识,同时满足行业、产品、知识的分类组织和主题组织的需要,满足信息服务的整序需求。

《号百信息分类法》采用了“分类―主题一体化”的编制结构,将分类法与主体法结合起来,实现对信息的内容描述和检索功能均从分类和主题两个角度进行,公司可以完成对行业信息的分类标引和主题标引,用户也可以在统一的检索系统中进行字顺主题查询和系统分类查询。既能独立完成主题标引的功能,满足特性检索的要求,又可以独立完成分类标引的功能,满足族性检索的要求,从而把信息组织、信息检索的系统性与直接性结合起来,同时建立主题词与关键词之间的关联关系,作为主题语言与自然语言的接口。

2.2《号百信息分类法》的编制特色

2.2.1类目具有高涵盖性《号百信息分类法》的编制遵循“具有高涵盖能力,包括全行业和产品信息,将各类信息的行业属性、产品属性与知识属性有机地融合起来”的编制原则。该分类体系的类目最细为6级,设置了34个一级类目,在一级类目之下,以行业为主要聚类依据,划分出相对独立的、具有市场分割性质的二级类目,形成行业的基本架构;三级类目过渡到行业、产品、知识兼顾的立类;四、五、六级类目是主要以产品、事物、知识为主的立类 。该分类体系片段如图1所示:

由上图可以看出,《号百信息分类法》将行业分类、产品分类和知识信息充分地综合在一起,以便从多个角度同时满足公司的业务开展需求及用户的信息搜索和服务需求。此外,公司在进行行业、产品分类时,通过类目的参见及主题词间的语义关联建立知识间的联系,使得行业分类与产品分类之间具有更强的紧密性和扩展性,便于用户在检索中便捷全面地检索到行业及产品信息。

2.2.2分类体系的强易用性《号百信息分类法》致力于整合行业、产品的信息资源,提高广大用户的检准率和检索效率。其面向的检索用户并不具备专业的检索技能及准确的分类概念。针对这一特点,《号百信息分类法》的类目体系增强易用性,相对弱化科学性。具体表现在:类目的详细程度与检索的信息量和查询频率相匹配,以满足用户在日常最关心的领域的信息检索需求;注重多重列类,即在同一划分阶段,同时采用几个标准对上位类概念进行划分,从而获得几组并列的同位概念,给用户提供尽可能多的检索途径;类目展开深度控制在6级,避免不具备精准检索知识的普通大众因类目层级过深而导致无法准确高效地找到所需信息情况的发生。

2.2.3词汇选取从大众出发《号百信息分类法》在词汇选取方面充分从方便大众的角度出发,借用丰富的入口词提高自然语言的检索能力,并且大量使用词组以贴近用户的检索习惯。在选择入口词方面,收录丰富的、对词形规范性要求不甚严格的关键词,在很大程度上增加了检索入口,提高自然语言的检索能力,从而增加了终端用户检索的便利性。与此同时,《号百信息分类法》在使用概念组配的同时,大量收录了高先组度的词组以贴近大众的检索习惯,在满足信息多向成族需要的同时提高检全率。

3 《号百信息分类法》面临的挑战及对策建议

《号百信息分类法》是信息组织方法在非图书文献领域得以应用和创新的典型代表。必须意识到,其蓬勃发展的同时仍然面临着严峻的挑战。面对分界模糊、交叉性强、更新速度快的行业信息以及多用途、交叉领域的产品信息,如何将这些错综复杂的数据进行有效的标引以充分揭示各类信息是个不小的难题。此外,《号百信息分类法》集“行业―产品―信息”三者为一体,在增强了分类类目的关联性及扩展性的同时,也加大了管理人员对其维护和更新的困难性。对此,笔者试从以下3个方面提出对策建议。

3.1建立强大的参照系统,揭示知识空间的立体联系

针对行业及产品信息错综交叉的特点,采取以参照系统建立的网状关系将交叉领域的信息相结合。因此,不仅要建立交叉关系和相关概念的参照,而且需要建立不同的表示方式(如检索词和分类号)之间的混合参照;从同一检索系统内的参照到多个检索系统间的参照;从单一行业内的参照到多行业之间的参照;甚至可以在不同系统、不同行业、不同产品、不同表示方式之间建立强大的参照系统,使各类目间形成功能强大的网状结构,从而建立和规范交叉信息之间的关系,客观而充分地揭示知识空间的立体联系,供用户从不同的角度进行检索[6]。

3.2鼓励用户参与,提供丰富的用户体验

“用户中心”是Web2.0的重要理念。鼓励用户参与,提供更丰富的用户体验,让用户不止是号百信息库的使用者,还要成为号百信息库的建设者。针对行业及产品信息更新速度快的特点,通过与用户的互动,充分利用群体智慧来建设号百信息数据库。允许用户对行业或产品记录进行标注、评论或者更正,让用户真正参与到号百信息库的建设中来。

3.3建立多维系统,提供多途径、多类型的检索

为了适应多元性的、交互性的、动态的网络信息环境,可以打破分类法传统的“线性”资源组织方式,采用分面分析的方法。在类目体系纵向展开上, 使用多维划分和多元展开的形式为一种信息赋予多个类号, 并且可以同时设置多个类目体系, 建立多维的系统,从而提供多途径、多类型的检索,以满足情报的多维检索需要。这种多途径的检索方式使更多的主题概念进入分类体系, 这使得用户可以从不同的角度进行检索,在一定程度上大大提高了信息的检全率和检准率[7]。

在互联网时代,帮助用户高效检索所需求信息的信息服务行业,地位不断攀升。信息组织方法是信息服务业生存和发展的关键技术。信息服务业中的信息组织技术必须充分吸收传统信息分类法的成熟理论,在此基础上,结合信息服务的业务特色、信息用户的搜索需求及检索特点,才能够使其在信息服务行业中得以有效地应用。信息服务业需要加强对信息组织的重视以提高企业的竞争力,而信息组织的方法本身也需要不断完善和发展,以适应复杂多变的用户搜索要求[8]。

参考文献:

[1] 李卫红,沈保全. 信息组织方法述略.情报杂志,2004,22(1):67-68.

[2] 邓均华. 网络分类搜索引擎与传统分类法之比较分析――兼论建立我国信息组织分类标准. 河南图书馆学刊,2001,21(5):60-61.

[3] 周毅俊. 黄页检索语言探索. 中国索引,2005(2):30-32.

[4] 武利红,李振红. 分类法在搜索引擎中的运用思考. 图书馆学研究,2005(6):48-50.

[5] 刘苏南.信息组织在中国电信信息服务中的应用. [2010-12-02].省略index.fudan.省略/lwj/2008/liusunan.ppt.

[6] 苏瑞竹,吴英姿.利用分类法和主题法改善搜索引擎的性能. 情报科学,2001,19(11):1170-1175.

[7] 马张华. 分类搜索引擎对分类法发展的贡献及相关问题讨论.中国索引,2005(3):14-18.

[8] 王衍,丁梅娟. 论企业信息资源的组织管理与开发利用. 科技进步与对策,2002(7):115-116.

篇10

1 引言

信息组织是采用各种方法和手段使信息有序化的过程。它通过揭示信息间内在的逻辑关系,对信息进行加工、整理、提炼,使之系统化、浓缩化,从而达到便于信息传递和交流的目的。传统信息组织,主要是指对文献信息的组织,即使在采用计算机技术后,所处理的信息对象仍主要是文献信息,并进行人工著录、分类、标引,组织形式大多通过手工编制的目录、索引、文摘等。在网络环境下,信息资源多以数据库、信息库的形式存在,电子信息占主导地位,信息组织的对象逐渐多样化,范围也随之扩大,它不再停留在对文献特征的描述,而是深入到知识单元、信息单元。

从本质上讲,网络信息组织是对网络中的节点(服务器)中的各种格式的文件和数据库(或信息库)中的各个信息单元(如数据项)的组织。具体地讲,网络信息组织有两层含义,一是某一特定网络服务器(网站)的信息组织;二是对整个网络信息(网站集合)的组织。前者是网络局部(节点)的信息组织,后者是网络全局的信息组织。前者的工作主要由各节点的网站开发和维护人员来完成,后者由专门的信息服务公司,通过搜索引擎来完成。两者对图书情报部门的信息组织均有借鉴意义。本文主要以后者为研究对象,即整个网络的信息组织。

传统信息组织主要包括分类法、主题法、索引法、文摘法等。与传统分类法相比,网络信息组织在立类与列类、分类标识与分类对象的对应关系、分类标引过程、分类标引等方面存在明显的区别;与传统主题法相比,网络信息组织在搜索引擎对主题检索的支持以及元数据的产生和运用等方面存在很大区别;与传统索引法相比,在索引对象、索引类型、索引生成以及使用目的等方面存在许多不同;与传统文摘法比较,在编制方式、编制速度、编制质量以及与主题法的结合程度等方面也存在着差别。

比较和分析网络信息组织与传统信息组织有利于展现两者的优缺点,从而为网络信息组织继承和发展传统信息组织提供了借鉴,促进网络信息组织的进一步改进和完善。

本文以此为出发点,深刻认识这两种各有千秋的信息组织方法,提供理论和方法上的依据,并以此为切入点,从四个方面来论述网络信息组织方法与传统信息组织方法之间的相互借鉴关系,以使两者相得益彰、共同发展,从而在实际工作中利用相关成果改进现有工作,以满足现代信息用户的需求。

2 借鉴体系分类法完善信息资源分类体系

从体系分类法的角度看,网络信息资源分类体系确实存在着一些低级错误,改正这些错误将有利于网络信息资源分类的科学化和规范化,有利于提高查全率和查准率,尤其是提高查准率。

2.1 类目设置缺乏规律性和层次的不平衡性

在网络信息分类中,其类目设置往往同时采用多个标准,运用每个标准设类时缺少完整性,有时甚至在同一层次上列出不同等级的类目,致使同位类设置显得混乱,缺乏规律性,增加了用户通过浏览查找信息的难度。因而,需借鉴体系分类法的立类原则,一般采用同一标准,类目级别往往不能混淆。此外,有些网络信息的类目划分只有两三层,有些则多达十多层,类目层次显得不均衡,应当在现有基础上作适当调整,尽量使同位类下的层次保持均衡。

2.2 类目划分缺少一致性

不同搜索引擎的类目划分都有自己的体系,相互之间缺乏一致性。比如,Sohu将“留学与移民”放在“工商经济”类,“网易”在文学类下列出“人文历史和宗教”类,Yahoo将“音乐”放在“综合参考”下予以重复反映,这些做法明显欠妥。理想地,各个搜索引擎的类目划分应当大体相仿,使用户有章可循。

2.3 依据缺少提示

目前,用户在使用浏览性检索工具时,不能直接找到所需类名,必须逐级翻阅查找。有时为了找到一个类目,需要读取十多个页面,颇为费时费力。为了用户查找方便,应当提供一个分类法使用说明,以便用户参考、熟悉、研究之用,并能使其快速找到所需信息。此外,可以考虑使用一些技术手段,比如,当用户把鼠标放到某一类目上时。可自动显示其下级类目。

3 借鉴分面分类法改进网络信息组织

分面分类法在对传统信息组织的优化上曾起到了很大的作用,在网络环境下,借鉴分面分类法,可对网络信息组织进行优化。实际上,现行的搜索引擎中也包含分面分类法的思想,但粗糙和不规范。比如,在“sina”搜索引擎的关键词的查询反馈结果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,这种“分面”非但不够完整和准确,而且更多的是具有后台意义,用户根本无法在检索时组配使用,分面分类法没有得到充分体现。具体地讲,借鉴分面分类法改善网络信息组织可从以下几个方面入手:

3.1 复分表和仿分在网络分类体系中的运用

搜索引擎在编制自己的分类表时,可以借鉴传统文献分类法中的复分表、仿分技术。但是,网络环境下的复分和仿分与传统文献分类法不同,尤其是资源类型复分表中所列出的文献形式几乎完全不同于传统文献分类法中总论复分表中的文献形式。

3.1.1 通用复分表的运用

通用复分表可以作为整个分类表各级类目组配复分的依据,也可以用于规范分类体系展开的方式,使整个分类体系更具科学性和逻辑性。网络信息分类体系的通用复分表可以包括主题通用复分表、世界地区复分表、中国地区复分表、时代表(包括国际的和中国的)、资源类型表、人物复分表等。

网络信息的主题通用复分表规定了整个类目体系展开的次序,内容可以包括综合网站、热点问题、政策法规、机构(包括管理机构、事业机构与协会、事业单位、公司企业单位)、人物、理论、事业与管理、改革研究、教育培训等。

世界地区分类表对于网络信息是必要的,因为网络都是全球性的,其中充满了大量分散的有关各个地区的信息。世界地区复分表的详尽程度要视信息资源的空间分布的密度确定。时代复分表主要根据网站的服务功能和所收集的资源特点确定。收集历史文献的网络站点或历史类专业搜索引擎最好设一个时代复分表,而对综合性的网站和搜索引擎来说,也可不用时代复分表。

网络环境下所使用的资源类型复分表中的资源类型,除了包括传统文献分类法中的期刊、报纸、杂志等文献形式外,还包括BBS与论坛、会议与活动、个人主页、新闻组、Mailing List/LISTSERV等。

通用复分表及其主要内容如表1所示。

表1 通用复分表及其主要内容

附图

3.1.2 专类复分表的运用

在编制网络信息分类体系时,可在有关类目中编制专类复分表,作为某些类目组配细分的依据。例如,在“工业类”下的各工业部门,可以按照厂家、公司、研究机构、部属院校、杂志、名牌产品的统一顺序展开,编制成一个专类复分表,因为这几项是各工业部门都共有的(特别是在中国),可以采用统一的顺序。这就是专类复分表在网络信息分类中的运用,但是,它不需要像传统分类法中的专类复分表那样赋予统一的类号,而只需在各类中采用统一的形式。在信息加工的后台中,使信息处理人员更好地理解各类目的展开方式,更好地使用分类体系来加工整合信息资源。

3.1.3 仿分的运用

在传统分类法中,按照分类标准的规定,部分类目可以仿照已列出的类目进行细分,即类目仿分。由于网络信息分类体系以事物和主题为中心进行划分,从某种程度上说,它要求仿分更加迫切。比如,在“sohu”中,一级类目中有“国家与地区”条目,在其下的二级条目(各个国家与地区的名称)就按照一级类目的各类目进行仿分。又如,在“北京”这个二级条目下,就出现了跟一级类目一致的三级类目。在网络信息分类体系中,这种情况很多,比如,在“sohu”的“社会科学”的各社会科学类下基本上均按“学会”、“爱好者天地”、“大学系/学院”、“活动与会议”、“期刊杂志”、“研究所/中心”、“同人主页”列类。

3.2 分面叙词表的运用

一般地讲,编制分面叙词表都是针对某一学科专业领域的,这是因为不同学科专业领域的基本分面的划分是不同的,所以对于整个知识领域来说,建立一个统一的分面叙词表是非常困难的。因此,分面叙词表主要用于网上学术信息资源的组织,或者用于建立专业性搜索引擎。

网络信息分面叙词表有以下两个方面的作用:一是在信息标引的后台工作中,标引员利用分面叙词表对网页进行主题标引。一方面,有利于分面组配提高描述特定信息资源的能力,另一方面,用分面组配公式来标引网页可以实现标引的一致性,进而提高标引质量。二是在信息检索的前台工作中,可向用户提供其输入的检索词的同义词和相关词,可同时提供多个主题领域的检索词,以供用户进行自由组配,通过这种组配,可达到较高的专指度。

采用这种组配方式可使用户拥有最大程度的决定权,即由用户从系统推荐的检索词中选择合适的词语,实现自由组配,从而避免了用户构造复杂的检索式。同时,在检索过程中,通过人机对话,由用户来判断与其检索最相关的文献。

4 按照分类主题一体化的原则改造网络信息组织

所谓分类主题一体化,是指将分类检索语言与主题检索语言融为一体,从而形成一种兼有两种语言的标引和查找功能的检索语言。传统分类法系统性较强,有利于族性检索,符合人们的思维、检索习惯,且在揭示数值、声像、空间对象等实体方面有其独特优势,但分类法体系复杂,不利于用户查全。传统主题法是用语词描述知识并按一定顺序排列,在主题检索中,夹杂大量不切题和无用信息,导致查准率低,有时甚至相当低。分类法和主题法两者的结合能较好地解决这一问题。

理想的网络信息资源检索语言应当是分类主题一体化语言。例如,在搜索引擎进行关键词检索时,可选择在所有站点或仅在此目录下进行检索,而且输出关键词检索结果时,列出相应的分类检索路径。

目前这种思路在“sina”搜索引擎中得以实现。例如,如果想查找“红楼梦”的相关信息,可在搜索框内键入关键词“红楼梦”,并单击旁边的搜索按钮,新浪搜索会先返回目录搜索结果“文学艺术>各类艺术>文学>各类文学>小说>古典小说>四大古典名著>红楼梦”,接下来就是关于“红楼梦”的网站的搜索结果。

有趣的是,在现行的搜索引擎中,不但体现了分类主题一体化思想,还根据实际需要在搜索结果中体现了分类、主题、文摘以及新闻服务四位一体的思想。比如,中文雅虎的搜索结果会从数据库中找出以下五个部分,按照顺序列出搜索结果:

分类类目

分类

网站名称

主题

网站描述

文摘

相关网页

主题

Yahoo!中国的相关新闻

新闻服务

但是,要实现网络信息的真正的分类主题一体化,还要做好以下三个方面的工作:

4.1 建立一个结构简明的知识分类体系,通过对信息资源的系统分类,实现对网络信息的宏观控制。这样的知识分类体系必须坚持科学性与实用性的统一,结构要清晰,整个体系是动态的,可以采用超文本系统进行管理。

4.2 建立一个智能化的控制词表,实现作者语言与用户检索语言的控制和转换。控制词表应当支持后控,以提高受控词的利用率和用户的交互能力。

4.3 建立分类体系与控制词表的系统联系,即将标引语言纳入分类体系,这样既可以用自然语言直接检索,也可以在任何类下进行语词检索,从而较好实现分类与主体的兼容。在搜索引擎生成索引数据库时形成包括分类标识和关键词标识的索引,同时分别为分类标识和关键词标识生成倒排挡,这样既加快了检索速度,又能同时以分类标识和关键词进行检索,提高查准率。

5 网络信息组织的目标——建立一套科学的网络信息分类体系

建立一套科学的网络信息分类体系,必须明确基本的分类原则。

5.1 网络信息分类的基本原则

确定网络信息分类原则必须根据网络信息的特点:

5.1.1 直接性原则

分类的层次不宜太多,不应该出现转换十多次还找不到所需信息的情况。一般来说,类目在6层以下比较符合人们的习惯。

5.1.2 数据保证原则

网络信息分类法是面向整个网络信息资源的,分类对象要明确地扩大到网络上一切可以利用的资源,让各种类型的网络信息资源都能在分类法中找到相应的位置。

5.1.3 自然性和实用性原则

网络是面向大众的,所用的类名基本上应当是自然语言,以满足广大普通用户的信息需求。同时,网络信息分类的类目要少而精,要实用,不应该仅仅为了美观等因素而设立一些用处不大的类目。

5.1.4 快捷性原则

每一类名都应有与其对应的一个快捷键或类号,以便于熟练的用户进行快速查找。传统分类法在这方面有相当杰出的成就(如类名索引等),毫无疑问,编制网络信息分类法时应当对这些成就加以研究和借鉴。

5.2 关于《网络信息分类法》的构建

传统分类体系与网络分类体系的相互借鉴和改造,使得编制一部网络信息分类法成为可能,在具体做法上,应注意以下几点:

篇11

前几期介绍了总体框架,信息分类和各类模型等内容。本期介绍基于各种技术和模型的整合案例。

“三棵树”整合电子政务实例

在整合电子政务之前,先要借鉴以往经验,才能使整合方案切实可行。

所谓整合,实际上就是针对电子政务当中已经存在的分散、异构的信息资源体系和不同的技术体系,消除其孤立建设和运行所带来的各种缺陷,实现管理的统一、数据的统一、业务的统一、应用的统一。从表层来看,整合是对软件体系的重构; 从深层来看,整合是重构信息资源体系和应用体系。几种典型的整合方案包括数据整合、流程整合和界面整合。

根据某部委电子政务的业务特点,参考各种整合方案之后,认为该部委的电子政务整合应解决三个问题: 一是要解决程序框架合理性的本质问题; 二是要满足日常高效、便捷的业务需求; 三是要统一各应用的基础信息资源。

因此,本次整合案例的关键在于优先建立统一用户体系、权限体系和信息分类体系这些支撑体系; 建立统一的基础支撑平台,作为各系统的整合基础,并为以后新系统的开发提供综合的支撑基础。同时,除建立统一的“三棵树基础支撑平台系统”外,为了整合各应用的统一访问、统一操作和统一信息,还需要建立一个信息门户作为载体。

两种整合方案

根据该部委的现状与整合需求,主要考虑了两种解决方案: “简单整合”和“深度整合”。

方案一: 简单整合重建平台

该方案重点突出三个方面。

1. 建立一个系统整合平台

基础支撑平台。该平台包括了建设统一的用户体系、统一的权限体系和统一的信息分类体系。除了这三大基础支撑体系外,还包括基于统一用户体系下的统一身份认证体系。基础支撑平台为各系统提供了统一的应用支撑服务,是现有各系统整合的基础,也是将来新系统开发的基础。

信息门户平台。该门户是各个系统应用和功能的集成框架,同时也是各个系统应用数据集中展示的平台。信息门户的建设为各个系统提供了统一访问的入口,为用户提供了各系统统一管理的平台,为用户提供了获取各系统所需信息的统一门户。所以,建立一个系统整合平台是整个整合过程的基础和关键。

2. 建立与现有系统的整合

统一基础支撑体系整合。在当前的方案中,各系统与基础支撑体系整合将采用“简单整合”的模式,这个模式主要特点在于: 保留各系统的用户体系、权限体系和信息分类体系不变; 建立各系统的用户体系、权限体系和信息分类体系与整合平台的统一支撑平台的关联; 通过这个关联,实现对各系统基础支撑体系进行管理和统一应用。

整合系统统一功能。这个整合是“前端整合”,包括各个系统应用功能的统一集成,以方便用户的统一访问、统一操作和统一管理; 各个系统所需数据的集中展示,以满足用户对数据获取统一展示的需求,另外通过门户技术满足用户数据信息获取的个性化设计和信息展示布局不同的要求。

这两部分因为重点涉及到各系统访问的统一获取和各数据的统一抽取展示,不同于之前的基础支撑体系整合,所以将这部分定为“前端整合”。“前端整合”与基础支撑体系整合(也可以称之为“后端整合”)是整个系统整合两个不可或缺的部分,同时完成这两个部分的整合才能构成一个完整的系统整合。

3. 形成新系统的基础支撑平台。

新的子系统可以基于整合平台的统一基础支撑平台进行开发,不再需要建设本身的用户体系、权限体系和信息分类体系。

优势

通过建立系统整合平台,统一了各系统的用户体系、权限体系和信息分类体系等支撑体系,形成了一个既能满足当前系统整合要求又有利于将来新系统开发的统一基础支撑平台,也形成了一个实现各系统应用功能集成、统一访问、统一管理和数据集中展示的信息门户平台。

保证了原有系统的完整性,避免了对现有系统造成冲击; 无须对原系统进行大量改造工作,从而使整合以更简单的方式进行,避免了技术风险; 可以大量降低整合的难度和工作量,从而使整合工作以更快速的、更平稳的方式完成。可以根据情况再逐步有序地进行各子系统的改造,以供将来需要时进行系统的“深度整合”。

劣势

原有各系统仍然保留各自的用户体系、权限体系和信息分类体系,经过“简单整后”后的系统并未实现彻底整合,今后还需要进行更深入的整合工作。

在整合过程中需要为各系统开发大量的接口组件,有一定的工作量。

方案二: 深度整合看重支撑服务

深度整合方案重点突出建立一个系统整合平台,这部分与“简单整合”方式相同; 这个方案与“简单整合”模式最大的不同体现在统一基础支撑体系整合上。这个模式主要特点在于:

各系统不再保留本身的用户体系、权限体系和信息分类体系,而是直接采用整合平台的统一用户、统一权限和统一信息分类体系。

各系统通过整合平台的统一接口获取基础支撑服务。

其他部分与“简单整合”相类似。

优势

彻底去掉了各系统自身的用户体系、权限体系和信息分类体系,使得整合的程度更深更加彻底,避免了将来需要进行的再次深度整合;

避免了关联接口的开发工作。

劣势

由于去掉了原来各系统本身的用户、权限和信息分类等支撑体系,这样不可避免地需要对各系统进行大量的改造工作。

各系统是在不同的时期、由不同的厂商采用不同的技术建设而成,所以在改造过程中难免会遇到难以预料的问题,风险大大提高,甚至有可能失败。

如果对在线应用系统进行大规模的改造,必然会对现有工作和办公造成极大的影响。对系统的改造工作涉及面广,因而所产生的工作量将大于“简单整合”模式,整合周期过长,不利于展开下一步工作。

两种方案比较

从上述两种方案的内容和优劣对比来看,由于案例中的部委已经形成了非常好的基础支撑平台基础,所以“深度整合”有利于该部门,整合起来会更彻底,更完整。

而对于其他电子政务应用部门,可根据自身情况,在整合上第一步可以先采取“简单整合”的模式进行。在完成“简单整合”之后,因为已经有了统一的系统整合平台基础,第二步可基于这个系统整合平台逐步对各系统进行改造即“深度整合”,如此就不会较大地影响到现有系统的使用。

在“简单整合”的实际操作过程中,对于一些数据结构清晰、权限确定、业务功能相对简单的子系统,也可以采用“深度整合”的方案一步到位。

采用

“三棵树”模型

此次系统整合之后的平台不仅具有强大与完善的功能,同时还是以“三棵树”模型为基础的,有其成功实践与理论依据。

“三棵树”的内涵

“三棵树”由信息分类树、机构人员树和权限分配策略树组成,是形象地利用党政机关信息化的技术把工作分成三个相对独立又相互关联的体系。各体系之间相对独立,又彼此联系和相互制约,实现了对党政机关日常事务处理工作在逻辑上的抽象和简化。

“三棵树”是统一整合各电子政务系统的基础,也是党政机关电子政务建设的统一基石,应用的统一支撑体系。

“三棵树”模型的形象描述见图一。下面对这个模型进行简单的说明(相关报道详见本报10月19日,第40期的第48版)。

信息分类树。一个单位所有业务用计算机系统处理时,均可将其称为信息对象,用信息分类树可穷尽所有信息对象及对其不同层次的划分。机关信息化工作对象(即是所有信息对象)可分为三类: 第一类是党政机关均涉及的内部政务“共性”办公信息; 第二类是各部委(办、局)所分管的政务“个性”行业主体业务信息; 第三类是各单位内部工作的各类行政管理事务信息。解决个性行业信息的方法论、保密安全和技术安全的措施与共性信息系统相同。

机关内的各项共性办公业务与各单位行业个性办公业务对象均可建不同“枝杈”实现统一分类。用信息技术处理不同信息对象时,首先为各种信息对象创建信息分类体系,定义信息分类代码; 其次确定各信息对象属性及与其他信息对象的关系; 再次是确定对某一信息操作时的具体功能要求; 最后在具体界面可打印出不同格式的纸质载体,综合查询结果可以打印各种报表或各种分析图型(即辅助分析)或直接在电子地图上展示综合查询结果(应急指挥或初级的辅助决策)。

机构人员树。一个单位内部及其在全国范围内下属机构、人员间的关系可用机构人员树来穷尽描述。这里有两个概念,一是机构的概念,二是人员的概念。在信息系统设计时,要分别创建可维护的机构表、人员表,在实际应用时将二者合并成机构人员树。无论机构、人员发生任何变化或调整时,不用修改机构与人员的原有各种ID数据,就可任意刷新机构人员体系并可以继承原有权限。此外,还要有机构、人员的认证体系。

权限分配策略树。一个单位及其任一工作人员处理任何一项或全部的工作(即不同信息对象),均是根据该单位内部“三定方案”的职责划分与指定,由N个机构的N个人员在不同时间和范围内操作并有多种可能的权限规定,这一权限设置是由权限分配策略树来穷尽描述的。

以“三棵树”为基础

“三棵树”经提炼、优化和细化,用技术实现后可成为党政机关“电子政务系统建设基础支撑平台”(简称“电子政务基础平台”)。它的作用在于统一电子政务各个子系统的基础支撑体系,让各个子系统从开始建设就拥有了统一的基础支撑体系和整合的基础,避免了各系统分散建设,各自为政的现象。

在此次的整合方案中,充分继承现有“电子政务基础平台”的核心思想,在“电子政务基础平台”的架构下形成了以“统一用户体系”、“统一权限体系”和“统一信息分类体系”为核心的统一基础支撑平台。在此基础上加以继续修改、完善,并且在“统一用户体系”基础上,为统一各系统身份认证而延伸建设的“统一身份认证平台”和在“统一信息分类体系”基础上,为统一各系统集成、访问和各系统数据信息获取、集中展示而延伸建设的“统一信息门户平台”。

核心整合技术

统一用户管理组件,主要承担两大职能工作: 一是管理职能――负责系统整合平台全部用户信息的管理和维护; 二是服务职能――负责向各系统提供应用接口和服务。

统一权限管理组件,主要承担两大职能工作: 一是管理职能――负责系统整合平台全部权限信息的管理和维护; 二是服务职能――负责向各系统提供应用接口和服务。

统一信息管理组件,主要承担两大职能工作: 一是管理职能――负责系统整合平台全部信息分类的管理和维护; 二是服务职能――负责向各系统提供应用接口和服务。

应用组织引擎,是各系统集成组织、统一展示和统一访问的还原核心,该还原核心组件将根据应用的分类组织配置信息和各应用访问权限的控制信息,对系统应用进行展示和实现系统应用的调用访问、操作。

应用组织的总体结构为多级门户+门户布局框架+应用(功能栏目)。整合分布式应用系统形成具有统一用户入口、分类导航、分级授权的系统应用集合。

门户展示引擎,根据用户的个人门户配置信息、门户框架模板信息,还有各个系统的信息模块组件,对信息进行展示。

门户展示引擎除普通数据信息还原外,还可结合数据展现工具,对数据以统计报表、图表等方式展示。通过展现工具与信息门户有效整合,方便生成综合报表、专题分析、动态查询数据。根据用户的个性化要求,门户展示组件将可以针对不同岗位(部门)、不同人员的使用对象,按照统一的授权规则或特定要求,提供相应的内容和功能。

链 接

电子政务整合后的三大优势

优势一: 成熟的应用保障

“电子政务基础平台”是党政机关电子政务建设十多年的经验积累,是党政机关电子政务建设的应用基础支撑,作为电子政务应用的整合基础,十多年来得到了很好的验证和应用。

优势二: 成熟的保密安全保障

“电子政务基础平台”不仅仅是一个独立的应用基础支撑体系,而且是建立在“密码保密管理权、信息内容控制权、技术支撑权”三权分立的“保密模型”基础之上的,也是“保密模型”中的一个重要组成部分。“电子政务基础平台”的体系设计和开发都严格遵循“”保障要求,拥有非常高的保密性,是真正的信息系统基础支撑体系。

优势三: 国产化软件的集成优势

建设了一系列国产化的基础类、认证加密安全类、支撑类、应用类软件,为了快速、标准化地进行电子政务应用软件开发,建设了表单设计器、代码生成器、工作流平台、信息平台等开发工具平台。

篇12

中图分类号G201文献标识码A文章编号 1007-5739(2011)03-0047-03

AgricultureInformation′sClassificationBasedonReticulateFrame

YU Xin-kai 1LI Bin2MAO Min 1

(1 Guangzhou City Construction College,Guangzhou Guangdong 510925; 2 Guangzhou Agriculture Information Center)

AbstractBased on analysis of the system of agricultural information resources at present,a new measure so-called classification based on reticulate frame was brought forward,which helped to construct a scientific,efficient,lively system for the information resources.

Key wordsagricultural information classification;problems;reticulate frame;theory;principle;advantage

自1994年实施“金农工程”开始至今,农业类信息网站由最初的“中国农业信息网”(1996年建成)发展到目前已经超过3万家,2009年前8个月就增加了逾8 000家,增长率达到38%,远远高于全国互联网站平均增长速度[1]。

综合对比全国各地的农业类信息网站,虽然我国各类农业信息系统在数量上和规模上一直处在持续增长势头,农业信息资源也不断地充实扩大,但由于农业行业所涉及的相关领域十分广阔,知识与信息内容繁多;加之我国在农业信息化建设方面尚未建立统一的数据标准,使得众多农业类信息系统在信息采集、内容组织与展现、数据挖掘方面都各不一致,以致难以实现信息的高效共享,不利于信息资源的开发利用。

1农业信息资源的基本涵义

根据中国电子信息产业发展研究院的定义:农业信息化是指利用现代信息技术和信息系统为农业产供销及相关的管理和服务提供有效的信息支持,并提高农业的综合生产力和经营管理效率的相关产业的总称。具体内容包括:农民生活消费信息化;农业生产管理信息化;农业科学技术信息化;农业经营管理信息化;农业市场流通信息化;农业资源环境信息化;农业管理决策信息化[2]。

根据《全国工农业产品(商品、物资)分类与代码》(国家标准GB7635)的分类,农业作为第一产业,其包括农业产品、营林产品、人工饲养动物与捕猎的野生动物及其产品、渔业产品、观赏植物和其他农、林、牧、渔业产品等六大类[3]。

据此,笔者认为对农业信息资源进行严格的、层次分明、界限明显的分类是比较困难的,其不像教育、社会保障、医疗卫生、交通运输、房地产等领域的信息资源那样具有较高的内聚度和信息受用者的单一性、确定性和稳定性。通过对比很容易看出农业网站的信息内容“大而全”的特征面貌。

2对农业信息资源进行分类的必要性

“农业”是一个范畴非常广泛的概念,凡是与农业相关的信息都可以作为农业信息――这几乎是目前所有涉农网站信息内容所表现出来的“默认”看法或做法,是合乎逻辑、无可非议的。问题是,如果凡是信息皆为“信息”,那么让信息受用者在这样海量的信息世界里找答案就像是让他们在图书馆里找法律条文一样难。因此,有必要对农业信息资源的分类和呈现进行系统的技术分析,建立一个科学的、规范的、精简的、高效的、实用的农业信息资源体系,使农业信息从最初的形成,到加工,再到最终的呈现,整个生存周期都能一直保持“所见即所得”的理想状态。即让信息受用者通过最简便的方式,在最短的时间内获取其认为有价值的信息。

3现阶段农业信息的分类状况

3.1常用的分类方法

按照传统的分类方法,根据不同的维度[4]作为标志对农业信息资源进行分类,常用的分类方法有以下几种:一是按信息所涉及的活动行为划分,可分为农业行政管理、生产管理、经营管理、市场流通、农业科研等信息。二是按信息所涉及的商品对象划分,可分为粮油、蔬菜、水果、水产、畜禽、花卉、农副产品、生产资料等信息。三是按信息内容的表现形式划分,可分为文本、数字、图表、图片、声音、演示稿、视频、地理信息等多媒体信息。四是按信息表达内容所属的文种划分,可分为政策法规、政务公开、新闻报道、价格行情、科普知识等信息。五是按信息所体现的功能作用划分,可分为政务办理、信息查询、在线论坛、问卷调查、上传下载、电子商务等。六是按信息发生的时间划分,可分为历史信息、当前信息和预测信息。七是按信息的时效特征划分,可分为实时信息、准实时信息和延时信息。八是按信息的空间范围划分,可分为世界、全国、各地方的农业信息。九是按信息内容变化的频度划分,可分为静态信息和动态信息。以上各类分类方法在文献表述上是可行的,根据研究对象侧重点的不同而采用不同的维度进行分类。但是将包罗万象的农业信息资源注入到一个相对不区分研究对象的农业信息系统中去,并同时保持各类信息之间清晰的界限和层次结构,这就不是一件容易的事。

3.2传统分类方法存在的问题

一般都采用树形结构对农业信息资源进行分类,这也是目前大多数农业网站所采用的一种方法。这样的分类方法就其效果而言是比较直观、易于理解,便于内容的组织与归纳(图1),但其一方面忽略了各分支节点的内容交叉性;另一方面切割了各分支节点之间的内在客观联系。

一个典型的例子就是水果农产品的分类,按果类品种可分为苹果、荔枝、龙眼、芒果等,一些农业网站相应地分别开设荔枝信息栏目、龙眼信息栏目等,但若同时也开设了“农科园地”栏目时,那么关于荔枝栽培技术的信息应该放在“荔枝专栏”还是“农科园地”呢?

对于分支节点的内容交叉性问题,有人曾提出笛卡尔积的解决办法,即N1×N2×……×Nm×……×Nn,其中n是维度数,表示有n种分类方法,按每一种分类方法可将农业信息分为Nm类,以此来达到完整地覆盖所有分支节点的目的(图2)。

举个例子,比如某农业网站有3个信息栏目:一是栽培技术栏目下开设了荔枝、龙眼、芒果等子栏目;二是荔枝栏目下开设了栽培技术、市场信息、名优品种等子栏目;三是市场信息栏目下开设了畜禽、水果、花卉子栏目,水果子栏目下又开设了荔枝、龙眼、芒果等子栏目。按照这种设计方法,栏目的数量和其结构的复杂度将按级数递增,无论是内容的管理策划者还是信息浏览者都很容易陷入迷宫阵,既不方便内容的管理又不利于信息的传递,同时又造成了大量冗余的信息重复出现。

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

对于按树形结构分类法,则会隐藏掉事物间的内在客观联系规律。例如将关于荔枝、龙眼的产量、上市信息分别放置在荔枝专栏和龙眼专栏中,则会让人难以发现这2种水果在产量和销量方面的联系。实际上,在珠三角地区能种植荔枝的地方一般也可以种植龙眼,而且是在同一季节收摘和上市的,同时面向总销量比较稳定的消费市场。因此它们之间的产量和销量肯定会存在一定的客观联系,而这些规律正是数据挖掘者所关心的,因为这些相关数据正是创造信息价值所依赖的基础,是实现信息资源二次开发利用的关键因素。

4网状结构分类法的实现

4.1网状结构分类法的原则

在构建网状结构的农业信息分类体系时,应当把握好以下原则:一是科学性原则[5]。所选择的维度标志必须能反映事物的本质特征并具有明显的区别功能和稳定性,以满足分类的客观要求。二是系统性原则。每一个分类维度标志的内涵都必须是互相独立、无重复的,所有维度标志的总和所涵盖的内容能够构成完整的农业信息范畴和领域。三是规范性原则。分类首先应该符合相关的国家标准、行业标准和其他规范性文件。四是实用性原则。应充分满足生产、流通及消费的需要,同时要有利于数据挖掘和知识发现。五是扩展性原则。要事先预见并设置或预留足够的类目,以保证在新事物出现时不至于打乱已建立的分类体系和结构。六是兼容性原则。即同一个信息单元出现在不同的类目时,既不会带来信息冗余,也不会产生内容上的歧义。

4.2网状结构分类法的设计原理

在数据仓库理论中有一种数据组织模型叫做数据立方体,是n维笛卡尔积空间的表现为三维的形式。网状数据结构则是结合上述的树形数据结构和n维笛卡尔积空间结构经过改进演化而来的(图3)。

4.3构建步骤

一是将农业信息资源按照树形结构分类,如图1所示;二是调整每一个维度及其分类的位置并旋转一定的角度,形成一个有边界的多边形整体效果,将所有的农业信息单元数据对象放在这个全集空间中考察;三是对于实践中所生产的每一个信息单元,先根据信息的主要功能与价值确定其直接归属的栏目,用实线连接该信息单元和其宿主栏目;四是考察信息单元与其他栏目的关联性,关联性强的用虚线连接,关联性弱的则不连接;五是当所有的维度分类和信息单元都在这个全集空间中标示出来时,再把该模型放到立体空间去观察,最后得到一个球形网状的结构模型[6]。

5基于网状结构的农业信息分类技术的优点

一是有效地考虑到了不同维度的交叉部分,实现了各类农业信息的相互兼容性,消除了信息损耗。二是有利于揭示不同信息单元之间的内在客观联系,为进一步的数据挖掘和信息资源开发利用提供很好的原始数据。三是消除了笛卡尔积分类结构带来的大量多余的、空的、无意义的冗余信息,使整体结构更加清晰,同时也为物理设备节省了大量的存储空间。四是所有信息单元与其宿主栏目和关联栏目都用连线连接,使得整个分类系统更加富有组织性、有机性,为信息的查询、检索、汇总统计提供了丰富的线索。五是使得信息采集、编辑工作更加高效,例如对于一则标题为“荔枝农庄新景象,现摘现买又观光”的信息,同时兼有新闻、市场行情、休闲观光等性质,既可以放在水果栏目又可以放在新闻栏目,按传统的分类方法,经常会给网站信息工作者带来烦恼和随意性。而按网状结构分类方法,将荔枝专栏作为该则信息的宿主栏目,同时为其附加上新闻、市场、观光、图片等维度的属性标记,再通过一定的信息呈现技术手段,使得信息浏览者在相关栏目下也能获取该则信息。

6结语

农业信息化建设在全国范围内取得如此迅速的发展,在很大的程度上得益于国家同时对农业基础设施和IT产业的大力投入[7-8]。从基础设施的建设规模来看,确实取得了长足的发展,许多边远山区都得到了信息服务的延伸和覆盖。但基于目前大多数农业信息系统的发展现状,我国的农业信息服务水平在功能与效用方面还处在粗放型的阶段。基于网状结构的信息分类技术为如何进行农业信息资源的深度数据挖掘和开发利用提出了解决思路,在分类技术上提出了更加适合于我国农业信息资源体系建设的解决方案。

7参考文献

[1] 王法英,孙锐.中国农业网站基本情况分析报告[EB/OL].(2009-10-16)[2010-11-03]..

[2] 搭建信息化平台推进新农村建设[EB/OL].(2010-03-18)[2010-06-20].省略/art/184371201003/8/2015483-1.html.

[3] 国务院.GB7635.全国工农业产品(商品、物资)分类与代码(国家标准GB7635-87)[S].北京:中国标准出版社,1987.

[4] 王健,甘国辉.多维农业信息分类体系[J].农业工程学报,2004,20(4):152-155.

[5] 严方.试论互联网农业信息分类的原则和方法[J].安徽农业科学,2007.

[6] 罗德一.农业网络信息分类体系初探[J].农业图书情报学刊,2010(8):84-87.

[7] 牛振国,崔伟宏,符海芳.多维网络农业信息分类框架的初步研究[J].农业系统科学与综合研究,2003,19(4):274-277.

友情链接