时间:2023-03-15 14:56:27
引言:寻求写作上的突破?我们特意为您精选了12篇数据信息论文范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
二、戏剧表现方式的创新
国内很多艺术家八方出击、四面顾盼对一种现代化戏剧表现方式予以寻找,最终将其突破口找出,即同是艺术范畴的小说、诗歌、散文以及电影等银山金矿,所以,艺术家对其中的瑰宝和精华予以汲取,并将其完美融合于戏剧中。
三、戏剧艺术发展前景
未来戏剧艺术必将向商业化方向发展,此为戏剧繁荣昌盛的必然趋势。对于戏剧演员而言,今后会归于市场,无需专属剧院。并由导演决定剧目,再依照剧目之需选拔演员,从理论方面优化配置资源,该现象与市场经济原则相符合。而对于戏剧而言,其目的是对观众审美水平进行培养,弘扬我国数千年戏剧文化。因此,应该尽可能的平衡演员补贴,降低剧目奖励评比率,以培养演员为艺术献身的道德素养与职业精神。由此戏剧才能达到更为真实的效果。对于戏剧本身而言,今后会逐渐渗透小剧种,如此环境中,很多具有艰难生存境遇的小剧种就会尝试着对其音乐、灯光、舞美以及配器等予以改进,以此吸引更多的年轻观众,进而这些小剧种就会升级为文化热点,此为中国戏剧前景的一个管窥。此外,今后我国戏剧艺术还会融入现代科技,以吸引更多的观众群,彰显戏剧独特的表演魅力。
2交换机常见的攻击类型
2.1MAC表洪水攻击
交换机基本运行形势为:当帧经过交换机的过程会记下MAC源地址,该地址同帧经过的端口存在某种联系,此后向该地址发送的信息流只会经过该端口,这样有助于节约带宽资源。通常情况下,MAC地址主要储存于能够追踪和查询的CAM中,以方便快捷查找。假如黑客通过往CAM传输大量的数据包,则会促使交换机往不同的连接方向输送大量的数据流,最终导致该交换机处在防止服务攻击环节时因过度负载而崩溃.
2.2ARP攻击
这是在会话劫持攻击环节频发的手段之一,它是获取物理地址的一个TCP/IP协议。某节点的IP地址的ARP请求被广播到网络上后,这个节点会收到确认其物理地址的应答,这样的数据包才能被传送出去。黑客可通过伪造IP地址和MAC地址实现ARP欺骗,能够在网络中产生大量的ARP通信量使网络阻塞,ARP欺骗过程如图1所示。
2.3VTP攻击
以VTP角度看,探究的是交换机被视为VTP客户端或者是VTP服务器时的情况。当用户对某个在VTP服务器模式下工作的交换机的配置实施操作时,VTP上所配置的版本号均会增多1,当用户观察到所配置的版本号明显高于当前的版本号时,则可判断和VTP服务器实现同步。当黑客想要入侵用户的电脑时,那他就可以利用VTP为自己服务。黑客只要成功与交换机进行连接,然后再本台计算机与其构建一条有效的中继通道,然后就能够利用VTP。当黑客将VTP信息发送至配置的版本号较高且高于目前的VTP服务器,那么就会致使全部的交换机同黑客那台计算机实现同步,最终将全部除非默认的VLAN移出VLAN数据库的范围。
3安全防范VLAN攻击的对策
3.1保障TRUNK接口的稳定与安全
通常情况下,交换机所有的端口大致呈现出Access状态以及Turnk状态这两种,前者是指用户接入设备时必备的端口状态,后置是指在跨交换时一致性的VLAN-ID两者间的通讯。对Turnk进行配置时,能够避免开展任何的命令式操作行为,也同样能够实现于跨交换状态下一致性的VLAN-ID两者间的通讯。正是设备接口的配置处于自适应的自然状态,为各项攻击的发生埋下隐患,可通过如下的方式防止安全隐患的发生。首先,把交换机设备上全部的接口状态认为设置成Access状态,这样设置的目的是为了防止黑客将自己设备的接口设置成Desibarle状态后,不管以怎样的方式进行协商其最终结果均是Accese状态,致使黑客难以将交换机设备上的空闲接口作为攻击突破口,并欺骗为Turnk端口以实现在局域网的攻击。其次是把交换机设备上全部的接口状态认为设置成Turnk状态。不管黑客企图通过设置什么样的端口状态进行攻击,这边的接口状态始终为Turnk状态,这样有助于显著提高设备的可控性。最后对Turnk端口中关于能够允许进出的VLAN命令进行有效配置,对出入Turnk端口的VLAN报文给予有效控制。只有经过允许的系类VLAN报文才能出入Turnk端口,这样就能够有效抑制黑客企图通过发送错误报文而进行攻击,保障数据传送的安全性。
3.2保障VTP协议的有效性与安全性
VTP(VLANTrunkProtocol,VLAN干道协议)是用来使VLAN配置信息在交换网内其它交换机上进行动态注册的一种二层协议,它主要用于管理在同一个域的网络范围内VLANs的建立、删除以及重命名。在一台VTPServer上配置一个新的VLAN时,该VLAN的配置信息将自动传播到本域内的其他所有交换机,这些交换机会自动地接收这些配置信息,使其VLAN的配置与VTPServer保持一致,从而减少在多台设备上配置同一个VLAN信息的工作量,而且保持了VLAN配置的统一性。处于VTP模式下,黑客容易通过VTP实现初步入侵和攻击,并通过获取相应的权限,以随意更改入侵的局域网络内部架构,导致网络阻塞和混乱。所以对VTP协议进行操作时,仅保存一台设置为VTP的服务器模式,其余为VTP的客户端模式。最后基于保障VTP域的稳定与安全的目的,应将VTP域全部的交换机设置为相同的密码,以保证只有符合密码相同的情况才能正常运作VTP,保障网络的安全。
2大数据时代图书馆信息安全面临的威胁
大数据时代,数据资源将逐渐成为图书馆最重要的资产之一,决策行为将在数据分析的基础上做出。作为以数据分析利用和信息服务为己任的图书馆,它的信息安全将面临着大数据带来的挑战。
2.1存储安全问题
图书馆关注的数据已不仅限于书目信息、读者信息、电子期刊等业务数据,还延伸到微信、微博、移动网络等读者活动中产生的很难估量的社会化数据。如此庞大的数据集对图书馆的存储、软硬件设施是个考验。如何防止这些数据丢失、损毁、被非法盗取及利用是图书馆安全存储面临的一项挑战。另外,大数据环境下的图书馆为了降低成本,通常会将数据存储在云端,云的开放性,海量用户共存性等都带来了潜在的威胁。
2.2网络安全问题
图书馆是以网络为基础来传递信息和数字资源,为读者提供服务。在网络上,大数据成为更易被攻击的显著目标。图书馆的“大数据”不仅包含了海量数据资源,还包含了读者行为、敏感数据等,这些海量的信息资源将吸引更多的攻击者,也使大数据成为更有吸引力的目标。另外,黑客利用大数据发起的僵尸网络攻击,能够同时控制百万台机器,这是传统单点攻击做不到的。利用大数据,黑客能够发动APT攻击,APT的攻击代码隐藏在大数据中,很难被检测到。
2.3隐私泄露问题
社交网络、微博、移动网络等这些信息服务新形式的快速发展,互联网每时每刻都在产生海量的数据。读者的个人数据可能被任意搜索、获取,这将极大地威胁隐私安全。一方面,图书馆的海量数据信息资源、读者信息、读者行为、科研信息等数据高度集中,即使不被盗取滥用,也增加了数据泄露的风险。另一方面,对于某些重要数据、敏感数据以及隐私数据的挖掘分析,其使用权没有明确界定,这都将会涉及隐私泄露。
2.4知识产权问题
大数据时代,图书馆虽然会把越来越多的数据资源交给“云”提供商代为托管,但是图书馆应完全拥有这些被托管数据资源的知识产权。然而现实中“,云”提供商利用大数据技术对图书馆的数据资源进行挖掘、发现、分析进而整合成新的数据产品加以利用,本该由图书馆所唯一拥有的数据,一旦被“云”提供商开发成产品,知识产权的界定就成为图书馆要面临的新难题。
3大数据时代图书馆信息安全应对策略
大数据资源将成为图书馆的核心资产。图书馆在利用数据处理、数据挖掘、数据分析等技术获取大数据蕴藏的高价值,创新服务模式,提高服务质量的同时,应重点考虑如何确保数据资源存储安全,如何降低网络安全威胁,如何防止隐私泄露等。大数据时代的图书馆应首先从技术层面保障存储安全,提高网络安全防范技术;其次,建立数据监管体系,对读者和图书馆的重要数据、敏感数据、隐私数据进行监管;最后,加强图书馆信息安全制度和相关政策法规建设。
3.1保障存储安全
图书馆的数据资源在无限增长,规模日益庞大,保障这些数据资源的安全存储显得尤为重要,同时对硬件设施也是巨大考验。现有的存储系统无法充分有效地存储、管理、分析大数据,限制了数据的增长。大数据时代的图书馆为了降低运维成本,缓解硬件设施压力,应考虑将数据和信息存储在云端,利用云存储实现数据的存储、管理以及分析。云存储,即基于云计算的存储系统,其可扩展性、灵活性、运算高效性能够解决大数据存储和管理存在的问题。但是,云存储具有数据规模海量、管理高度集中、系统规模巨大、平台开放复杂等特点,这些都将对信息安全带来威胁。因此,保障云安全是大数据时代图书馆信息安全的基础。图书馆作为云存储服务用户,最关心的就是存储在云端的数据是否完整安全,是否有人非法访问,以及当合法访问这些数据时是否能获得有效且正确的数据。因此,应重点研究运用身份认证、加密存储、数据灾备这3种技术手段来保障云安全。
(1)身份认证。
加强图书馆云存储上数据的管理,实行身份认证,确保管理员、读者用户、云存储服务提供商等经过认证获得访问权限后,才可管理、分析、访问“云”上的数据资源。云存储具有跨平台、异构、分布式等特点,为了提高管理员、用户的访问效率,应建立有效的单点登录统一身份认证系统,支持各图书馆云存储之间共享认证服务和用户身份信息,减少重复验证带来的运行开销。
(2)加密存储。
对文件和数据进行加密保存,确保图书馆云存储上的数据资源在存储和传输过程中,不被意外或非意外损毁、丢失、处理及非法利用。加密存储主要包含两部分工作:一是密钥的管理和产生,二是应用密钥对数据进行加密存储和解密读取。云存储系统为每位注册用户生成一个解密密钥,系统将数据加密存储在数据中心,用户读取加密数据后,利用自己的解密密钥恢复数据,得到原始数据。这一过程对存储性能和网络传输效率会有一定影响,因此图书馆一方面要加快对加密存储技术的研究;另一方面可以考虑先只对重要数据、敏感数据、个人信息数据进行加密存储。
(3)数据灾备。
云计算技术对于数据灾备具有天生的优势。将虚拟化技术、分布式技术和云计算技术结合可实现多点备份、数据自动冗余存储、云节点无单点故障数据级灾备。图书馆可以利用云存储在不同的地方建设两个及以上的图书馆云存储数据中心,构成一个跨地域的统一存储平台,各业务部门和每个用户都可以共享共用这些数据。保证只要有一个数据中心完整,所有数据就不会丢失且能够提供持续服务。
3.2提高网络安全防护技术
随着图书馆数据资源总量的增加和新型社交网络下读者原创数据爆炸性增长,网络在线数据呈现急剧增长的趋势,导致黑客的攻击欲望比以往更为强烈,其手段和工具也更为复杂、更加专业。大数据对图书馆网络安全策略提出更高的要求,从技术层面来说,图书馆网络安全策略包括漏洞扫描、入侵检测、访问控制和网络安全审计4种技术手段,任何一个单一的防范手段都无法保障图书馆网络的安全性。
(1)漏洞扫描。
漏洞扫描包括检测路由器、交换机、防火墙、各应用服务器OS、应用系统以及工作人员用机的安全补丁、系统漏洞、病毒感染等问题。漏洞扫描系统应及时发现系统漏洞、木马、病毒、蠕虫、后门程序、网络攻击、ARP等,并提供修复、查杀、拦截、防御的有效工具,同时能够对图书馆整个网络系统进行风险评估,以便采取相应措施及时消除系统中的安全隐患。与以往的漏洞扫描不同的是,大数据时代,对于海量数据的扫描,将会花费很长的时间,因此需要研究解决如何提高网络海量数据检测扫描的精确度和速度。
(2)入侵检测。
随着图书馆信息资源和数据资源共建共享步伐的加快,图书馆私有云和行业云的建设加快,网络应用范围在不断扩大,来自校园网内部和外部的黑客攻击、非法访问等安全问题与日俱增,因此对恶意入侵的检测与防范刻不容缓。大数据对信息安全是把双刃剑,应利用大数据的分析技术,通过分析来源信息,能够自动确定网络异常。进一步研究更有效的检测手段,完成APT高端检测,做到多点、长时、多类型的检测。
(3)访问控制。
接入图书馆网络的用户,在使用海量数据资源之前,必须进行身份认证和权限划分,用户通过认证获得授权之后,才可以根据自己的权限访问相应的数据资源和应用系统,获取相关的数据分析结果等。采用单点、统一认证方式,并结合PMI权限控制技术,加大认证加密技术研究,有效控制不同用户分不同级别访问管理数据、访问数据、获取数据以及应用大数据分析结果。
(4)网络安全审计。
相比入侵检测系统,网络安全审计没有实时性要求,因此可以对海量的服务器运行日志、数据库操作记录、系统活动等历史数据进行分析,并且可以利用大数据进行更加精细和复杂的分析,发现更多的黑客攻击种类,其误报率也将低于传统的入侵检测。
3.3建立数据安全监管机制
大数据关键技术的快速发展,为图书馆大数据的存储与分析奠定了基础,大数据将成为图书馆的重要资产。但是,海量数据和数据分析结果一旦泄露,相对于以往,对读者个人甚至整个图书馆界将会造成巨大的经济损失,还可能导致声誉受损,严重的还要承担相关法律责任。大数据安全不仅是技术问题,更是管理问题。因此,大数据时代,图书馆除了要从技术上实现存储安全、云安全、网络安全等方式来抵御外来的信息安全威胁,更需要加强在数据安全监管、数据资源共享机制、数据隐私保护、敏感数据审计等方面的制度建设,从管理上防止图书馆核心数据、隐私数据和敏感数据的泄露。力图建立贯穿于数据生命周期的数据监管机制。在技术层面,运用先进的信息技术手段开展数据监管工作,如利用现有隐理、数据预处理等技术保障数据在使用和传输中能够拒绝服务攻击、数据传输机密性及DNS安全等。在管理层面,提高图书馆工作人员的信息安全意识,加强各业务部门内部管理,明确重要数据库的范围,创新有效科学的数据监管手段与方法,制定终端设备尤其是移动终端的安全使用规程,制定并完善重要数据、敏感数据、隐私数据的安全操作和管理制度,规范大数据的使用方法和流程。
3.4加强图书馆信息安全制度建设
依据信息安全管理国际标准ISO27000,明确大数据时代图书馆的实际安全需求和安全目标,量化各类数据资源的安全指标,建立全方位、立体、深度的信息安全防御体系。以信息安全防御体系为基础,建立信息安全责任人负责制的组织机构;制定日常安全运维制度,包括存储、业务系统以及各应用系统的安全运行监控制度、数据监管制度、移动终端检测制度、网络安全制度等;制定应急响应制度,包括数据灾备制度、数据恢复制度、故障系统恢复制度等。对于存储在云端的数据,建立数据共享制度和机密保护制度。根据保密级别、共享级别、开放级别等明确访问权限等级划分,制定数据的访问、检索、下载、分析等方面的规定;建立身份认证和权限控制机制,控制非法授权访问数据;制定数据云存储的安全规定,加密关键数据;制定数据所有权条款,防止“云”提供商第三方泄密。建立相应的法律政策保护数据利用时涉及的知识产权,保障数据资源的合理合法使用,维护图书馆利益,保护知识产权。
(一)数据信息技术系统的构成数据信息技术系统的构成是由MC50、RFID以及一些其他数据采集终端和无线网络联合构成的。通过这些技术与医院仓库后台服务器进行实时交互。医院仓库应用有线网络对数据库的信息进行查询以及录入,并实现数据的共享和交互,保持医疗信息数据的同步。
(二)数据信息技术系统的功能模块数据信息技术系统的功能模块主要包括医院仓库的采购管理模块、入库管理模块、出库管理模块、库存管理模块、会计管理模块以及物资质量管理模块。
(三)数据信息技术系统的工作流程数据信息技术系统的工作流程是比较明确的。当材料进入医院的仓库时,材料物品一定要贴上条码或者RFID等信息化标签,并在后台映射与其对应的数据。医院仓库管理工作人员应该持手持终端接入无线网络,通过网上申领,填写医院仓库领用物品名称、数量以及信息。医院仓库管理的工作人员通过PC上查看科室领用计划,并根据这个领用计划来准备材料。医疗材料出库之后,应该将领用的物品保存在智能耗材柜中。
Abstract:DataisveryimportantforLandInformationSystem,AkeytoLandinformationthesystem''''sdevelopmentssuccessiswhetherthedataquantityisaccuracy.ThispaperwillStudythedataquantitytheprobleminLandinformationthesystemestablishtheprocess.
Keywords:LandInformationSystems;DataQuality;Error;Accuracy;RemoteSensing;Digitize;Resolution;CoordinateTransformation;VectorData;RasterData;Topological.
一、前言
土地是人类的宝贵财富,是人类社会进行物质生产所必需的基本条件和自然基础。如何科学、合理地利用有限的土地资源,如何及时了解与掌握土地利用变化数量和空间特点,对于保持耕地总量动态平衡和土地持续利用具有十分重要的意义。
随着社会经济的日趋多样化,土地部门的业务工作及范围也在不断扩大,原有的靠手工操作,图纸管理的模式已经越来越不能满足高效率的需求。为强化土地管理,满足社会对土地资源信息更多、更细、更完善的服务要求,各土地管理部门纷纷加入信息化、数字化的改革大潮。特别是在市场经济条件下,因土地管理部门工作的严肃性、准确性、科学性和规范化要求,管理中任何规定的确定和变更都需要完成大量的信息收集、分析、综合、决策和评估等工作,土地管理也只有强有力的信息技术(IT)的支持下,才能做到真正的科学决策和管理。
土地信息系统(LIS)是地理信息系统的一个分支,是一种基于宗地[以宗地(地块)为单位]的计算机管理信息系统。是一种利用计算机技术及其属性数据进行采集、处理、管理、查询、分析、应用和维护更新的空间信息系统,是土地管理的现代化工具,是土地规划和管理定量化、科学化的方法、手段。但是,在土地信息系统的建设过程中,还存在许多问题,给土地信息系统的建设及发挥带来一定困难。这里仅对土地信息系统建设中的数据质量问题进行探讨。
二、对LIS数据质量的认识
数据是一种未经加工的原始资料,是客观对象的表示,它可以是数字、文字、符号、图像,数据是信息的具体表达形式。一个LIS系统包括空间数据、属性数据、空间数据之间的关系以及空间数据与属性数据之间的关联。
人们往往以为计算机为基础的信息系统的数据质量是可靠的,很少怀疑利用信息系统产生的分析结果在数据质量方面会有问题,但事实远非如此。在某些情况下,由于多种原因,计算机分析的结果甚至会比手工分析的误差更大。这里除软件、硬件的质量问题,计算方法上的问题,以及分类、编码、输入、操作的明显疏忽外,数据本身的质量是重要的原因。
众所周知,数据是LIS的“血液”,是组成系统的重要元素。数据质量的好坏是土地信息系统成功与否的关键所在;数据质量的高低优劣,都直接影响到土地信息系统的经济效益和社会效益,决定了系统应用价值的大小;数据的可靠,质量的好坏将直接影响到整个系统的成败。系统如果不能提供正确、可靠的信息,这个系统也就失去了存在的价值。
数据质量的好坏是一个相对概念,并具有一定的针对性。衡量其好坏主要有以下几个指标:误差、数据的准确度、数据的精度和不确定性[1]。数据质量是数据整体性能的综合体现。
统而言之,数据的质量问题主要表现在两个方面:一是数据是否及时反映了现实世界;二是数据是否保持了一致性和完整性。
土地信息系统的数据量大,数据来源广,数据采集的任务重,在数据库建立过程中会出现许多人为和系统的误差,甚至还有可能产生数据错误,最后采集的数据无法准确反映规划和管理的实际状况,建立在此数据库基础上的系统往往也就达不到管理自动化辅助决策的目的,而只不过是“看看而已”的一种“摆设”罢了。
数据库(包括空间数据库和非空间数据库)是土地信息系统最基本、最重要的组成部分,也是投资比重最大的部分。数据质量的好坏,直接影响系统的功能和应用。不仅要根据技术规程衡量数据质量,还要从数据使用角度分析数据质量问题。数据质量通常是指数据的可靠性和精度,它主要用数据的误差来度量的。现就土地信息系统建立过程中的数据质量问题作进一步的探讨。
三、数据源质量的问题
土地信息系统的数据源指建库中所需要的各种数据类型的来源。它是土地信息系统最基本、最重要的组成部份。土地信息系统的数据源多种多样,主要包括有:地图,地图是系统最主要的数据源,因为地图是地理数据的传统描述形式,是具有共同参考坐标系统的点、线、面的二维平面形式的表示,内容丰富,图上实体间的空间关系直观,而且实体的类别和属性可以用各种不同的符号加以识别和表示。土地信息系统其图形数据大部分都来自地图,土地信息系统的属性数据主要有地籍图、宗地图、土地详查图、土地利用现状图、行政区划图、专题图、乃至地形图等各种图件的矢量化地图数据。二是遥感影像数据,遥感影像数据是一个极其重要的信息源。通过遥感影像可以快速、准确地获得大面积的、综合的各种专题信息,航天遥感影像还可以取得周期性的资料,这些都为土地信息系统提供了丰富的信息。三是统计数据,包括土地的分类、面积、权属、分布及质量、等级状况、利用状况、非法占地等统计资料。四是实测数据,包括GPS点位数据、地籍测量数据等。五是数字数据,包括数字图形数据和属性数据。数字数据主要有地籍号、档案卷宗号、地类号、图号、手簿号、宗地界址点点号及坐标控制点坐标,宗地面积,面积中误差、年代、日期等等。属性数据包括图形、图像以外的各种文字、数字信息。其中文字信息主要是与宗地档案,文件档案组成相关的各种检索和查询信息(如:土地权利人姓名或单位各称、土地座落,文件档案的标题、发文机关、公文字号等等),以及土地登记、地籍调查、权属审核、登记发证各办公流程中的各种键盘输入信息。六是各种立法文件和文字档案,主要有地籍档案、文件档案等具有法律效力或需要经常查阅的原始文件材料,它们是土地信息的重要组成部分,在土地的规划管理中起着很大的作用。
数据源质量问题指数据的采集和录入中可能产生的误差,建库所需的各种类型的数据的可靠性和精度。
从土地信息系统建立的过程来看,它的主要因素有:各种测量数据,地图和遥感数据等的误差;调查和统计造成的属性数据误差,以及文档数据的错误等,数字化前的预处理、手扶踀自动化的分辨率和矢量化精度。
1、遥感数据
地理信息系统、遥感和计算机辅助制图是现代地理学的重要技术手段。遥感作为一种获取和更新空间数据的强有力手段,能及时地提供准确、综合和大范围进行动态监测的各种资源与环境的信息,因此遥感数据是土地信息系统的一个重要数据源。
所谓遥感(RemoteSensing)就是遥远感知的意思,也就是不直接接触目标物和现象,在距离地物几公里到几百里、甚至上千里的飞机、飞船、卫星上,使用光学或电子仪器接受地面物体或发射的电磁波信号,并从图像胶片或数据磁带形式记录下来,传送到地面,经过信息处理,判读分析和野外实地验证,最终服务于有关部门的规划决策[2]。土地管理部门可以运用遥感技术快速获取现状空间的信息。
尽管遥感技术有很多好处,但因其自身特性,获取的遥感数据可能存在一些误差。如:不同的高度引起的问题,由于传感器的结构及稳定性产生的问题,对信号进行数字化产生的误差。传
感器在航线、航向上出现的误差,大气辐射产生的误差,地形和地貌等因素产生的误差等等。在遥感资料的获取时,有些误差是可以控制的,有些则不可控。因此必须对原始数据进行预处理,包括利用地面控制对原始数据进行几何校正,图像增强和分类。对获取的遥感数据进行光谱校正,特征提取,自动识别分类、自动成图等处理[3]。
2、测量数据
各种原始的测量数据是土地信息系统的主要来源之一。包括宗地的权属界线、位置、形状、数量、面积、各级行政界线、地形图测量等。由于人和环境的因素,测量数据不可避免地受到人为误差(对中、读数、平分等误差)、仪器、环境的影响。来源于地面测量的数字数据中含有控制测量和碎部测量误差。其中控制点误差又受控制网的参考基准、网形和观测精度以及观测费用等因素的影响。碎部点误差除了继承了控制点的误差外,还受自身观测方法,观测精度和地界的人为判断,以及地物地貌的取舍等因素的影响。当然原始数据误差受观测仪器、观测者和外界环境三种因素影响。除此之外,还有测量数据的实时性以及数据老化,采集数据的密度不合理,或概括取舍不合理,选取测量规范标准不一致或精度等级不一致造成测量数据的不一致的影响。
地籍要素是构建土地信息系统极为关键的一步,其测量数据的精度高低决定了系统功能能否得到正确和充分发挥。
从地籍测量成果的有效性和土地管理的可能性来考虑,为了保证各权属单元之间的界线清晰,边界无争议,并且双方都能接受而不损害他人和国家的利益,地籍测量要达到一定精度。因此,必须要有相应的数据采集方法作为保证。地籍要素的采集方法目前主要有两种,一种是传统的模拟式外业测图方法,另一种是野外全数字化数据采集方法。传统方法的主要作法是在地籍控制测量的基础上,用解析法测量出权属界址点坐标,以控制点或以界址点为基础施测成地籍图,要形成入库数据信息,则要通过对原图数字化来实现。用传统数据采集方法形成地籍要素数字信息其误差影响因素较多,主要误差来源为:测站点误差m1,量距误差m2,在测图板上描绘方向线误差为m3,刺点误差m4,数字化仪采点误差m5等。按有关专著论述,一般情况下,m1≈±0.12mm,m2≈±0.2,m3≈±0.1mm,m4≈±0.14mm,这四项误差为野外采集误差。数字化m5的影响因素比较复杂,误差产生首先与图形要素有关,要素本身的复杂程度对数字化精度有显著影响,数字化仪本身的精度更应引起重视。正常情况下,用常规数字化仪进行数字化时,精度一般可达到±0.13mm。综合上述得,地籍要素采集精度m采为:
m采=±
=±
=±0.02mm
按1:500比例尺来考虑,实地误差将达到±10cm,由此可见,按传统方法施测,则拟入库的地籍要素信息很难达到规定的±5cm的精度标准[4]。
采用野外全数字化方法,界址点野外数据采集一般采用直接测定坐标法,即将全站仪或测距仪置于测站点上,对界址点上的移动棱镜进行水平角和距离测定,电子手薄记录计算。此种方法的主要误差来源为水平角测角误差mβ和测距误差mD,测角中误差角保守为±5″,测距误差主要来自移动棱镜偏离界址点位置误差,其偏离值按2cm考虑。测距平均边长取100m,按点位误差精度估算公式m2=来计算,则m≈±2cm,即便考虑测站误差和其他偶然的联合影响,点位精度也肯定在规定范围内,所以地籍要素信息数据的野外全数字化有利于提高界址点精度,从而保证地籍数据的质量。
3、调查、统计、文档数据问题
土地信息系统的建设过程中,涉及大量的调查统计数据,这些资料尚存在许多不足之处,为土地信息系统的建设带来了一定困难。
建立土地信息系统,必须首先进行土地基本信息的搜集,开展地籍调查工作,核实宗地权属,掌握土地利用状况,获得宗地位置、形状及其面积的准确数据,为建库奠定基础。
现就地籍调查工作加以探讨,众所周知,权属调查的工作之一是填写地籍调查表。由于权属调查技术性强,工作量大,参与人员多且水平不同等原因,填写后的地籍调查表或多或少会出现下面一些问题。在填土地使用者名称时,单位本应填写全称,可出现了类似这样的情况:某林业局有3宗地,而在3份地籍调查表上出现了xx林业局、县林业局、林业局等名称。按这样的名称录入建立信息系统,将导致不能正确地自动的归户。在填写土地使用者性质时,本应该写“全民”或“集体”或“个体”或“个人”,而出现了“国营”或“国有”或“私营”这样的名词。在填写宗地四至时应说明权属界线所经地物名称及归属、位置、与誰接壤。但出现了东(南、西、北)至xx,而未填出接xx。且有的四至填写错误,如两宗地共用一堵墙时,则只能出现两宗都至墙中,或一宗至墙内另一宗至墙外,但填出了两宗都至墙外或墙内等情况。在填写界址标示处的界址线位置时也有类似错误,有的表填写字迹潦草,或使用简化字,让人难以辨认。有的内容还可以猜出,但户主的姓名、调查员、勘丈员的签名等内容实在难辩;有的表中该填的内容而未填,任意涂改。
共用宗的处理,一个地块被几个权属单位共同使用,而其间又难以划清权属界线,这样的地块称为共用宗[5]。不少县(市)是这样处理的:有多少土地使用者就填多少份地籍调查表,表上的内容按各分宗填写。这样做的好处是所填的内容详细,调查表和土地登记申请书、审批表形成一一对应的关系。但其弊端也是显而易见的,其一较大地增大了填表的工作量,其二增大了复杂程度,在填写四至时,如遇一个土地使用者使用几个地块则不得不写清几个地块的四至;为填清界址指标,又得设置内部界址点,增加了宗地草图和地籍图的负荷量,填表时如不小心还会造成表与表之间的相互矛盾。为了和地调表统一,有的在形成宗地界址点成果表时,除了有宗地界址点成果表外,还有分宗的界址点成果表。如果内部界址点是在纸图上图解的,则将该宗地的宗地界址点和内部界址点和计算机展点后,会出现界址线混乱的情况。在土地信息系统建库时,这些内部点是不能当界址点录入进库的。如进库则在面积统计时,这种内部界址点所围成的区域的面积就被多统计了一次。
建立完备的信息系统,必须具备这样的条件:大比例的地形图或地籍图;野外测量的界址点数据;宗地的属性数据(土地登记申请书、地籍调查表、审批表等)。全省在进行大大规模的城镇地籍时,由于受当时的条件限制,自动化程度低,各作业单位作业水平的不同,或多或少出现一些问题。在建库时所发现的问题主要是界址点的坐标成果与地籍上的位置不吻合;相邻宗的同一界址点坐标不同;界址边长、宗地面积计算有误。某些县(市)为了进行土地登记,由于多方面的原因,在进行初始地籍调查时,只作权属调查,不作规范的地籍测量。为了计算面积,用皮尺或钢尺丈量界址边长及相关尺寸,用几何图形法计算出宗地面积,而不测址点坐标和地籍图。这样做不利于信息化的管理。
4、图形数字化
影响数据质量的因素是多方面的,有相当一部分来自于建库过程中的数字化过程。建库过程中的数据质量,包括数字化前的预处理,纸张变形、手扶跟踪数字化精度或扫描数字化的分辨率和矢量化精度。
(1)数字化前的预处理
用于数字化作业的地形图(工作底图)一般采用聚酯薄膜图,其变形一般小于0.2‰。采用纸质图纸时,图纸的尺寸随湿度和温度的变化而变化,温度不变的情况下,温度由0%增至25%,则纸的尺寸可能改变1.6%[6]。因为纸的膨胀率和收缩率不相同,即使温度回到原来的大小,图纸也不能恢复原来的尺寸。因此在数字化时要适当的比例因子,通过仿射变换进行几何纠正,以减小工作底图变形产生的位置误差,达到相应的精度。
对不同种类和比例的工作底图
进行数字化时,应注意它的投影方式是否一致,比例是否匹配。对于不同投影方式应在数字化后及时变换为系统要求的投影方式。对于不同比例应将比例尺和精度记录到元数据中,以便估记由此可能产生的误差。
(2)跟踪数字化
手扶跟踪数字是一种自动化精度较低的数字化方式,其数字化精度也因操作员及其工作的疲劳程度而异,操作员的劳动强度较高。随着大幅面扫描仪的成本不断降低,扫描和矢量化技术不断完善,这种数字化方式可能成为自动扫描数字化的一种补充。
手扶数字化是从地形图输入空间数据的最广泛采用的输入方法。把地形图放置于数字化桌上,用手持设备,跟踪每一个地图特征、数字化设备精确量测鼠标的位置,产生数据形式的坐标数据。
影响跟踪数字化数据质量的因素很多;主要有:数字化底图中地理要素的宽度、密度和复杂程度对数字化结果的质量有着显著影响。数字化仪的分辨率和精度对数字化数据质量有着直接的决定性的影响。《地形图数字化规范》规定,数字化仪的分辨率不能小于每厘米394线(约1000dpi),精度不低于0.127mm(0.005英寸)。常见数字化仪在分辨率方面通常能满足要求,而在精度方面却有相当一部分不能达到要求。在选择数字化仪时要特别注意其精度指标,以满足LIS工程的需要。数字化操作员的技能与经验不同而引入的人为因素误差是不同的,由于操作员视力、操作习惯,熟练程度和疲劳程度的不同,最佳采样点位值判断,十字丝与目标点重合程度的判断会有一定程度的差异,影响数字化的质量。操作方式(如曲线采点方式和采点数目)也会影响数字化数据的质量。
假定各种误差影响符合误差传播规律,手扶跟踪数字化的综合精度应按下式求得:[7]
m数=±
其中:m数表示手扶跟踪数字化的综合精度;m定表示工作底图定向误差,m仪表示数字化仪精度,m人表示人为因素误差。
(3)、扫描数字化
扫描数字化用高精度扫描仪将图像等扫描并形成栅格数据文件进行处理,将之转化矢量图形数据。规范规定:图形定位控制点扫描误差不大于0.1mm,相对于工作底图,矢量化后的扫描点误差不大于0.15mm,线划误差不大于0.2mm。影响扫描数字化质量的因素除原图质量外,还包括:扫描精度、定向精度、矢量化精度损失等。
①扫描仪的分辨率和精度
扫描仪的分辨率和精度对扫描数字化质量的影响是至关重要的。因此,要根据具体情况选择适当的扫描仪。目前,大幅面扫描仪大致有,滚筒式(drum),平板式(flatebed),直进式(directfeed)3种。这些扫描仪能够输出一种或多种形式栅格数据文件(二值、灰度和彩色)。
滚筒式扫描仪精度较高价格较贵,能以较高的分辨率扫描AO或更大的图纸。
平板式扫描仪与滚筒式一样精度高、价格贵、分辨率很高,但一般幅面不会超过A1幅面。由于平板式扫描仪幅面小,扫描后多需进行拼接,从而增加了工作难度,引入了更多的误差源。LIS工程一般不选用这种扫描仪。
直接式扫描仪精度较低,价格也较便宜。通常能够满足一般LIS工程的需要。
目前,需要的大幅面扫描仪品牌有:CONTEX、VIDER、ANATECH等。
在选择扫描仪时,应注意其是否采用硬件消蓝。光学分辨率代表了扫描仪的分辨率能力,而经销商往往只是给出插值分辨。同时,应注意扫描仪的歪斜失真,歪斜失真的大小与扫描仪的走纸方式有关。
②栅格数据矢量化的精度损失
在土地信息系统中,栅格数据与矢量数据各具特点与适用性,为了在一个系统中可以兼容这两种数据,以便有利于进一步分析处理,常常需要实现两种结构的转换。
栅格的矢量转换处理的目的,是为了将栅格数据分析的结果,通过矢量绘图装置输出,或者为了数据压缩的需要,将大量的面状栅格数据转换为由少量数据表示的多边形边界,但是主要目的是为了能将自动扫描仪获取的栅格数据加入矢量形式的数据库。
在栅格数据矢量的过程中的细化、跟踪等均可能引入一些误差。复杂图形全自动化矢量化效果极差,会产生众多的交叉线,导致多边形跟踪错误。对此,应采用交互式矢量化方法。因此在选择矢量化软件时不应仅仅关心自动化程度(全自动矢量化软件价格往往很高)。还要特别注意是否具有以下功能:智能去斑,裁剪,扭曲较正,比例控制,水平校正,光栅编辑和交互式矢量化等。
③扫描数字化方法误差
扫描数字化的几何分辨率是扫描数字化方法误差中最重要的误差源,减小这种误差的唯一方法就是提高扫描仪的几何分辨率。但是,随着分辨率的提高,栅格数据量以平方级速度增长。这往往造成计算机存储资源耗尽,数据处理时间平方级延长。以300dpi(约每mm12个点)的分辨率扫描时,独立点间距离的相对精度为1.4/1000左右。全自动矢量化细化过程所产生的点位误差为1~2个像素点,而交互跟踪矢量化最大点位误差可以控制在一个像素点。按300dpi计,每个像素点相当于图上0.01mm。扫描数字化综合精度可按下式计算:
M扫=±
其中:M扫表示扫描数字化的综合精度;M定表示底图定向误差;M仪表示扫描仪精度;M矢表示矢量化误差。这里,M定取±0.12mm,按300dpi计算M仪取±0.09mm,M矢取±0.1mm。则M扫=±0.180[8]。
四、数据处理质量
土地信息系统的数据库建立后,其中已经包含了数据源和数据库建库所引入的误差。数据库中的多源数据,经过系统的各种分析处理后,在形成新的数据和最后产品的过程中还会产生新的数据质量问题。这些问题包括:几何改正,坐标变换和比例变换,几何数据的编辑、属性数据的编辑、空间分析,数据格式的转换等。
1、空间分析
空间分析是对分析空间数据的技术的通称。从客观上区分,可归纳为:空间的图形数据的拓扑运算;非空间属性数据的运算;空间和非空间属性的联合运算等[9]。空间分析赖以进行的基础是空间数据库,土地信息系统的空间数据分析,是实现土地资源信息系统的实际运用的重点途径。
空间分析中的叠加分析是土地信息系统中十分常用的一种分析方法,是用户经常用以提取数据的手段之一。通过同一地区不同内容的多幅地图的叠加组合,产生新的图形和属性信息。在这个过程中往往产生拓扑匹配、位置和属性方面的数据质量问题。由于叠加时多边形的边界可能不完全重合,从而产生若干无意义多边形。对这些无意义多边形进行处理的结果往往会改变界线的位置,叠加后形成的新的多边形的属性值也可能存在由于属性组合带来的误差。
2、坐标变换
土地信息系统数据来源较多,各种数据输入信息系统应便于系统对数据进行图形显示,叠加查询,统计分析处理。LIS要实现这些功能,一个首要和基本的前提就是各种不同来源的数据在系统内必须在一致的地形图坐标系下。但是,在实际的数据采集过程中,大量的数据坐标并不一定属于系统用户所要求的坐标系,原始数据为一种坐标系,系统要求的数据为另一种地图坐标系,有的数据坐标根本没有地理意义,对此情况,必须提供从一种地图坐标系到另一中坐标系的坐标变换。
在具体的操作过程中,有可能产生新的误差。在不同比例尺下对坐标数据的重新设立产生误差,进行投影变换和/或基准面变换时产生的误差。生产实践中为提高数据质量,确保系统的数据精度和可靠性,通常用仿射变换和相似变换等模型来进行数据处理,以减小或消除误差。
坐标变换的实质是建立两个平面点之间的一一对应关系,现有一般GIS(LIS是GIS的专题)软件大都提供了以下两种模型实现坐标变换。
一是仿射变换:仿射变换也称六参数变换,其变换公式为:[10]
x´=Ax+By+C(Ⅰ)
y´=Dx+Ey+F(Ⅱ)
其中,x´、y´为地图输出坐标系中的坐标点对;x、y为输入坐标中的坐标点时;A,B,C,D,E,F为方程参数。参数在坐标系空间上
的几何意义为:A和A分别确定点(x,y)在输出坐标中x方面和y方向上的缩放尺度。B和D确定旋转角度,C和F分别确定在x方向和y方向上的水平移尺寸。
二是相似变换:当式(Ⅰ)、(Ⅱ)中的参数满足条件A=E=Scos@,B=-D=Ssin@时,则得到四参数的相似变换公式:
x´=Ax+By+B(Ⅲ)
y´=-Bx+Ay+D(Ⅳ)
式中,x´、y´为输出地图坐标系中的坐标点对;x、y为输入地图坐标中的坐标点对;A、B、C、D为方程参数,相似变换实质上也是坐标系间的平移,旋转和缩放尺度的变换,式中C和D分别为坐标在x轴和y轴上的平移大小,为缩放比例,@=arctg(B/A)为旋转角度。
为了求出以上公式中的参数,建立两种坐标之间的仿射(或相似)转换关系,至少需要三个(或两个)已知的控制点坐标。而实际上,应选择多于三个(或两个)控制点,方能按照最小二乘法原理进行平差,得出系数值,代入上述方程即建立输入和输出坐标系之间的仿射(或相似)变换数学模型。
可以看出,仿射变换和相似变换都为线性函数变换模型,可实现对原图形的平移、旋转和缩放,相比较而言,相似变换不能进行x轴、y轴不均匀缩放的变换,而仿射变换能保证更高的数据精度。
3、数据变换
(1)CAD向GIS的转换
目前我国土地管理中存在一个较为普遍的问题是土地信息系统的构建与图形数据采集较少作用一个整体来通盘考虑,地籍测绘大大超前于信息管理系统构建。中小城市这种问题表现得更为突出。为满足土地确权发证,土地定级估价等需要,1995年前测绘的地籍图等图件因受技术条件的限制绝大部分是采用传统白纸测图方法完成的。随着计算机技术的发展和在测绘工作中的普及应用,1995年之后数字地图逐渐取代传统测绘。但一个不容忽视的事实是,绝大多数测绘图软件是在AUTOCAD上进行二次开发完成的。有些甚至是采用低版本的CAD,有些测绘图软件虽然测的是数字图,但只有非编码的图形文件,不保留信息,或者图形编辑以后,返不成信息。这种数字图说到底仅仅是从传统的白纸图过渡到计算机驱动绘制的白纸图。本质上与传统测绘没有什么区别。有些虽然采用了较高版本的CAD基础软件二次开发成数字测图软件并采用了数字编码技术,但由于较少考虑CAD与GIS的数据共享问题(土地信息系统属于专题GIS)。在着手考虑构建土地信息系统时,遇到的突出问题则是如何充分,有效利用已有数字信息资料,并确保数据转换质量。
对于传统模拟图或难以返成信息的所谓数字图只能采用原图数字化,形成数字信息后方可加以利用,但其精度丢失是不可避免的。
对于采用了编码技术,也能返成信息的数字图,其数字信息可以通过数据转换来实现数据共享,但由于CAD与GIS图形数据之间其数据格式,数据内容甚至数据概念都有很大差异,数据转换时应注意以下三个方面:[11]①数据格式转换。不同的软件有不同的数据格式,有些可以通过通用数据格式如DXF实现转换,但转换过程中的数据丢失也的确令人烦恼。②数据元素转换。CAD与GIS两者之间的图形元素不是一一对应关系,CAD图形中的图形元素种类要比GIS图形文件中的图形元素种类多,GIS中只有点、线、面三类基本图形元素,而CAD中包括有点、线、面、注记、矩形等多种图形元素,在具体转换中,CAD的图形元素哪些转换成GIS的点,哪些元素转换面面,什么元素需要转换成GIS的属性数据,什么元素则不需要转换到GIS中去等。CAD与GIS图形元素之间的对应关系,都需要认真细致地加以技术处理,使空间数据和属性数据在输入系统后正确地连接起来。③拓扑关系的形成。因为CAD的图形元素之间没有拓扑关系,实现CAD向GIS数据转换的一个重要内容就是要将转换后的图形数据按照一定的技术要求经过编辑,在GIS环境下建立几何元素的拓扑关系。
在实际转换中,还会出现许多意想不到的技术问题,会影响数据转换质量,有待进一步解决。
(2)矢量数据结构向栅格数据结构的转换
土地信息系统的建设中,许多数据如行政边界,交通干线,土地利用类型、土壤类型等都是用矢量数字化的方法输入计算机或以矢量的方式存在计算机中,表现为点、线、多边形数据。然而,矢量数据直接用于多种数据的复合分析等处理将比较复杂,特别是不同数据要在位置上一一配准,寻找交点并进行分析。相比之下利用栅格数据模式进行处理则容易得多。加之土地覆盖的叠置复合分析更需要把其从矢量数据的形式转变为栅格数据的形式。
矢量数据的基本坐标是直角坐标(x,y),其坐标原点一般取图的左下角。网格数据的基本坐标是行和列(i,j),其坐标原点一般取图的左上角。两种数据变换时,令直角坐标x和y分别与行与列平行。由于矢量数据的基本要素是点、线、面,因而只要实现点、线、面的转换,各种线划图形的变换问题基本上都可以解决[12]。
矢量数据变成栅格数据的原理与方法并不困难,但由于矢量数据的记录方式各不相同,也会产生一些问题。如多边形之间公共边原来只有一条交界线,转变成网格后成为有一定宽度的界线,产生了一定的近似性。特别是几条线交叉处,一个网格元素中包括了相邻的几种类别,转换时只能用其中的一种类别作为交叉点所在的元素的类别,这种误差应在允许的范围以内。而减小网格尺寸,虽提高了精度,但大大提高了数据的冗余量。
栅格数据结构需要大量的计算机内存来存贮和处理数据,才能达到与矢量数据结构相同的空间分辨率,而矢量结构在某些特定形式的处理中,如象多边形叠置,空间均值处理等尚有大量的技术问题来解决。值得注意的是,无论采用哪种转换方法,转换的结果都会不同程度地引起原始信息的损失。
通过矢量数字化或扫描数字化所获取的原始空间数据,都不能避免地存在错误或误差。属性数据在建库时,也难免会存在错误。诸如:空间数据的不完整或重复,空间点、线、面数据的丢失或重复,区域中心点的遗漏,栅格数据矢量化时引起的断线等,空间数据位置的不准确、线段过长或过短,线段的断裂、相邻多边形结点的不重合及空间数据的变形等。因此,必须对图形数据和属性数据进行一定的编辑。
土地信息系统数据编辑是消耗时间的交互处理工作,对空间数据不完整或位置的误差,主要是利用LIS图形编辑功能,如删除(目标、属性、坐标),修改(平移、拷贝、连接、分裂、合并、装饰)、插入等进行处理。对空间数据比例尺的不准确和变形,可以通过比例尺变换和纠正来处理。
在数据的编辑过程中,由可能产生一些新的问题。如:线段的相关与延伸出现的问题,图形的平移与旋转出现的问题,删除“细部多边形”时产生的误差,数值计算与变化的误差;文件的合并以及形成新文件的问题;属性数据的重新定义和更新的问题。有的问题时可能避免的,有的问题则无法避免。因此,必须进行检核。通过耐心细致的检查,主要误差都能从数据中寻找出来,并有效消除误差。一般采用叠合比较法,目视检查法和逻辑法。
叠合比较法是空间数字化正确与否的最佳检核方法,按与原图相同的比例尺把数字化的内容绘在透明材料上,此后与原图叠合在一起,在透光桌上仔细的观察和比较。一般。对于空间数据的比例尺不准确和空间数据的变形马上就可以观察出来,对于空间数据的位置不完整和不准确则须把遗漏、位置错误的地方明显地标注出来。目视检查指在屏幕上用目视检查的方法,检查一些明显的数字化误差与错误,包括线段过长或过短,多边形的重叠和裂口、线段的断裂等。
5、由计算机引起的问题
在计算机中,数据是由一定字长的编辑数码表示的,由计算机字长可能引起一种误差。这种误差出现在各种数值运算和模型分析中,由这种误差引起的问题很多[13],例如LIS空间数据库中整数编码对面积和周长计算的影响,比例尺变换和旋转变换对拓扑关系的影响等。削弱误差影响的主要方法有:改变数据在计算机中的表示方式,采用合适的算法等。
除了数据处理精度外,数据存储精度也与计算机字长有关。16位的计算机在存储低分辨率的栅格图像时不会出现问题,但存储高精度的控制点坐标或点位精度要求高的地理数据时,则不能胜任。
五、数据应用质量
土地信息数据在使用过程中往往出现一些质量问题,这些问题包括数据的完备程度,时间的有效性,拓扑关系的正确等。
1、数据的完备程度
数据的完备程度指地理数据在范围、内容、及结构方面满足所有要求的完整程度。包括数据范围、空间实体类型、空间关系分类、属性特征分类等方面的完整性。
一般来说,空间范围越大,数据的完整性就越差。在土地信息系统的建库过程中,数据不完整最简单的例子是缺少数据。如计算机从GPS接收机传输位置数据时,由于软件受干扰或其它因素的缘故,只记录下经度而丢失纬度,以至造成数据不完整。另外由于GPS接收机无法收到四颗或更多的卫星信号而无法计算高程数据也会造成数据的不完整。又如某个应用项目需要1:5000的基础底图,但现在的地图数据只覆盖项目区的一部分,底图数据便不完整。
在土地信息系统底建库中,涉及大量的地籍档案。地籍档案来源于土管机关的地籍部门,数量大、形式多、浩繁、零乱,随着时间地推移,以及人为和自然的各种因素地影响,有可能遭到损坏。如档案老化,书写材料低劣、地籍档案变到污染,变色、虫蛀等现象,进而影响到整个系统的质量。
2、数据的现势性
数据的现势指数据反映客观现象目前状况的程度。数据的现势差,反映的客观现象就可能不准确。不同现象的变化频率是不同的。如地形的变化一般来说比人类建设要缓慢,地形可能会由于山崩、雪崩、泥石流、人工挖掘及填海等原因而在局部区域改变。但由于地图制作周期较长,局部的变化往往不能及时地反映在地形图上,对那些变化较快的地区,地形图就失去了现势性。城市地区土地覆盖变化较快,这类地区土地覆盖图的现势性就比发展较慢的农村地区会差些。地形图上记录着所用航空像片获得的年代。若又用其他数据进行过修改(一般是较新的航空像片),也应记录于上。
在土地信息系统建库中,要求地籍信息和地籍图必须具有现势性。地籍信息变更比较频繁,如土地利用类型,权属或宗地的重划,合并等。由于受自然因素和人为作用的影响,土地资源的数量、质量、分布和使用情况都处在经常变化之中。基于这一特点,土地管
理部门提供的数据很难保证现势性,这也是影响数据质量的一个重要方面。
3、拓扑关系
在LIS中,为了真实地反映地理实体,不仅要包括实体的位置、形状、大小和属性,还包括必须反映实体之间的相互关系,这些关系就是指它们之间的邻接关系,关联关系和包含关系,拓扑关系。拓扑关系的核心是建立点、线、面的关联关系。通常有以下几种空间关系:点-点关系、点-线关系、点-面关系、线-线关系、线-面关系、面-面关系。空间数据的拓扑关系,对数据处理和空间分析具有非常重要的意义[14]。
利用拓扑关系,可以确定一种空间实体相对于另一种空间实体的位置关系。利用拓扑关系,可以确定某县有多少耕地,分析土地利用类型及对土地适宜性做出评价等。
在拓扑关系的建立中,拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化,拓扑关系的不正确等情况,导致空间分析的结果错误,给土地管理决策带来一定的影响。
六、结论
数据是LIS最基本和最重要的组成部分,同时也是一个LIS项目中投资比重最大的一个部分。数据质量的好坏,会直接影响到LIS的系统功能和应用质量问题的三个方面(数据源的质量问题、数据处理质量问题、数据应用质量问题)着手,对LIS的数据质量问题进行了一定的归纳总结和初步的探讨。众所周知,LIS的数据质量是影响LIS的一个瓶颈环节,LIS数据量大、数据种类多、数据结构复杂。因此,在LIS的建设过程中,如何在数据采集与建库中实施质量控制,保证数据质量对土地信息系统建设来说显得尤为关键。
七、总结与体会
毕业论文的撰写是一次再学习和锻炼的机会,是对所学知识的一个融会贯通的过程。通过毕业论文的撰写,我对所学的知识有了更深层次领悟和掌握,对自己所学的土地管理专业有了一个整体认识。毕业论文不仅是对所学知识的总结,也是运用所学知识探求新知的方法、手段。既是一次再学习的过程,也是一次深入学习的机会。同时,毕业论文写作,为今后的学习工作奠定了一定的基础。通过毕业论文的写作,我真正懂得理论联系实际的重要性。在撰写毕业论文中,我运用所掌握的基本知识、方法和技能,研究探讨了土地信息系统建立过程中数据质量的有关问题。通过毕业论文的撰写,我进一步完善了自己的知识结构,学习了更多的知识。不仅如此,我对土地信息系统数据质量控制措施与方法方面有了更进一步的认识。
通过毕业论文的写作,不仅强化了我的学习素质、研究素质和创业素质,而且培养了我的创新意识,激发了我探求新知的欲望。认真写作毕业论文,不仅能进一步巩固所学的理论知识,而且还能进一步提高自己的各项基本技能,实践能力和解决问题的能力。
八、谢辞
在论文的写作过程中,玉文龙老师给予了很大的支持和帮助,为论文的写作提出了许多宝贵性的意见和建议;在他的指导下,这篇论文得以顺利完成。在资料的搜集过程中,图书馆工作人员为我们提供了很大帮助,本组同学也给予了很多支持,在此表示衷心感谢。
参考文献
[1]钱乐祥,余明全.土地信息系统的几个基本问题.测绘通报,1999(10).
[2]张超等.地理信息系统.北京:高等教育出版社,1995.
[3]阎正等.城市地理信息系统标准化指南.北京:科学出版社,1998.
[4]范爱民,景海涛.地图数字化质量问题.测绘通报,2000(4).
[5]严星,林增杰.地籍管理.北京:中国人民大学出版社,1999
[6]-[7]郝向阳等.地图扫描数字化点位精度分析.测绘学报,1995,25(1).
[8]毛锋等.地理信息系统建库技术及应用.北京:科学出版社,1999.
[9]汤国安,赵牡丹.地理信息系统.北京:科学出版社,2000.
[10]徐建刚.城市规划信息技术开发及应用.南京:南京大学出版社,2000.
[11]司少先.地籍信息系统源数据质量问题探讨.测绘通报,1999(4).
二、管理会计信息系统在企业中的作用
管理会计信息系统是会计信息系统的一个组成部分。长久以来企业在会计信息化的道路上一味的重视会计核算的信息化,忽视了管理会计的信息化,使得管理会计的各项职能没有在企业发挥出来。随着企业规模发展壮大,经济环境纷繁复杂,管理会计越来越受到高层管理人员的重视。在企业中使用管理会计相关分析方法,建立管理会计的信息化系统可以为企业价值提升起到事半功倍的效果。1.为企业发展提供全面数据信息当前经济形势风云变幻,纷繁复杂,稍有不慎就可能对企业发展带来巨大打击。及时、准确的信息对企业决策至关重要,而建立管理会计信息系统可以对企业提供有效帮助。管理会计信息系统是以海量数据为基础,运用分析技术优势,结合管理需要,经营业务和会计要求,灵活运用管理会计的工具方法,为企业经营的各个方面提供服务。通过该系统的建立,搜集经营过程中的结构性数据和非结构性数据,利用专业分析技术,深度挖掘数据内含的信息,向决策者提供使用。2.对生产各环节进行精细化管理该系统的建立,可以通过存货系统、成本计算系统、质量管理系统、价值链分析系统连接企业供应、生产、销售的各环节。其核心流程涉及成本收入要素处理、成本中心分析与处理、作业类型计划与处理、内部订单处理、销售与利润计划、成本核算与结算、成本与作业分配、一般管理费用核算、获利性分析、全面预算与绩效考核等方面。主要的业务对象包括成本要素、作业类型、收入要素、内部定单、控制文档、成本对象、成本核算估计、获利性分析维度、业务计划与预算表以及绩效考核等。通过对各环节的严格把控,降低库存、减少成本,提高利润。3.促进企业完成战略实施目标管理会计信息系统中绩效评价的部分针对企业员工的完成水平进行评价,是该系统的重要组成部分。平衡积分卡绩效评价体系是最近几年流行在国内外的企业绩效评价体系。它分四个方面进行:企业财务业绩、客户关系、内部业务流程以及学习和成长,对企业进行评价。在系统中将企业的战略实施目标按照这四个部分细化成不同的财务或者非财务指标,对照不同的部门逐级细化,进行考核。该绩效评价系统将企业战略与员工考核挂钩,既可以推动战略目标的完成又可以激励员工成长。
0引言
数据库技术在电力系统电网调度自动化中得到广泛使用。借助数据库,能够有效保存不同离散遥信量,能够记录各种电压、电流等不同数据信息。数据库能够保存各种历史信息内容,供电网使用。历史数据的合理保存是数据分析的关键和基础,促使低频采样周期数据满足实际需求。
1基于时间序列下动态信息数据库框架
电力系统动态信息数据库分为三层。第一层是数据保存层,主要是文件管理和磁盘缓存模块,合理保存大量动态信息。第二层是数据处理层,一般是网络通信、数据解压和查询等不同模块,主要工作是保存数据,合理压缩,在形成索引前合理处理,并及时对数据进行查询、统计、后期处理等。第三层是应用程序接口,可以二次开发利用。动态信息数据库系统主要由三部分组成,分别是服务器、命名服务器和数据访问客户。数据处理器是动态信息数据库的中心,能够合理压缩和查询数据。命名服务器能够控制数据。数据访问由两部分组成,第一是动态信息数据库维护,第二是保存和查询二次接口。数据服务器启动运作期间,需要向命名服务器注册具体名称和地质。客户端访问工作期间,在处理服务器前期,需要和命名服务器连接,处理访问数据地址,合理保存数据[1]。
2电力系统动态信息数据库关键技术应用
电力系统动态信息数据库的关键是建立在时间序列基础下的动态数据保存、管理和查询对策划,关键技术主要是并发数据处理机制、内存映射文件、磁盘处理形式等[2]。
2.1并发数据处理机制
动态信息数据库高效工作的关键是满足客户端提出的需求,强化磁盘文件交互质量和效果。通常情况下,基于多核CPU技术形式,合理使用服务端处理线程,强化计算处理能力,即合理处理物理磁盘读写速度问题,分析磁盘高速数据吞吐间的平衡程度。数据处理主要是写和读两种形式[3]。为使数据可以达到高速处理基本要求,需要借助线程池技术处理数据,有效使用不同CPU并行在一个TCP连接上,进行报文处理工作,即对一个连接上的任务进行并行化处理,达到高质量处理效果。并行处理技术在书写数据期间,能够最大限度提升服务端数据处理效果。通常情况下,数据处理速度是300万事件1s。数据读取处理和线程池技术,可并行处理不同客户的真实需求。系统设置高度缓存区,借助ORACL数据库综合分析策略,保持高速缓存,在并发查询中实现数据的有效共享和分析,从而高效访问终极目标。并行化处理技术读取数据期间,能够提升服务端的整体速度,通过实际测试系统实现20个并行查询期间,客户读取时间大概为10万事件1s。
2.2内存映射文件形式和磁盘保存机制
动态信息数据库保存TB级别的所有数据文件,能提升文件磁盘处理速度,是动态信息数据库提升工作效率的基础。借助统一化磁盘保存技术处理内部映射文件,不同工作线程对数据文件部分进行映射处理,达到高度保存数据的基本要求。内存映射文件形式。内存映射文件形式和虚拟内存相差无几。借助内存映射文件保存一个地址空间保存区域,将物理保存期上交到此区域内部,内存文件物理保存器将其保存在磁盘上,即非系统文件内容。文件操作前期需要进行映射工作,将整个文件从磁盘中加载,借助内存映射文件有效处理磁盘上的文件。所有文件保存形式都采用直接管理形式,能够节省很多内存,使文件释放更多时间。部分映射的缓存管理机制建设。因为需要以TB级别形式保存所有数据源、文件,所以不能一次性将所有数据信息全面映射在内存文件,需要借助缓存管理形式保存和分享海量信息。缓存管理一般使用固定内存形式,将内部含有的各种数据不断映射在处理服务器地址空间,进而达到更好的保存效果。对于系统中存在的动态数据信息,通过索引形式确定。磁盘缓存管理器中存在的数据,全部放置到一个共同缓存区域,依据LRU对策合理化管理。
2.3关联数据保存形式
结合电力系统的根本特征进行分析,标记保存的历史数据,主要包括时标、数据值和质量码三种形式。电力系统基本特征格式如下:时标8字节、数据值4字节、质量码4字节。时标主要利用2字节整数表示,精准度为1μs,数据值可以使用精准浮点表示,质量标志一般利用4字节整数表示。因此,一个完整事件点使用的保存空间一般为16字节。
2.4电力系统数据收集处理流程
动态海量数据库可以将不容数据点分为离散数据和连续数据两种类型。结合数据性质的差异性,使用不同处理形式。离散数据点主要是电力系统中存在很多变化的数值量,比如遥信量、被返回的原始值等,不能进行插植处理。连续数据点对应的是连续变化的测量数值,比如电压、电流等连续变化的数据。动态海量数据库需要结合设置的内容进行分析和研究,强化电力系统工作效果。
2.5混合压缩算法
动态数据库可以分为两种形式,分别是有损和无损,整合后最终形成混合压缩算法。有损压缩就是使用线性带宽压缩算法,压缩率为8~10。无损压缩就是将浮点依据IEEE-754表示形式分为1位、7位和23位,小数需要再次压缩,精准度处理。将三部分数值全部压缩处理后,以随机序列形式将其扩大为原来的3~5倍。质量位可以借助哈夫曼算法合理处理,连续量可以使用混合压缩算法。压缩率是有损和无损的乘积。分析数据的最终特征,确保动态信息的压缩效果,是通常情况下的25~30倍。
2.6电力系统数据采集处理步骤
作者:刘臻 任效颖 单位:国土资源部信息中心
空间数据组织本系统选择ArcGIS作为GIS支持平台,采用Geodatabase空间数据模型来完成矿产资源规划管理业务相关的空间数据的组织与管理。对各种类型的数据(如基础地理、基础地质、矿山环境、各类型的地质灾害数据等)采用Geodatabase中的空间要素集来进行组织。采用根据国家标准大类为集合的原则,对数据的存放采用“地理数据库(Geodatabase)要素集(FeatureDataset)要素类(FeatureClass)”三层结构的组织方式。整个管理系统数据库可以理解为一个独立的地理数据库(Geodatabase),一个地理数据库可以包含多个要素类。在ArcSDE中,一个要素类能够包含多个要素集,其中:纯属性要素类表示表格要素,点、线、面、文本要素类表示矢量要素,三维点、线数据表示三维要素,影像要素类表示栅格要素等。要素集是独立的空间数据对象(Feature)的集合,用来存放同一种空间实体。非空间数据组织属性数据主要以关系表的形式存贮于数据库中。Oracle作为当前最为流行普及的数据库管理系统,提供了丰富的数据维护与管理功能,在数据的安全与数据备份与恢复等方面都具有完整的解决方案。
矿产资源规划管理信息系统的总体结构本系统的总体结构分为三个层次:数据服务层、业务处理层和人机交互层(1)业务处理层业务处理层通过人机接口与用户交互,在数据服务层提供的数据、模型、方法、知识等的支持下,实现矿业权管理、矿产资源规划管理、探矿权审查、采矿权审查、系统管理等应用功能。(2)数据服务层数据服务层存储和管理矿产资源规划管理子系统的所有数据,包括空间数据和非空间数据。(3)业务分析层业务分析层是矿产资源规划管理信息系统的核心,由矿产资源规划成果管理子系统、辅助核查子系统以及统计分析子系统组成。(4)人机交互层系统交互界面是系统使用者与应用软件之间的人机接口,总的作用是通过建立总控程序构筑系统运行的软件环境。具体功能包括控制应用软件运行、运行控制参数的输入和运行结果的表达等。系统的开发除了建立各种业务分析模型外,系统交互界面的设计和开发是其主要内容。矿产资源规划管理信息系统运行总的原则是:各功能模块系统之间不进行直接的相互控制,各自独立运行,其间的数据联系通过信息交换缓冲区进行,控制联系通过传递运行通知的方式实现。矿产资源规划管理信息系统界面设计总的原则是:(1)尽量采用直观的图形用户界面技术,信息的表达要形象、直观、简洁明了;(2)以GIS中的电子地图作为系统背景,实现系统的分布式表达和查询;(3)各种业务流程和系统界面控制程序之间的接口要平滑过渡;(4)系统操作要以菜单、图形、图标等形象化的界面元素为基础,大多数操作可以通过鼠标点击完成,对话框的层次不宜过多,使操作更为方便快捷。矿产资源规划管理信息系统的功能设计本系统按照业务职能划分为3个子系统:规划成果管理子系统规划成果管理子系统划分为3大模块:规划文本管理模块、规划附表管理模块、规划图件成果管理模块,实现对各省的矿产资源规划成果数据(文本、附表、附图等)的一体化存储与管理,提供规划文、表、图的分级、分项浏览、查询。辅助核查子系统辅助核查子系统分为8大模块,为提高规划实施管理的效率和质量提供有效的技术手段,(图略)(1)采矿权空间辅助核查模块:根据采矿权项目坐标数据,利用空间分析技术将项目的位置、区域形状再现,并与开发利用规划图等空间数据进行叠置分析,列出分析运算结果,辅助用户判断项目在空间上是否满足规划要求。(2)采矿权矿种辅助核查模块:根据矿产资源规划关于矿种开采部署出发,自动计算采矿权项目所涉矿种规划要求符合性并列出结果,辅助用户判断项目在矿种方面是否符合规划要求。(3)采矿权规模储量辅助核查模块:根据开采规模、总量控制和矿产资源储量等参数和算法,自动计算采矿权项目的规模和开采储量并列出结果,辅助用户判断项目在规模储量方面是否符合规划要求。(4)采矿权指标辅助核查模块:根据矿产资源规划中关于开采总量控制、矿业经济、新建矿山三率规划、新建矿山准入等指标的参数和采矿权项目相关数据进行计算,辅助用户判断项目是否符合规划的各项指标要求。(5)采矿权相关地物辅助核查模块:根据采矿权项目坐标数据,利用空间分析技术将项目的位置、区域形状再现,并根据要求与相关地物进行空间叠置运算,从而得到项目与地物的相关性,辅助用户判断项目是否与其他重大项目(如高速公路、旅游景点、生态保护区等)的规划相冲突。(6)采矿权法律法规辅助核查模块:以矿产资源相关法律法规数据库为基础,方便用户查询调阅各项法规政策,辅助用户判断项目是否符合相关法律法规的要求。(7)探矿权空间区域辅助核查模块:根据探矿权项目坐标数据,利用空间分析技术将项目的位置、区域形状再现,并与勘查规划区和开采规划区等空间数据进行叠置分析,计算项目与规划区的空间相关性,辅助用户判断项目是否符合规划要求和宏观政策导向。(8)探矿权矿种辅助核查模块:根据矿产资源规划关于矿种勘查部署要求出发,自动计算探矿权项目所涉矿种规划要求符合性并列出结果,辅助用户判断项目在矿种方面是否符合规划要求和宏观政策导向。
统计分析子系统统计分析子系统分为2大模块:规划核查项目汇总统计模块、开采总量动态统计分析模块。关键技术的实现ArcGISEngine是开发人员用于建立自定义应用程序的嵌入式GIS组件的一个完整类库,它继承于之前的AO(ArcObjects)组件库,又有其组件布局合理灵活、应用部署方便快捷等自身优势。使用ArcGISENGINE可以创建独立界面版本的应用程序,或者对现有的应用程序进行扩展,为用户提供专门的空间解决方案,同时ArcGISENGINE也提供了COM、.NET等多种应用程序编程接口。基于上述原因,本系统采用ArcGISEngine进行开发。SQL属性选择查看用户通过SQL语句来选择当前地图图层的要素,并查看要素属性信息。算法介绍:由用户选择的节点项得到相应的图层对象。如果没有得到选中的图层对象,退出该功能。如果图层对象是CFileMapLayer的对象,而且该文件是CAD图层类型的文件,则提示无法进行SQL选择查询。如果选中对象是CFileMapLayer的对象(除去CAD图层类型的文件),或者是CIndexLayer,CPhyMapLayer则弹出SQL选择的对话框。具体的实现如下:DimpFeatureLayerAsIFeatureLayerpFeatureLayer=mSelectObj.pLayerIfpFeatureLayerIsNothingThenExitSubDimpSheetAsIComPropertySheetpSheet=NewComPropertySheetDimpPAsesriSystem.ISetpP=NewesriSystem.SetpSheet.Title="定义查询条件"pPset.AddpFeatureLayerpSheet.AddCategoryIDnewUIDDimpQueryPropertyPageAsIQueryPropertyPagepQueryPropertyPage=NewQueryPropertyPagpQueryPropertyPage.Table=pFeatureLayerDimpComPageAsIComPropertyPagepComPage=pQueryPropertyPagepComPage.Title="查询"pSheet.AddPagepComPagepSheet.EditProperties(pPset,0)用户输入SQL查询语句后,得到查询的要素,在视图中高亮显示查询到的要素,并将视图的范围缩放到要素的地图范围。刷新视图。关键的代码如下:DimpFeatureCursorAsIFeatureCursorDimpFeatureAsIFeatureSetpFeatureCursor=pFeatureLayer.Search(pQueryPropertyPage.QueryFilter,False)pFeature=pFeatureCursor.NextFeatureDoWhile(NotpFeatureIsNothing)m_pMap.SelectFeaturepFeatureLayer,pFeaturepFeature=pFeatureCursor.NextFeatureLoop如果选中的对象是其它类型的对象,提示SQL查询只针对矢量图层。空间叠加分析叠加分析是将两层或多层地图要素进行叠加产生一个新要素层的操作,其结果是将原来要素分割生成新的要素,新要素综合了原来两层或多层要素所具有的属性。叠加分析包括叠加求交(Intersect)、叠加求和(Union)。本系统中用到的是叠加求交,通过将项目区域与限制/禁止开采区、限制/禁止勘查区、保护区、面状水系等图层分别进行求交分析,得到不符合规划要求的区域,提示用户需要去除掉。算法步骤如下:(1)由用户选择的节点项得到地图视图中参与求交分析的图层,使用IMAP、IFeatureLayer接口;(2)设置求交分析后输出的数据源及要素类名称,使用IWorkspaceName、IFeatureClassName等相关接口;(3)设置参与求交分析的对象,对其进行求交分析,使用IBasicGeoprocessor接口中的Intersect方法;(4)对求交结果进行坐标提取,使用IFeatureClass、IFeature接口。缓冲区分析缓冲区是指为了识别某地理实体或空间物体对其周围的邻近性或影响度而在其周围建立的一定宽度的带状区。所谓缓冲区分析,是指根据数据库中的点、线、面实体,在其周围建立一定宽度范围的缓冲区多边形。本系统通过缓冲区分析得到公路、铁路、河流等线状地物的缓冲区,再与项目区域求交,即可得到不符合规划要求的区域,提示用户需要去除掉。算法步骤如下:(1)增加要进行缓冲分析的矢量图层①清空列表内容;②从当前地图上得到所有的ILayer对象,开始循环;③判断ILayer对象是否为IFeatureLayer,如果不是,继续循环,否则增加到列表;④结束。(2)得到缓冲多边形SetpTopologicalOperator=m_pSourceGeometrySetpPolygon=pTopologicalOperator.Buffer(dLength)'Outsidebuffer(3)生成预览元素pElement=NewPolygonElementpElement.Geometry=pGeompElemPloygon=pElementpElemPloygon.Symbol=pSymbolpGraCont.AddElementpElemPloygon,0(4)缓冲结果与选择的图层进行相交查询①选择pGeom相交的要素;②判断选中的要素是否在选择的图层里,如果不是取消该要素的选择;③进行相交查询;④对求交结果进行坐标提取。
二、信息管理的发展对档案数据库建设发挥指导作用
(一)数据库离不开信息管理。数据库内容反映的是一个现实的实体单位的历史记录,保证了档案数据具有一个坚实可靠的立足点,这就应用到信息管理,是单纯地依靠逻辑分类方法所达不到的。
2空间X射线数据提取和分析
探测器的空间分辨率越高,越能精确地反映出天体的位置。图像的大小、分辨率和亮度是衡量图像质量的关键因素。本文主要研究PCA探测的空间X射线的提取和重构方法。以90802-02-12-00数据包为例,阐述空间X射线数据的快速提取方法。
2.1制作GTI文件
GTI指好的观测时间的数据,其目的是将异常数据、探测设备本身引起的噪声等滤除掉。利用maketime命令制作gti文件:NameofFITS:FP_149e628f-149e6788.xflNameofoutput:crab.gtiSelectionExepression:Elv.gt.10Columncontainingtimes:TIME其中,Selection则是输入过滤准则;提取的信息为时间TIME。运行结束后会产生crab.gti文件,即GTI。
2.2fasebin生成轮廓
使用fasebin命令提取X射线脉冲星的数据生成轮廓:OrbitFile:FPorbit_Day4003Nameofoutput:crab.phaSourceName:0531+21Numberofphasebin:100其含义为:fasebin为轮廓生成的调用命;从orbit文件中复制的轨道文件名;在提取脉冲轮廓时,需要脉冲星的部分信息,必须在输入脉冲星的名称中输入0531+21;脉冲轮廓的bin块越多,精度越高,在此输入100;观测数据是以FS37开头的文件。利用fbssum读取从*.pha中读取数据,能级范围为2-16KeV:InputFile:crab.phaChannelsforenergyranges:2-16调用命令[7]qdp,输入data.txt,输入图像显示的格式“/xw”。即可得到理想的累积脉冲轮廓。
随着现代商业经济和信息技术的发展,商业信息的增长速度呈现指数上升,积累了海量的、以不同形式存储的商业数据资料,原有的决策支持系统(DSS)和领导执行系统(EIS)已不能满足需要,这时出现数据挖掘技术,它能够去粗存精、去伪存真,从海量的商业信息中提取知识和有用信息的技术。现代信息技术处理商业信息经过一定的发展,逐步形成现在的商业数据挖掘技术。
1.数据挖掘方法在商业信息中应用的规则
数据挖掘技术在商业中的应用主要基于AI、机器学习、统计学等技术,高度自动化地分析商业原始数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助商业决策者调整市场策略,减少风险,做出正确的决策,体现一种决策支持过程。
1.1商业信息泛化、简约和特征提取规则。商业信息泛化是为了商业数据更好的理解和掌握,将其具体一般的数据信息抽象到较高层次的过程;商业信息简约是为了采用一定的手段对信息进行描述;商业信息特征是找出这些信息的共同特征,寻找信息的通用性特征式。
1.2商业信息分类技术规则。商业信息分类是按照一组商业信息对象的特征给出信息对象划分的过程。其目的是学会一个分类函数或分类模型,该模型能把数据库的数据信息项映射到给定类别中的某一个。
1.3商业信息的聚类规则。聚类规则是识别一组信息对象的内在规则,从而将对象分组,构成相似的对象类,从而找出数据信息的分布规律,并进一步去发现隐含在一组混杂的数据信息集里的分类规则。聚类是把一组个体按照相似性归类,即"物以类聚"。使属于同一类别的个体之间的距离尽可能小,而不同类别的个体间的距离尽可能大。
1.4商业信息的关联规则。关联规则的商业数据挖掘已经从单一概念层次的关联规则发展到多概念层次的关联规则的发现。关联规则是如下的一种规则:"我们在研究大型商场的顾客在购买上衣和裤子的时候,发现其中在这些顾客中有10%的顾客同时买了帽子(上衣+裤子+帽子),这就形成简单的关联规则。除了具有上述关联规律,还有时间或序列上的规律,在不同的时间(春夏秋冬)所购的衣服、裤子以及帽子是不相同的,并且不同层次或者不同年龄的人所购商品又有一定的规律性。
2.数据挖掘技术在商业信息中的应用
数据挖掘技术是目前在商业信息处理中应用的比较多的一项技术,为了在商业领域中对海量数据库和大量复杂信息中提取有价值的知识,进一步提高信息的利用率,对公司及时制定相应的对策有非常重要的意义,在这里,讨论几个主要商业行业中的商业信息处理。
2.1数据挖掘技术在电子商务网站数据中的应用
随着Web技术的发展,电子商务网站正在成为现在商家的必争之地。如何让电子商务网站有效益要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。
在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流,此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。
2.2数据挖掘技术可以用在金融领域的应用
金融事务需要搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。
数据挖掘在银行信息中的应用。商业银行业务的利润和风险是共存的。为了保证最大的利润和最小的风险,必须对账户进行科学的分析和归类,并进行信用评估,利用数据挖掘工具,可以根据客户的消费模式预测何时为客户提供何种产品。银行如何让一家新开的银行网点实现快速赢利呢?银行结合了GPS推理信息系统和商业智能应用系统,在银行的客户信息中,详细记录有客户的常驻地,并且,当银行客户到该银行网点办理业务时,银行商业智能系统将自动记录客户的操作信息,以及银行网点地址信息。经过大量的记录,客户的常驻地到银行网点的行动路线,将被通过数据分析而得出。大量的客户路线得出后,我们可能会发现,某个地区进行银行业务操作的客户特别多,但他们附近没有银行网点,而是要到离他们较远的地方去办理,于是银行就决定在这个地区开办一个银行网点。
数据挖掘在证券信息中的应用。上市公司定期公布的财务报告具有很强的信息含量,但是当期会计盈余数据的信息会在披露前后在股票市价中迅速得以体现。因此对于中长期投资者来说,重要的是预见未来。质地优良且未来具有较高盈利增长能力的公司是中长期投资者(包括普通投资者,证券投资基金和券商)普遍关注的对象,因为只有这类公司才能给投资者带来持续的回报。而财务报告包含了大量描述公司经营状况的数据。这些数据应能为投资者提供关于公司未来盈利能力的信息。对于中长期投资者而言,需要做的就是利用这些信息挖掘出未来能够具有较高盈利水平同时又具有较好的成长性公司。采用数据挖掘技术来发掘这些财务报告中是否包含关于公司未来盈利情况的信息,获得较精确的预测效果,选出的投资组合能否获得超额收益,这对于投资者来说是非常重要的。
2.3数据挖掘技术在企业市场营销中的应用
数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是"消费者过去的行为是其今后消费倾向的最好说明"。通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。这些来自各种渠道的数据信息被组合,应用超级计算机、并行处理、神经元网络、模型化算法和其他信息处理技术手段进行处理,从中得到商家用于向特定消费群体或个体进行定向营销的决策信息。4数据挖掘技术在民用通信部门中的应用
2相关概念
本节以“文献”为例,介绍大数据时代下网络信息资源所呈现的社团模式及其概念。定义1.文献网络信息资源(LNIR)LNIR=<ArtID,ArtN,AutN[],Abst,Keys[],Clc,Doc>,其中,ArtID是文献编号,具有唯一值;ArtN是文献名字;AutN[]是文献作者及其相关信息,可具有多个值;Abst为文献摘要;Keys[]为文献关键词,可具有多个值;Clc为文献的中图分类号;Doc为文献的标识码。定义2.作者社团(LNIRAS)设LNIRi与LNIRj组成一个作者社团当且仅当(LNIRi.ArtID≠LNIRj.ArtID)∩(LNIRi.AutN[]∩LNIRj.AutN[]≠NULL)。定义3.关键词社团(LNIRK)设LNIRi与LNIRj组成一个关键词社团当且仅当(LNIRi.ArtID≠LNIRj.ArtID)∩(LNIRi.Keys[]∩LNIRj.Keys≠NULL)。定义4.主题社团(LNIRAN)设LNIRi与LNIRj组成一个主题社团当且仅当(LNIRi.ArtID≠LNIRj.ArtID)∩(Compare(LNIRi.ArtN.getString(),LNIRj.ArtN.getString())≠NULL)。定义5.分类号社团(LNIRCL)设LNIRi与LNIRj组成一个分类号社团当且仅当(LNIRi.ArtID≠LNIRj.ArtID)∩(LNIRi.Clc.trimNums()=LNIRj.Clc.trimNums())。
3网络信息资源社团及模型
由于大数据时代网络信息资源的急剧暴增,使得网络信息资源的价值密度备受关注。将网络信息资源分类整理,不仅信息量过于庞大,而且由于学科之间的交织或科研需要,各个分类之间也是紧密联系的。现本文就文献网络信息资源所形成的模型做简要介绍。假设有5篇文献,根据定义1,设这5篇文献如图1所示;可分别形成作者社团(见定义2)、关键词社团(见定义3)、主题社团(见定义4)、分类号社团(见定义5)。本节列举作者社团与关键词社团,其中,设作者社团的度为1,即可以形成以1个或以上的作者为中心的社团;设关键词的社团为2,即可以形成2个或以上的关键词为中心的社团。图2列举了图1中A1、A2、k1、k2、k3形成的社团如图2所示。由图1可得,作者社团有:LNIRAS(A1,A2)={LNIR1,LNIR4};LNIRAS(A1)={LNIR1,LNIR2,LNIR4};LNIRAS(A2)={LNIR1,LNIR3,LNIR4,LNIR5};关键词社团有:LNIRK(k1,k2,k3)={LNIR1};LNIRK(k1,k2)={LNIR1};LNIRK(k2,k3)={LNIR1,LNIR5};LNIRK(k1,k3)={LNIR1,LNIR3}。由此可以清晰得看出各个网络资源及其之间的关系,为海量数据的挖掘提供了便利。