• 2.18 MB
  • 2022-05-14 14:54:07 发布

海量遥感影像数据存储组织结构研究

  • 61页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
河南大学硕士学位论文海量遥感影像数据存储组织结构研究姓名:谢毅申请学位级别:硕士专业:应用数学指导教师:乔保军2011-06\n摘要遥感影像是一种具有高容量、高可靠性、获取方便及时等特点的信息载体。在交通管理、土地规划、军事、资源、环境和防灾等很多领域都起着不可替代的作用。利用卫星平台,人们可以迅速得到几天前甚至几小时前拍摄的高分辨率遥感影像,使获取的信息更加及时、准确。遥感影像的数据量非常大。每天都有通过不同途径获取的大量遥感影像数据,并且随着影像分辨率的提高,产生的遥感影像数据量也以几何方式增长,达到Terabyte(TB)量级甚至Petabyte(PB)量级。随着时间的推移,遥感应用领域的不断扩大以及卫星技术、传感器技术的不断发展,遥感影像的数据量级别还将持续快速地增加。如何有效的组织、存储、管理和发布这些海量的遥感影像数据,使遥感影像数据能够更迅速、更准确地为应用提供服务,成为目前急需解决的问题。基于上述考虑,本文设计了一种基于文件系统的海量遥感影像数据分布式存储系统。主要工作如下:1、一种遥感影像数据的标准化处理方法及其系统实现。根据遥感影像数据自身的特点以及对遥感影像数据发布浏览的应用需求,提出了一种遥感影像数据的标准化处理方法,根据该方法对原始遥感影像数据进行各种处理。该过程包括:(1)数据分块处理;(2)标准化命名;(3)标准化命名后数据的存储方法。遥感影像数据经过标准化处理后有利于提高检索速度以及传输速度、便于进行并行计算,提高生产效率、能够进行影像的快速浏览与3D展示。2、标准化数据的检索算法及其实现。该算法的特点是可以根据用户的检索条件构造出目标影像的存储路径,再根据存储路径进行查询,得到检索结果并返回。该算法的优点是检索速度快,命中精度高,并且其检索性能稳定,不会随着数据量的增加而出现大的波动。3、SD-DRSDSS分布式存储系统及其实现。针对遥感影像的数据的标准化处理方法,提出了一种专门存储海量遥感影像数据的分布式文件系统,主要用于存储、管理经过标准化处理后的海量遥感影像数据,具有结构简单、管理方便、易于扩展,可靠性高、有利于遥感产品的生产和发布等特点。I\n4、SD-DRSDSS分布式存储系统的检索算法及其实现。在SD-DRSDSS系统中进行快速检索。关键词:海量遥感影像存储,数据标准化,SD-DRSDSS,分布式文件系统,快速检索II\nABSTRACTAsinformationcarrierwithhighcapacity,remarkablereliabilityandgreatconvenience,remotesensingimagedataplaysanindispensableroleinmanyfieldsliketransportationmanagement,landplanning,military,resource,environmentanddisasterprevention.Viasatellite,peoplecanquicklygetthehigh-resolutionremotesensingimagesshotseveraldaysorevenhoursago,increasingthetimelinessandaccuracyofobtainedinformation.Thedatavolumeofremotesensingimageismassive.Everyday,therearelargenumbersofremotesensingimagesobtainedbyvariousmeans,andtheirnumberisincreasinggeometrically,uptoTerabyteofPetabyte,inthewakeoftheimprovementofimageresolution.Andthelevelofdatavolumeisincreasingfastandcontinuouslywiththepassageoftime,wideningapplicationofremotesensingandthedevelopmentofsatellitetechnologyandsensortechnology.Therefore,howtoorganize,store,manageandissuemassiveremotesensingimagedataeffectively,inorderfortheremotesensingimagedatatoservethepracticalapplicationfasterandmoreaccurately,hasbecomeanimperativeproblem.Onthebasisofabovediscussion,thedistributedsystemofmassiveremotesensingdatabasedonfilesystemisproposed.Herearethemajortasksofthethesis:1.Thepaperadvancesthestandardizedprocessingmethodandrealizationofremotesensingimagedata.Inaccordancewiththecharacteristicsofremotesensingimagedataandapplicabledemandforissuingandbrowsingremotesensingimagedata,itsstandardizedprocessingapproachisproposed,accordingtowhichtherawremotesensingmagedataisprocessed.Theprocessconsistsof:(1)datapartitioning;(2)standardizednomination;(3)storageofstandardizednominateddata.Thestandardizedremotesensingimagedatahelpstospeedtheretrieval,transmission,andparallelcomputing;therefore,itpromotesproductiveefficiencyandcontributestothequickviewandthree-dimensionaldisplayofimages.2.Itproposestheretrievalalgorithmanditsrealization.Thealgorithm,onthebasisofcustomer’sretrievalterms,iscapableofconstructingthetargetimagestorageroute,accordingtowhichthecomputersearches,andreturnswiththeretrievalresult.Themeritofthisalgorithmisthefastandaccurateretrievalandlittlefluctuationofretrievalperformancewiththeincreaseofdatavolume.3.ItputsforwardtheSD-DRSDSS(StandardData-DistributedRemoteSensingDataStorageSystem)III\nanditsrealization.Inlinewithstandardizedprocessingmethodofremotesensingimagedata,thispaperproposesadistributedsystemwhichspecializesinstoringmassiveremotesensingimagedata.Thissystemissimpleinstructure,easytobemanagedandextended,andhighlyreliable;therefore,itisconvenientforproducingandissuingremotesensingproducts.4.ItbringsforwardtheretrievalalgorithmandrealizationofSD-DRSDSS,inwhichfastretrievalcanberealizedinSD-DRSDSSsystem.KEYWORDS:massiveremotesensingimagestorage,datastandardization,SD-DRSDSS,distributedfilesystem,fastretrievalIV\n关于学位论文独创声明和学术诚信承诺本人向河南大学提出硕士学位申请。本人郑重声明:所呈交的学位论文是本人在导师的指导下独立完成的,对所研究的课题有新的见解。据我所知,除文中特别加以说明、标注和致谢的地方外,论文中不包括其他人已经发表或撰写过的研究成果,也不包括其他人为获得任何教育、科研机构的学位或证书而使用过的材料。与我一同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。在此本人郑重承诺:所呈交的学位论文不存在舞弊作伪行为,文责自负。学位申请人(学位论文作者)签名:201年月日关于学位论文著作权使用授权书本人经河南大学审核批准授予硕士学位。作为学位论文的作者,本人完全了解并同意河南大学有关保留、使用学位论文的要求,即河南大学有权向国家图书馆、科研信息机构、数据收集机构和本校图书馆等提供学位论文(纸质文本和电子文本)以供公众检索、查阅。本人授权河南大学出于宣扬、展览学校学术发展和进行学术交流等目的,可以采取影印、缩印、扫描和拷贝等复制手段保存、汇编学位论文(纸质文本和电子文本)。(涉及保密内容的学位论文在解密后适用本授权书)学位获得者(学位论文作者)签名:201年月日学位论文指导教师签名:201年月日\n绪论1绪论1.1研究背景和意义遥感(RemoteSensing)科学是在地球科学与传统物理学、现代高科技基础上发展起来的一门新兴交叉学科。广义上泛指从远处探测、感知物体或事物的技术。即不直接接触物体本身,而是在远处通过仪器(比如飞机、气球、飞艇、卫星等载体上的传感器)探测和接收来自目标物体的信息(如可见光、红外、电场、磁场、电磁波等信息),[1]经过信息的传输及其处理分析,识别物体的属性及其分布等特征的技术。通过遥感技术,可以很快得到大量所需信息,有效地为国土、农业等行业以及管理[2]部门的决策提供支持。在遥感技术给人们的生产生活带来各种方便的同时,由于其自身的数据量巨大,如何有效组织、大量存储、快速检索、快速浏览、方便使用这些遥感影像数据就成为一个迫切需要解决的问题。基于上述目的,本文对海量遥感数据存储的组织结构以及海量遥感数据存储系统的建设进行了详细的讨论和研究,提出并实现了一种基于文件系统的海量遥感数据组织结构以及适合这种文件系统组织模型的分布式存储结构,这种组织结构可以在存储海量遥感数据的同时,做到快速检索、快速浏览、快速显示。随着科学技术的发展进步,日常生产生活越来越离不开信息技术。比如,出行时需要了解路线规划、道路的流量等信息;农业部门需要了解小麦的种植面积信息;环保部门需要了解某一地区污染情况信息等等。遥感影像数据是一种具有超高容量、可靠性强、方便及时等特点的信息载体,由于遥感影像数据的这些特点,使其在交通管理、土地规划、军事、资源、环境和防灾等很多领域都起着不可替代的用途。利用卫星平台,人们可以迅速得到几天前甚至几小时前[3]的拍摄的高分辨率的遥感影像,使获取的信息更加及时准确。遥感影像的数据量非常大。每天都有通过不同途径获取的大量遥感影像,并且随着分辨率的提高遥感影像的数据量也呈几何级递增,达到Terabyte(TB)量级甚至Petabyte(PB)量级,而且这个数字随着时间的推移和卫星技术、传感器技术的发展还将持续快速增加下去。随着海量遥感数据的广泛应用,传统的数据库技术和数据管理手段已经不能满足海1\n海量遥感影像数据存储组织结构研究量遥感影像数据的性能要求。在进行海量遥感影像数据应用时,如果使用传统的数据管理技术,必须考虑以下几个方面:1、影像数据容量过大,超过数据库的处理极限;2、遥感影像是一种自然结构的数据文件,不适合用关系数据库这种存储非自然结构数据的方式来管理。3、相对海量遥感影像而言网络带宽不足,影像显示速度慢的令人难以忍受,存在I/O瓶颈;4、海量遥感影像数据的快速检索技术;5、海量遥感影像的快速发布技术。综上所述,传统的数据管理技术不能满足海量遥感影像数据带来的新需求。如何才能更好地存储和管理海量遥感影像数据,实现对遥感数据的快速处理、快速检索、快速显示,从而在信息海洋中提取有价值的知识,进一步提高信息的利用率,已经成为目前需要解决的紧迫问题。而解决这些问题的方法就要归结于海量遥感影像存储管理组织结构的研究。1.2研究现状遥感技术作为一门新兴技术,在国内很多相关技术上还处于研究阶段。在海量遥感影像数据存储方面,国外的技术相对较成熟,国内的相关技术在存储容量以及检索速度上与国外还有比较大的差距。一、国外的研究情况:目前国外比较能代表海量遥感数据存储水平的系统主要有美国航空航天局(NASA)[4]的MSS存储系统以及Google公司推出的GoogleEarth系统。NASA在管理海量空间数据采取的方式是将原始影像经过压缩处理之后保存在数据中心,同时将影像对应的属性数据保存在XML文件当中。这种管理方式具有以下几个优点:1、将占用空间很大的遥感影像数据利用文件系统存储,并且影像文件经过技术MrSID技术的无损压缩,能够很好的减小数据容量,减轻了网络宽带的压力,降低了系统的开发难度。2、影像的一些主要信息保存在XML当中,只需要读取XML文件中的信息就能了解影像的一些基本属性信息,而不用每次了解这些信息的时候都从影像中读取。这种方2\n绪论式提高了处理效率。3、原始数据经过预先处理后保存。一些需要在后期进行的影像处理工作在前期已经完成,比如快视图、金字塔影像等文件在开始处理阶段就已经生成,这样使遥感影像可以快速发布。Google公司的GoogleEarth系统能够提供覆盖全球1/3地区的高分辨率卫星影像,部分地区的影像分辨率甚至达到了军用的0.5米级的标准。Google开发出了一整套以GoogleCluster、GFS、Bigtable、MapReduee、Chubby和Sawzall等技术为核心的PB级[5-6]海量数据存储解决方案,取得了不错的成绩。二、国内的研究情况:目前,国内对海量遥感数据的存储主要有两种方法:一是使用ENRI公司开发的[7]ArcSDE空间数据库引擎+数据库;二是使用Oracle数据库提供的OracleSpatial空间[8]数据管理中间件的方式来管理存储空间数据。这些方式采用的技术都是基于对现有的关系型数据库进行功能上的扩展,或者采取空间数据中间件的方式,其主要目的是为了支持GIS系统的实际应用。这种方式的优点是可以通过已有的遥感数据管理工具对遥感数据进行管理,可以省去一些开发时间。但也存在很多不足:数据库本身并不适合去存储自然结构的遥感影像数据;对于特大的遥感数据,单幅影像大小普遍在1G左右,而如果把这些影像都存储在数据库中,数据库将变的异常庞大,并且遥感影像每天都需要大量的更新数据,采用将影像数据放在数据库中的管理方式在这种情况下将变的不可行。从根本来讲,这种技术路线并没有解决海量遥感数据的存储与管理问题,其主要性能上与当今世界的先进水平还有不小的差距。总的来看,国外在海量空间数据存储管理与国内采用的管理方式相比,在存储容量以及处理速度上都具有优势。虽然了解其大概的架构,但是相关的技术细节还没有对外公开。目前,由于遥感技术的发展,观测手段的丰富,遥感影像的数据量也在飞速增长,因此,对于海量影像数据存储方向的研究呈现出四个特点。1、从利用现有数据库技术向使用文件系统管理转变。2、数据存储的体系结构由集中式向分布式转变。3、从小规模集群向大规模集群转变。4、数据管理技术从使用传统的DBMS逐渐向开发针对遥感影像特点的专用遥感数3\n海量遥感影像数据存储组织结构研究据管理系统转变。1.3论文的主要内容及组织结构本文所进行的研究工作的目的在于构建一个面向PB级海量遥感影像数据存储与管理的大规模集群系统,该系统具有高可靠性、高扩展性、高并发访问等特点,满足对海量遥感数据的快速检索、快速浏览和快速处理的需求,为遥感应用系统提供支持,实现对海量遥感数据的有效组织与管理。本文主要研究内容有:1、提出一种遥感影像数据标准化处理方法。依据该方法,将原始的遥感影像数据进行分块处理,然后将分块后的数据进行标准化命名,并且对命名好的文件按一定方法进行存储。采用这种组织方式管理可以在存储海量遥感影像数据的同时,做到影像的快速检索、快速浏览。2、设计一种标准数据检索算法,该算法可以根据用户的检索条件构造出目标影像存储路径,再根据存储路径进行查询,得到检索结果并返回。该算法具有检索速度快,且其检索性能不会随着数据量的增加而出现大的波动等优点。3、针对遥感影像的数据标准化处理方法,提出SD-DRSDSS分布式存储文件系统,用于存储海量遥感影像数据。SD-DRSDSS系统是针对保存经过标准化处理后的数据而设计的,具有高扩展性,高可靠性,支持高并发访问等特点。4、SD-DRSDSS分布式存储系统的检索算法及其实现。在SD-DRSDSS系统中进行快速检索。论文的组织结构如下:第一章,绪论。主要介绍了本论文研究的背景和意义、国内外的研究现状以及本文的主要研究内容。第二章,概述遥感技术的应用以及目前常用的海量遥感影像数据存储技术与存储架构,分析其优势与不足。第三章,提出了一种遥感影像数据标准化处理方法。首先分析遥感数据的特点,然后针对其特点,提出了一种数据标准化处理方法,并详细分析了采用此方法带来的优点。然后提出了基于标准化处理的检索算法,并分析了该算法的性能,最后实现一套标准化处理系统。第四章,SD-DRSDSS分布式遥感影像存储系统。详细介绍了SD-DRSDSS体系结4\n绪论构,分析其处理流程,对SD-DRSDSS系统的特点和优势进行归纳和总结,最后实现该系统并测试了该系统的并发访问能力。第五章,对本文的主要工作进行了总结,并对下一步的工作进行了展望。5\n遥感技术及影像数据存储技术概述2遥感技术及影像数据存储技术概述很多人以为遥感离自己的生活很遥远,其实这些技术早就已经深入大家的生活。从上个世纪六十年代提出“遥感”这个词,到1972年美国陆地卫星计划发射了第一颗对地观测卫星LandSat。遥感技术经过几十年的发展,已经广泛地应用在军事、国防、农业、林业、国土、海洋、测绘、气象、生态环境、水利、航天、地质、矿产、考古、旅游等各个行业,影响了人类生活的方方面面,为人类提供了从多维和宏观角度去认识世界的新方法与新手段,遥感技术能够全面、立体、快速有效地探明地上和地下资源的分布情况,其效率之高是以前各种技术无法企及的。遥感技术已成为一门实用的、先进的[9]空间探测技术。2.1遥感技术特点遥感技术具有以下特点:1、获取的影像数据范围很大。遥感专用的航拍飞机飞行高度在10km左右,陆地卫星的卫星轨道高度一般能达到910km左右,可以及时获取大范围的信息。比如,一张陆地卫星遥感影像,一般都可以覆盖3万多平方公里的面积。这种展示宏观情况的影像,[10]对地球资源和环境分析有着极为重要的作用。2、遥感技术获取信息的手段多、信息量大。根据不同的需求,可选用不同波段信号和遥感仪器来获取信息。例如即可以采用可见光探测物体,也可采用紫外线、红外线、微波等不同波段来探测物体。利用不同波段对物体不同的穿透性,还可获取地物内部的信息,例如,地表深层、冰层下的水体,沙漠下面的特性等,微波波段还可以全天候的工作。3、所受的限制条件少。在地球上有些地方,如沙漠、森林、沼泽等,自然条件恶劣,人类很难到达。采用不受地面条件限制的遥感技术,可方便及时地获取各种宝贵资料,在抗击各种灾害时能获取灾区第一手的资料。4、获取影像信息的速度快,更新的周期短。由于卫星一直不停的在围绕地球运转,从而能定期获取其轨道所经地区的最新资料,这种优势是人工实地测量和航空摄影测量所不具有的。例如,法国SPOTS5卫星重复覆盖地球周期为1-5天,NOAA(美国国家海洋和大气局)气象卫星一天能收到两次影像。美国气象卫星(meteorological和satellite7\n海量遥感影像数据存储组织结构研究[11]缩合)每30分钟获得同一地区的影像。利用遥感技术获取的遥感影像数据保存在栅格数据结构中。栅格数据结构将地表均匀的划分为大小相等的网格阵列,网格阵列中的每一个网格称为像素或像元,像素的位置由行列号定义。每一个像素都包含一个用来记录其属性值或指向其属性记录的指针的代码。因此,栅格结构就是用规则的阵列表示空间实体和现象分布的数据组织形式,栅[12]格中的数据表示的是空间实体和现象的非几何属性。栅格数据结构容易实现,算法简单,且易于扩充、修改,也很直观,特别是易于同遥感影像的结合处理,给地理空间数据处理带来了极大的方便。但由于栅格结构对地表的离散,在计算面积、长度、距离、形状等空间指标时,若栅格尺寸较大,则造成较大的误差。栅格数据结构如图2-1中所示。图2-1栅格数据结构2.2遥感技术应用由于遥感技术所具有的上述特点,遥感技术目前在很多行业领域都起着不可替代的作用。1、地质遥感遥感技术应用于大面积的地质灾难调查,可达到及时、具体、准确并且经济的目的。在2008年“5.12”汶川大地震的后续救援工作中,遥感技术就发挥了重要作用,第一时间提供了地质地貌变化情况,为政府做出正确决策提供了依据。在舟曲泥石流灾害中,中国科学院对地观测与数字地球科学中心科研人员就使用遥感技术,重点提取了6条沟谷与泥石流发生有关的信息,得到积水面积、流域平均坡度、流域落差和植被覆盖度等参数。经过分析,科研人员判断出,当地哪些地方仍存在泥石流隐患,哪些地段发生大8\n遥感技术及影像数据存储技术概述型泥石流的可能性较小,让前方人员可以更有针对性地安排救灾工作。地震预报是举世瞩目的科学难题,利用红外遥感资料进行地震预报和监测已取得了巨大的成功,1991年3月,观察山西省大同5.8级地震前卫星热红外遥感图像后发现,震前4~6天在局部地区出现地表温度场发生增温现象或称暂时异常“热岛”现象,异常带长80km,宽30km,距离震中25km,地表亮度温度变化数值由22℃增加到28℃,部分欧美发达国家已进入了实际研究和应用阶段。2、环境遥感遥感技术应用于环境监测上既可宏观观测空气、土壤、植被和水质状况,为环境保护提供决策依据,也可实时快速跟踪和监测突发环境污染事件的发生、发展,及时制定处理措施,减少污染造成的损失。其从空中对地表环境进行大面积同步连续监测,突破了以往从地面研究环境的局限性。例如:每年夏收后的秸秆燃烧是个让当地政府头疼的问题。过去监察人员坐车巡查,能去的地方少,大部分火点都被漏掉。现在气象和环保联手,遥感中心通过卫星监测火点,分辨率高达250米的卫星定位可以精确到乡镇,让秸秆燃烧无处遁身,保证环保人员能有效执法。在2009年6月6日全国秸秆焚烧公布的遥感监测结果中,山西省有3个火点,其中就有介休市1个火点,具体位置在禁烧区[13]省道旁经度111.98度,纬度37.082度上。3、林业遥感在林业方面,利用遥感技术可以清查森林资源,监测森林火灾和病虫害。火灾是林业的大敌,利用航空红外遥感技术,不仅能发现已燃烧起来的烈火,而且可以探测到面积小于0.1-0.3㎡小火情,还能及时预报由于自燃尚未起火的隐伏火情。利用卫星遥感,一次就可探测到上千平方千米范围内发生的林火现象。卫星遥感防火监测服务在吉林省森林和草原防火工作中发挥了重要作用,对于人烟稀少的原始林区,能及时监测到瞭望岗哨难以发现的火点,为林火的扑救赢得时间,2009年春季防火期间卫星遥感防火监测服务在吉林省森林和草原防火工作中发挥了重要作用。共向吉林省森林防火指挥办公室和草原防火办公室通报热点87处,出色地完成了吉林省春季防火任务,为保卫吉林省实现连续30年无重大森林火灾的目标做出了贡献。4、测绘遥感人造卫星每隔18天就可送回一套全球的影像资料。利用遥感技术,可以高速度、高质量地测绘地图。9\n海量遥感影像数据存储组织结构研究5、军事遥感在伊拉克战争中,遥感技术发挥了重要的作用,如打击目标的确定,水源的发现,地下坑道的发现,隐藏所的目标锁定等。为战争的战略指挥和后勤工作做了充分的准备,最大限度的发挥攻击效益,极大的增强了军队战斗力。自动化侦察系统,搜集预处理情报系统,自动化通信系统,气象侦察等,充分保障了空中、地面作战的进行。遥感技术获得的信息探测范围大,资料新颖,而且为动态变化,还可迅速成图,搜集方便,不受雨雾、地形等条件的限制。科索沃战争就是一场现代化的信息战,科索沃上空20多颗卫星进行了追踪定位侦察,监视部队动态变化并及时传递信息,制导轰炸。阿富汗战争更有着太多的始料未及,B-52的远程轰炸,直接从美本土起飞,飞行上万里,且目标准确,由于传感的精确指导,美国泊于印度洋上的航空母舰直接进行导弹发射,阿富汗多山的优势,在遥感监听下亦丧失殆尽,崇山峻岭中山洞的防御亦不能逃脱精确制导的打击,微波的功能让塔利班地下工事无所遁形。6、农业遥感农业遥感是指利用遥感技术进行农业资源调查,土地利用现状分析,农业病虫害监测,农作物估产等农业应用的综合技术,是当前遥感应用的最大用户之一。在2007年的中央一号文件中写到“鼓励有条件的地方在农业生产中积极采用全球卫星定位系统、地理信息系统、遥感和管理信息系统等技术。”可见遥感在农业中的重要地位。a、农作物估产与监测:2004年以来,利用遥感估产运行系统得到的冬小麦、玉米的长势、墒情、面积和产量监测结果一直纳入农业部“农情信息发布日历”,成为农业部粮食会商的3大信息渠道之一,通过农业部官方网站对外发布。像遥感站所进行的冬小麦监测、玉米监测就是遥感估产运行系统中的地面调查系统。b、“3S”集成技术在精细农业中的应用:遥感和GIS结合提供多种数据源,这为建立农田基础数据库奠定了基础。农田基础数据库是农田科学管理的基础。搭载在拖拉机和联合收割机上的地理信息系统可以记录下各种农田操作过程中获得的数据,如作物品种、播种深度、喷洒农药类型以及收获产量,同时记录下田间作业时的位置与范围,灌溉量、化肥使用量、农药喷洒量、喷施部位、使用时间、当时天气状况等,这些都可以记录在数据库内,日积月累,形成农田生产辅助决策系统的重要科学依据。GIS能够根据地块中的土壤结构、有机质含量和土地平整度,结合GPS接收机提供的位置数据,指挥播种机进行定量播种,播种的疏密程度与土地肥力和土壤质地等作物生长环境相适10\n遥感技术及影像数据存储技术概述应。在GIS和GPS指挥下,农药喷洒机可以在病虫害发生地去自动喷洒农药。c、在病虫害防治中的应用:在小麦生产中,小麦条锈病是损失大、危及范围最广的一种病害。长期以来,我国对小麦条锈病的监测工作仅限于田间取样调查。但是,针对大面积病害的监测,采用人工调查不仅耗费大量人力物力,而且监测效率很低,等病情上报到有关部门时,往往病害已大范围暴发。和人工进行农作物病虫害监测相比,采用卫星遥感监测效率更高,精度更高。d、农情监测:农情参数的获取可以用于指导农田的生产管理,实行变量投入,达到优化生产、提高生产率、减少污染,是现代化农业发展的趋势。遥感技术具有覆盖范围大、探测周期短、现时性强、费用成本低的特点,为农情参数快速、准确、动态地获取提供了重要的技术手段。e、农业资源调查和动态监测:遥感技术使农业动态监测工作可以从几公里甚至几万公里的高度俯视地面资源及其变化,从而开拓了人们的思路和视野,为农业资源调查、监测提供了更先进、更科学、更有效的方法。山西省遥感中心利用遥感技术进行农业资源调查和动态监测经费是常规方法的1/5-1/10,人力是1/10-1/20,时间是1/5-1/10,经[14]济效益可观,还取得了较好的生态效益。总之,随着卫星遥感技术的迅速发展,已经把人类带入了立体化、多层次、多角度、全方位和全天候地对地观测的新时代。在网络上,不仅能搜索到自己家,还能看见阳台上种的几盆花,甚至可以判断哪几盆要浇水;当我们站在某个海滩边,掏出手机,就可以接收到卫星遥感发回的数据:附近哪里阳光充足、哪里的沙滩沙多,哪里的海水污染较少,哪里游泳水温比较合适。2.3海量遥感数据存储技术分析近年来,随着遥感技术的发展以及应用领域的不断扩大。对海量遥感影像数据存储技术的发展也十分迫切。随着遥感学科发展,对遥感数据的存储的研究也取得不错的成果,以下从海量遥感数据存储采用的技术手段以及架构设计两个方面对目前海量遥感数据存储技术做整体介绍。2.3.1存储海量遥感数据常用的技术手段整体上看,存储海量遥感数据所采用的技术手段主要包括使用关系数据库存储数据;使用空间数据中间件技术存储数据;使用NAS、SAN等存储设备存储数据;使用分布式文件系统存储数据这几种方式。11\n海量遥感影像数据存储组织结构研究1、使用关系数据库存储海量遥感影像数据。这种技术手段主要利用现有的关系型数据库中支持大对象的数据类型来存储遥感数据。例如在微软的SQLServer2008中包含有三种大对象数据类型:BLOB、CLOB或DBCLOB。这些数据类型可以用来存储遥感影像数据。在空间数据库中,使用不同的索引来检索数据。目前常见的空间索引结构包括R树[15][16][17][18][19][20]、BSP树、K-D树,R+树,R*树,HilbertR树。另外,SQLServer2008还针对遥感应用提供了Geography空间数据类型以及Geometry空间数据类型。可以用来存储不同种类的矢量地理元素,例如点、线以及多边形。Geography空间数据类型为空间数据提供了一个由经度和纬度联合定义的存储结构。使用这种数据的典型用法包括定义道路、建筑等向量数据,它考虑了地球的弯曲性;而Geometry数据类型为空间数据提供了一个存储结构,它是由任意平面上的坐标定义的,不需要考虑地球弯曲性的地图和内层布置图。这两个数据类型都提供了可以用来执行空间操作的属性和方法,例如计算位置间的距离或者找出两者间交叉的地理特性(例如一[21]条河流经一个城镇)。采用利用现有关系型数据库技术手段的优点是可以利用现有的成熟DBMS系统,可以有效的降低系统开发难度。但是,现有的关系数据库对海量影像这种自然结构数据的支持比较有限,而且对于海量数据,其支持的容量成为其瓶颈,对系统的开发应用也会受制于DBMS系统提供的管理能力,并且还会带来采购成本升高等问题。2、使用空间数据中间件技术存储海量遥感影像数据。这种技术手段的代表是Oracle公司开发的ORACLESPATIAL空间数据库管理引擎以及ERSI公司开发的ArcSDE空间数据管理中间件。ORACLESPATIAL将所有的地理空间数据类型(矢量、栅格、网格、影像、网络、拓扑)统一在基于标准的数据管理环境中管理,这就减少了管理的成本、复杂性和开销。ArcSDE为DBMS提供了一个开放的接口,允许在多种数据库平台上管理空间数据信息。这些平台包括Oracle,MicrosoftSQLServer,IBMDB2和Informix。采用空间数据中间件技术手段的优点是针对遥感影像特点而设计的,即可以利用现有的DBMS技术,也可以利用其提供的访问接口去访问数据,有效的减少了系统开发难度。但是,采用这种技术同样会带来对系统的开发应用也会受制于DBMS系统提供12\n遥感技术及影像数据存储技术概述的管理能力,以及采购成本升高等问题。3、使用NAS、SAN等网络存储设备存储海量遥感影像数据。NAS、SAN是种通用型海量数据存储技术。能够将数据整合为大型、集中化管理的数据中心,以便于对不同主机和应用服务器进行访问的技术。简单说就是连接在网络上一种专用数据存储服务器,因此也称为“网络存储器”。这种技术的优点是数据传输速度快,存储容量大,架构简单,部署容易,但是其价格也较为昂贵。4、使用分布式文件系统存储海量遥感影像数据。分布式文件系统是通过计算机网络将多台服务器连接起来,构建集群,将遥感影像数据存储在分布式文件系统的各个节点上,通过网络共享资源。这种技术的优点是不用采购DBMS系统,降低了成本,并且文件系统可以很好的支持遥感影像这种自然结构数据,可以优化文件的存储结构,并且分布式文件系统容易扩展,支持高并发访问,不容产生网络瓶颈。但是由于所有的数据管理层以及数据访问[22]接口都需自主开发,增大了系统研制难度。2.3.2存储海量遥感数据常用的架构目前,存储海量遥感影像数据采用的主要架构包括集中式文件系统、分布式数据库[23]系统以及分布式文件系统这三种方式。1、集中式文件系统这种架构的特点是将所有的遥感影像数据都保存在一个中心服务器上边,并且通过文件系统对这些影像文件进行管理。在图2-2中描述了集中式文件系统的架构。13\n海量遥感影像数据存储组织结构研究⋯⋯客户端A客户端B客户端N中心服务器图2-2集中式文件系统架构由于遥感影像数据是自然结构的数据,不适合使用关系数据库来存储,所以在这种架构里,中心服务器利用文件系统存储维护所有的遥感影像数据,同时也提供对数据的检索服务,对性能要求较高,所以中心服务器一般是由高性能的服务器搭建的。采用集中式文件系统能够减少整个系统的维护、管理工作量,但是这种架构数据冗余度大,系统的可扩展性价差,中心服务器很容易就成为整个系统性能的瓶颈,而且其安全性差,当中心服务器崩溃时整个系统就会瘫痪。所以集中式文件系统只适合用来做一般的遥感影像数据存储服务,面对目前日益增长的遥感影像数据,这种方式就显得力不从心了,不能满足性能上的要求了。2、分布式数据库系统分布式数据库系统是利用现有的成熟的DBMS技术搭建的遥感影像存储系统,主[24]要有两种方式。一是采用传统关系型数据库,另外一种方式是采用空间数据引擎技术[25]。这两种方式的架构如图2-3所示。在这种架构中,中间服务器提供对外访问的统一接口。这两种方式的特点是都充分利用了现有的成熟DBMS技术,可以降低系统的开发难度,具有良好的安全性、多用[26]户并发访问以及数据一致性。采用分布式的结构可以有效的降低服务器负担,提高网[27]络传输效率。利用空间数据引擎还可以有效的管理遥感影像数据,并且能够支持异构[28]数据库。14\n遥感技术及影像数据存储技术概述⋯⋯⋯⋯客户端A客户端B客户端N客户端A客户端B客户端N中间服务器中间服务器⋯⋯⋯⋯空间数据引擎A空间数据引擎B空间数据引擎N数据服务器A数据库服务器B数据库服务器N基于关系型数据库及其空间扩展基于空间数据引擎及关系数据库图2-3分布式数据库系统从实际使用效果来说,采用空间数据引擎的方式在使用效率上要比直接使用关系数据库提供的空间数据扩展要高。但是,它们的都是使用现有的关系数据库来存储遥感影像数据,而关系型数据库并不适合存储这种自然结构的影像数据,另外,系统的整体性能还要受制于DBMS,对数据的发布支持也比较弱,从而影响系统的整体性能。3、分布式文件系统分布式文件系统是将系统部署在集群系统上边。常见的分布式文件系统包括[29][30][31][32][33][34]NFS,AFS,CODA等。到后来的XFS,PVFS,GFS等集群文件系统,遥感影像数据存储在分布式文件系统的各个节点之上,其架构如图2-4所示。⋯⋯客户端A客户端B客户端N中心节点⋯⋯节点A节点B节点N图2-4分布式文件系统分布式文件系统能够很好的适应各种复杂的遥感影像数据,能够高效的对数据进行15\n海量遥感影像数据存储组织结构研究管理和维护,具有很好的可扩展性,能够充分利用各个节点的计算能力和存储能力。能够很好的支持数据发布。不足之处是需要自己开发专门的数据管理系统,增加了开发难度。2.3.3存储海量遥感数据技术发展趋势经过分析目前常用的海量遥感数的存储技术,结合遥感技术的发展趋势以及对海量遥感影像存储技术的深入研究,未来海量遥感影像数据存储技术的发展将呈现以下两个特点:1、数据管理技术手段从依托现有关系型DBMS向开发遥感影像专有管理系统转变;2、存储架构由集中式向分布式,从小规模集群向大规模集群转变。2.4本章小结本章首先介绍了遥感技术的特点,遥感技术在各个行业中的典型应用,分析了遥感技术广阔的应用前景以及研究海量遥感影像数据存储技术的必要性,然后详细介绍了目前存储海量遥感影像数据常用的技术手段以及存储架构设计,分析各种存储技术手段、存储架构的优势及其不足。16\n遥感影像标准化处理3遥感影像标准化处理要实现对多源、多格的海量遥感影像数据的高效存储,首先要解决如何在海量的遥感影像中快速检索到目标影像的问题。解决这个问题的方法是采用何种方式高效的对遥感影像数据进行组织管理。针对这个问题,并综合考虑了遥感影像数据的特点,本文设计了一种遥感影像的标准化处理方法。这个方法包括影像的分块、影像分块后的标准化命名、以及影像的存储方法。根据这个标准化处理方法处理后的数据称为标准化数据。遥感影像数据经过标准化处理之后应该满足以下几个目标:1、影像的快速检索。能够快速的从海量影像数据中找到目标文件,其检索性能不应随着存储的数据量的增大而受到大的影响;2、影像数据的快速传输。尽可能只传输有效区域的数据,减少无效区域数据的传输;3、影像产品的快速生产。经过标准化处理后的影像适合进行并行计算;4、影像基本信息的快速浏览。能够生成影像的快视图,快速查看影像文件的基本情况,并浏览影像的基本信息;5、影像的快速展示。能够生成金字塔影像,在三维地球中快速展示。3.1相关知识要做到高效的管理海量遥感影像数据,需要设计一套好的遥感影像数据组织管理结构。遥感影像从获取,进行预处理到对遥感影像生产、加工到对产品的对外发布,有着一套完整的业务流程,要想使设计的组织管理结构具有很好的性能,需要对遥感影像的整个生产处理流程有一个深入的理解,使其能够适应遥感影像的生产以及应用。3.1.1遥感影像处理流程一般来说,遥感影像产品分为0-6级,刚从遥感平台上获取的遥感影像数据称为0级产品,0级产品还不能直接用于生产遥感应用产品,还需要由预处理系统对0级数据进行预处理,预处理是遥感影像应用的第一步,经过预处理系统对0级影像的影像配准、去云、拼接、命名、辐射校正以及几何校正等各种处理后生成2级影像产品。2级影像产品才能用于生产3-6级等更高级的遥感应用产品。在图3-1中简要说明了一个典型的卫星遥感影像处理流程。17\n海量遥感影像数据存储组织结构研究数据获取预处理系统原始影像(0-2级产品)数据接收及预处理品产级2遥感产品生产(3-6级产品)遥感应用图3-1典型卫星遥感影像产品处理流程从图3-1中可以看出,卫星将拍摄的数据发送到地面接收站,地面接收站使用预处理系统对原始数据进行加工,生产出2级遥感影像产品,在2级影像产品的头文件中包含了这幅影像的基本信息,主要包括传感器类型、拍摄平台、拍摄时间、影像的经、纬度范围、分辨率等一些信息。所以生产遥感应用产品时拿到的遥感影像数据都是经过预处理系统加工后2级影像产品,在生产的时候,根据用户的需求选择生产算法,生产产品所需影像的拍摄时间、区域等信息,选取符合要求的2级影像产品做进一步的加工,生产出3-6产品,最后将生产结果通过Internet、三维地球等平台发布。3.1.2影像金字塔模型随着遥感技术的发展,遥感影像的分辨率越来越高,包含的信息量也是越来越大,而人们对遥感的应用需求却与日俱增。遥感数据与3D展示的结合是当前GIS在遥感方面的一个主流应用方向,IBM提出的“智慧地球”、Google公司的“GoogleEarth”等已经进入到人们的日常生活当中。由此可见,如何将这些大数据量的遥感影像发布出去,并进行快速高效的浏览、显示也是一个很重要的方面。目前,解决此问题常用的方法是对影像进行分级重采样,切割分块,建立影像金字塔模型,通过牺牲存储空间换取在快速[35]显示上的高效。金字塔模型的结构如图3-2所展示。18\n遥感影像标准化处理图3-2金字塔模型在金字塔模型中,原始影像按照不同的分辨率进行重采样后分层保存,层与层之间的分辨率是2倍关系,通常采用的标准块大小为256×256,最上层的分辨率最低,最下层是原始影像。例如现在要为一个大小1024×1024,分辨率为30M的影像构建一个3层影像金字塔,按照上述方法,第一层包含一块分辨率为120M,大小256×256的影像,第二层则包括四块分辨率为60M,大小为256×256的影像,第三块包含16块分辨率为30M大小为256×256的影像。存储的时候对这些标准块都根据其位置信息建立了索引号[36]。在金字塔模型中,每一级金字塔其分辨率是不一样的。根据用户当前操作,比如说放大、缩小、漫游计算出进行该操作后所需的影像分辨率及在当前屏幕显示范围内应该显示的地理坐标范围,然后根据这个分辨率去和建好的影像金字塔中的各级影像分辨率匹配,哪层影像金字塔的分辨率最接近就使用哪层的影像进行显示,并且根据应该显示的范围,来计算在该层影像金字塔上与之对应块号的索引号,然后取出来在屏幕上显示[37]就可以了。采用金字塔模型,可以避免对整个原始影像的进行读操作,有效的节约了网络传输带宽以及内存空间,使大数据量的遥感影像可以在Internet上发布,进行快速高效浏[38]览。3.1.3元数据元数据(metadata)这一词在很多领域和场合都能见到,对它最通俗的理解就是用来描述数据的数据。比如,在日常生活中碰到的图书馆目录卡和名片可以看作是元数据的一种表现形式。在文件系统中,元数据是用来描述一个文件系统特征的数据。对于磁盘文件系统来说,一个“文件”是指按一定的组织形式存储在介质上的信息,它实际上包含两方面的信息,存储数据本身以及有关该文件的组织和管理信息。这些关于文件的组织和管理信19\n海量遥感影像数据存储组织结构研究息就是该文件的元数据。在UNIX系统中,文件的元数据主要是文件目录项和索引结点结构。目录项与文件系统的名字空间相关,每个目录项对应一个文件名。索引结点结构中则存储着文件的很多重要信息,诸如文件名、文件大小、文件的创建时间、最后存取时间、最后修改时间等属性信息,以及文件数据的物理分布信息(如直接块指针、间接块指针)。此外,还有一些重要的系统数据(如超级块信息),记录了整个文件系统的使用情况(如空闲块的大小、已使用的空间大小等),也是一种很重要的元数据。在使用元数据的文件系统中,元数据是最重要的系统数据。用户读写文件系统中的文件时,首先要对数据进行定位,只有先获得文件的元数据后,才能将客户的请求转发到正确的I/O服务器,进行数据访问。如果不能进行正确的定位,基于文件数据的并行应用程序就无法执行。因此,必须保证系统中元数据的正确性和可靠性。其次,元数据的访问性能影响着并行文件系统的性能。在并行文件系统中,元数据的访问很频繁,而[39]元数据文件通常又很小,这样对大量小文件的访问,会对系统性能造成冲击。在文件系统中使用元数据,解决了存储多种类型自然结构数据的问题,提高了系统检索速度。3.2遥感影像标准化处理方法与其他自然结构的数据不同,遥感影像数据有其自身的特点。一幅完整的遥感影像都应包含如下信息:1、遥感影像数据包含经纬度信息,与地球上的区域是对应的,这也是遥感数据与其他类型数据最大的不同;2、遥感影像数据的分辨率信息;3、遥感影像数据中包含拍摄影像的平台(卫星、飞艇)信息;4、遥感影像数据中包含传感器类型(比如CCD、Modis)的信息;5、遥感影像数据包含拍摄的时间信息。综合考虑遥感影像数据的这些特点,可以构建出一套遥感影像的标准化处理方法,这个方法包括影像的分块处理、影像分块后的命名、以及影像的存储方法。按照该方法处理遥感影像数据可以做到对影像数据的快速检索、快速传输、快速生产、快速浏览。3.2.1遥感影像分块处理根据3.1.1小节中所描述的遥感影像处理流程,遥感应用产品生产使用的是2级遥感影像,其特点是遥感影像数据经过预处理系统的处理。经过预处理的一个特点是影像20\n遥感影像标准化处理文件Head部分包含了该影像的经、纬度坐标范围、分辨率、传感器类型等一些基本属性信息;另外一个特点是数据量大,通常一幅影像的大小在几百MB甚至上GB之间,覆盖的范围根据其分辨率不同在几十KM至上千KM之间。在实际生产的时候,往往使用的是一幅影像的部分区域,如果不对影像进行处理,那么每次生产的时候都要将整幅影像传送到生产线上,这样做即增加了网络负担、又增加了产品生产的时间开销。所以,为了提高生产速度、节约网络带宽,可以对接收的2级影像进行分块处理,这样可以带来以下几个好处:1、提高生产效率。由于2级影像数据经过分块处理,在生产的时候只传输包含生产区域的数据块,减少了生产服务器的计算开销。2、减少网络负担。一些无效区域的数据将不会被传输。3、有利于并行计算。传送过来的数据已经被分块处理,在处理遥感影像可以直接进行并行计算,提高生产速度。由上边的描述可知,对影像进行分块处理可以带来很多好处。在决定对2级影像产品进行分块后,就要考虑以什么样的方法对遥感影像数据进行分块。遥感影像数据的一个特点是包含了所拍摄地区的经纬度信息,而地球上的每一个地方都有唯一的一组经纬度信息来与之对应,因此,按照经纬度网格对2级影像进行分块是一种比较科学的方法。在确定了按照经纬度网格对遥感影像进行分块之后,下一步的工作就是确定采用什么样的分块大小最为合适。遥感影像的分辨率是不相同的,比如美国Modis(TERRA卫星)影像的分辨率为1KM;QuickBird(快鸟卫星)影像的分辨率能够达到0.5M;一些军用卫星的分辨率甚至更高。由于不同功能、不同类型的遥感影像数据分辨率相差很大。若按照单一的经纬网格大小对影像进行分块是不科学的。比如,假设使用固定的1(经度)×1(纬度)的经纬度网格大小作为分块依据,其代表的范围大概是100KM×100KM的大小,对于1KM的Modis影像,按照这个方法分块后的像素点数量为100×100,影像过小;而对于分辨率能达到0.5M的QuickBird影像来说,其分块后的像素点数量为200000×200000,影像又过大,这样就失去了分块的意义。所以,在制定分块大小的时候必须考虑影像不同分辨率对分块的影响,所以,比较合适的方法是根据不同的影像分辨率采用不同大小的经纬度网格。现在给出本文相关名词术语的说明性定义:21\n海量遥感影像数据存储组织结构研究定义1原始影像:准备进行分块处理的影像数据。定义2标准块:根据原始影像分辨率计算所得的经纬度网格区域范围。例如,根据计算得出一幅原始影像的分块的大小应为10(经度)×10(纬度)。地球的经度为[-180-180],纬度为[-90-90],我们以维度-90度和经度-180为原点,将全球划分成大小相等的经纬度网格。每一块10度×10度的范围称为一个标准块。如图3-3所示。图3-3按照10(经度)×10(维度)的大小划分的全球经纬度网格定义3标准块影像文件:原始影像按标准块的范围进行分块后,保存原始影像中对应该标准块范围的影像数据文件。定义4标准块属性文件:用来保存标准块影像文件的基本属性信息。定义5标准块快视图文件:用来保存标准块影像文件的快视图。定义6标准块金字塔影像文件:用来保存标准块影像文件的金字塔影像。定义2中根据原始影像分辨率计算标准块的算法定义如下。假设有一幅原始影像X,其分辨率为S,现在要对其进行分块,分块使用的标准块大小为L×L(度),原始影像X的标准块大小应为:L=(S×1000)/100000M(3-1)按照这种方式计算标准块的大小,既能保证原始影像分块处理后的标准块文件大小合适,也解决了不同分辨率下标准块大小的问题。根据上面所述的定义以及计算公式,对原始影像的分块处理步骤如下:(1)获取原始影像分辨率;22\n遥感影像标准化处理(2)根据公式(3-1)计算对该幅影像进行分块的经纬度网格大小;(3)根据步骤(2)中计算出的经纬网格大小,对原始影像数据与经纬度网格相交的区域进行分块处理;(4)对原始影像的有效信息不能完全覆盖标准块的部分进行填充;(5)每个标准块进行裁切后生成四个文件:标准块影像文件、标准块属性文件、标准块快视图文件、标准块金字塔影像文件。如图3-4所示;标准块标准块影像文标准块快视图标准块金字塔标准块属性文件文件影像文件件图3-4对原始影像按标准块分块处理后生成的文件(6)分块处理结束。根据上述策略,下面用一个示例说明遥感影像数据分块处理的过程。现在有一幅原始影像需要进行分块处理,该影像的基本属性信息如表3-1中所示:表3-1原始影像基本属性信息原始影像文件名1KM_TER_43684_20080305_025224.08496.hdf分辨率1KM拍摄平台名称Terra传感器类型Modis拍摄时间2008年3月5日17时15分35秒左上角坐标57.4071922302246N;148.883163452148W右上角坐标63.4674644470215N;107.066314697266W右下角坐标21.0289554595947N;103.305938720703W左下角坐标17.8375015258789N;125.187347412109W由原始影像的分辨率根据公式(3-1)计算得出该原始影像的标准块的大小应为:(1KM×1000)/100000M=10(度)23\n海量遥感影像数据存储组织结构研究即每一个标准块的大小是10(经度)×10(纬度)。根据这个范围将全球划分成许多大小相等的标准块。这样,10(经度)×10(纬度)的标准块将地球划分成了36×18=648个标准块。然后将原始影像按照10(经度)×10(纬度)的标准块大小进行分块处理。原始影像覆盖的范围如图3-5所示:图3-5影像在经纬网格上的覆盖范围判定原始影像与经纬度网格的相交区域就可以进行分块处理了,在边缘部分,原始影像的有效信息并不能完全覆盖一个标准块的大小。所以需要对标准块中不足的部分进行填充,这样就保证每个标准块的经纬度范围是一致的。对原始影像进行分块处理之后,每一个标准块生成4个文件,其功能分别是:z标准块影像文件:保存的是原始数据,用于遥感产品的生产。z标准块快视图文件:保存的是标准块影像文件的缩略图,用于快速浏览标准块影像文件。z标准块金字塔影像文件:保存的是标准块影像的金字塔影像,用于快速的在3D平台上展示标准块影像文件。z标准块属性文件:用于快速查看标准块影像文件的属性信息。标准块属性文件中记录了标准块影像文件的基本属性信息,这样用户在查看影像属性时不用每次都从标准块影像文件中读取,起到加快了浏览访问速度的作用。表3-2中显示了在标准块属性文件中保存的一些主要信息。24\n遥感影像标准化处理表3-2标准块属性文件中保存的信息标准块影像文件名进行裁切时间传感器类型标准块左上经度卫星类型标准块左上纬度影像分辨率标准块右上经度影像拍摄时间标准块右上纬度文件大小标准块左下经度标准块行号标准块左下纬度标准块列号标准块右下经度标准块影像大小标准块右下纬度原始影像文件名子数据集名称大地坐标系波段数地图投影重采样技术通过了上面的示例说明了裁切的过程,并且介绍了对原始影像进行分块处理后的生成的文件及其功能。3.2.2遥感影像数据标准化命名在对原始影像进行分块处理之后,每个标准块都生成了四个不同功能的文件,下面的工作需要对这些文件进行标准化命名工作。结合遥感影像的特点,命名的主要原则是通过其文件名能够得知该标准块影像数据的主要属性信息。根据这个原则,制定文件的标准化命名方法如下。(1)获取裁切后每个标准块影像文件的主要属性信息,包括:传感器、平台、分辨率、拍摄时间、标准块行列号的信息;(2)将该标准块下的文件按照“产品类型-传感器-平台-分辨率-拍摄时间-标准块行号-标准块列号.后缀名”进行命名;(3)标准化命名结束。根据上述方法进行命名后,从文件名中可以直接获取该影像主要属性信息而不必每次都从影像文件的Head部分读取。下面举例说明标准化命名。25\n海量遥感影像数据存储组织结构研究例如,对于表3-1中的遥感影像数据而言,包含其左下角坐标的标准块文件命名如下:产品类型:P,代表是该数据是经过裁切的数据;传感器:Modis,代表拍摄该影像的传感器类型是Modis;平台:Terra,代表拍摄该影像的平台是Terra卫星;分辨率:1KM,代表该影像的分辨率为1KM;拍摄时间:20080305171535;代表拍摄该影像的时间是2008年3月5日17时15分35秒;标准块行列号:-10-5;代表标准块在全球经纬网格的行列编号。计算标准块行列号的公式如下。设Latitude为标准块左下角纬度坐标,Longitude为标准块左下角经度坐标,Lat为其行号,Lon为列号,L为标准块大小。Lat=(Latitude+90)/L(3-2)Lon=(Longitude+180)/L(3-3)该影像分辨率为1KM,通过式(3-1)计算得到其标准块大小为10度,由图3-5可。。知,包含影像左下角的标准块的经纬度坐标为[10,-130],通过式(3-2)算得标准块行号为10,通过公式(3-3)算得标准块列号为5。图3-6展示了在1KM分辨率下的各个标准块的行列号。图3-6在分辨率为1KM下的标准块的行列号所以,表3-1中的遥感影像经过分块处理之后包含其左下角的标准块的文件命名如26\n遥感影像标准化处理下所示。P-Modis-Terra-1KM-20080305171535-10-5后缀名:假设后缀名为HDF的文件保存的是标准块影像数据;为JPG表示保存的文件是标准块快视图,为OVR表示保存的文件是标准块金字塔影像,为XML表示保存的是标准块属性文件。所以,该标准块经过裁切之后得到的文件如下:P-Modis-Terra-1KM-20080305171535-10-5.HDFP-Modis-Terra-1KM-20080305171535-10-5.JPGP-Modis-Terra-1KM-20080305171535-10-5.OVRP-Modis-Terra-1KM-20080305171535-10-5.XML该影像的其他标准块命名方式依次类推。以这种方式进行命名,可以通过文件名就能够准获取影像的一些关键属性信息。3.2.3标准化数据存储方法在对原始影像进行裁切以及标准化命名之后,下一步的工作是如何将这些经过裁切以及标准化命名的数据进行存储。结合遥感影像的特点,提出了一种适合存储遥感影像数据的存储方法。该结构以标准块文件的文件名称为基础,按照从文件名获取的信息将文件存入对应路径下。标准块数据存储的处理流程如图3-7所示。开始传来分块后的标准块数据文件分析标准块数文件名获取数据信息由文件名称计算其存储路径按照存储路径存储文件结束图3-7遥感影像数据存储处理流程根据这个流程,进行分块处理后的影像数据在进行标准化命名之后就可以按照数据存储方法进行存储了。根据标准化数据文件名进行的遥感影像数据存储方法如下。27\n海量遥感影像数据存储组织结构研究(1)获取待存储标准化数据的文件名;(2)提取文件名中的关键信息,按照“P/传感器类型/卫星类型/分辨率/拍摄日期/区域/标准化数据文件名/标准块文件”构建文件存储路径;(3)根据步骤(2)中构建的存储路径将待存储数据存储到相应路径下;(4)存储结束。P传感器类⋯⋯型卫星类型⋯⋯分辨率⋯⋯日期⋯⋯区域⋯⋯标准块数据文件名(去⋯⋯掉后缀名)标准块金标准块影标准块属标准块快字塔影像像文件性文件视图文件文件图3-8标准块数据存储方法该结构如图3-8所示。这个存储方法结合了遥感影像数据的特点,将其主要的一些属性作为目录名。这样,具有相同属性的标准块文件数据就会存储在同一目录下,而属性不同的标准块文件则存储在不同的目录中。相当于将遥感数据进行了分类存储。例如,小节3.2.2中所举示例生成的4个标准块文件进行存储,其存储路径如图3-9所示。28\n遥感影像标准化处理PModis⋯⋯Terra⋯⋯1KM⋯⋯20080305171535⋯⋯10-5⋯⋯P-Modis-Terra-1KM-20080305171535-⋯⋯10-5P-Modis-Terra-P-Modis-Terra-1KM-P-Modis-Terra-1KM-P-Modis-Terra-1KM-1KM-20080305171535-10-20080305171535-10-20080305171535-10-5.HDF20080305171535-10-5.AUX5.JPG5.XML图3-9标准块数据存储示例表3-1中进行分块处理出来的其他标准块的数据除了区域信息,其他主要属性完全一致,所以其存储路径在区域这一级别之前都是一致的,而在区域由于数据代表的标准块位置不一样而存放在不同名称的文件夹中。3.3标准数据检索算法原始遥感影像数据在经过标准化处理之后,已经按照各种方法的要求进行分块、命名,并依据规定的存储方法存储在硬盘上了。检索这些遥感影像数据的时候,可以根据用户的检索条件构造出该产品的路径信息。比如,根据3.1.1小节中所描述的遥感影像产品处理流程,在用户创建产品订单的时候,就需要指定生产该产品所需要的遥感影像的传感器类型、卫星类型、分辨率、拍摄时间、拍摄区域等信息。所以从中获得了传感器类型、卫星类型、分辨率、拍摄日期、拍摄区域五个信息。检索经过标准化处理后的遥感影像数据的算法思想是:根据获得的影像的传感器类型、卫星类型、分辨率、拍摄时间、拍摄区域等信息,构造出该影像数据文件的保存路29\n海量遥感影像数据存储组织结构研究径。其中区域可以通过查询数据库中区域表获得该区域的经纬度信息,然后根据标准化命名的规则中的经纬度换算规则将经纬度信息转换成对应的值。由于遥感影像经过标准化处理,根据这些条件,其保存位置是确定的而且是唯一的,然后就可由构造出的路径信息进行数据检索,如果该数据存在,就一定会保存在构造好的路径下,如果不存在该路径,就可以认为检索的数据不存在,返回检索失败的信息。标准数据检索算法流程图如图3-10所示。开始分析检索条件获取数据信息由数据信息构造存储路径查询数据不存在反馈失败信息是否存在存在返回检索成功信息结束图3-10标准数据检索算法流程图该检索算法也支持模糊查询。比如、用户检索条件只指定检索Modis的影像数据,那么就可以检索路径为\P\Modis下所有的数据作为结果并返回。还有一种情况是用户给出的检索时间条件只精确到了月。当创建订单时选择的是精确的时间,则就检索该时间下的数据;当创建订单时选择的是模糊时间,则就依次检索时间级别的目录,将所有包含该检索条件中的时间的目录下的数据作为检索结果返回,就能满足检索的需求。比如,用户给出的检索条件是“2008年6月份Terra卫星的Modis传感器拍摄的1KM分辨率影像数据”,而在路径“P\Modis\Terra\1KM”下包含的时间目录有“200806051717;200806101010;200807121020”,那么根据检索条件,“200806051717;200806101010”目录下存放的数据满足检索条件。30\n遥感影像标准化处理下面用一个示例来说明检索经过标准化处理后的影像数据的过程。用户需要生产一个产品,需要用到的遥感影像的要求是传感器类型为“Modis”、卫星类型为“Terra”、分辨率“1KM”、时间为“2011.04.12”、需要生产的区域范围为“左下角坐标[维度-75.15,经度-143.28],右上角坐标[维度-25.25,经度-112.68]”的矩形区域。对于传感器类型、卫星类型、分辨率、影像拍摄时间等检索条件构造的路径信息是“P\Modis\Terra\1KM\20110412****”,其中“****”代表检索的时间为任意,即需要对2011年4月12日拍摄的影像都进行检索。对于区域信息,根据前边所讲的裁切过程可知,区域信息是根据影像分辨率大小计算出来的标准块,由行列号来标识不同区域的标准块。由于影像分辨率为1KM,根据公式(3-1)计算可得,进行分块处理的标准块大小为10度×10度。目标影像的在全球经纬网格中的区域如图3-11所示。图3-11区域在分辨率为1KM下的全球坐标图下面需要计算方法包含目标区域的标准块,根据目标区域坐标,按照公式(3-2)和(3-3)进行计算。包含其左下角的标准块行列号为:行号=(-75.15+90)/10=1.485列号=(-143.28+180)/10=3.672可得包含该行列号的标准块的标号为1-3。包含其右上角的标准块行列号为:行号=(-25.25+90)/10=6.47531\n海量遥感影像数据存储组织结构研究列号=(-112.68+180)/10=6.732可得包含该行列号的标准块的标号为6-6。所以生产该产品需要区域为行号1-6,列号3-6的所有标准块影像数据共计24块。生成的检索路径包括:“P\Modis\Terra\1KM\20110412****\1-3”;“P\Modis\Terra\1KM\20110412****\1-4”;“P\Modis\Terra\1KM\20110412****\1-5”;“P\Modis\Terra\1KM\20110412****\1-6”;“......”“P\Modis\Terra\1KM\20110412****\6-6”;根据路径信息,就可以检索该路径下的标准块数据文件是否存在,如果存在,表示目标影像存在,返回检索成功信息,否则反馈不存在信息,检索算法结束。基于标准化数据的检索算法,其特点是根据检索条件构造出这个影像的存放路径,然后根据这个路径直接去查找。如果存在该路径表明查找成功,否则表示查找失败。3.4标准化检索算法分析与系统实现基于处理遥感影像数据的数据标准化处理方法,以及针对该方法而设计的标准数据检索算法,开发了数据标准化处理系统。3.4.1标准化检索算法分析在海量遥感影像数据存储系统的设计中,其核心是对海量影像数据的快速检索。目前,存储海量空间数据比较常用的方法是将数据存放在数据库中,并采用建立空间索引的方式来管理这些空间数据,常见的空间索引包括R-Tree系列索引、四叉树索引等,这些索引在一些性能上取得了不错的效果,但是对于遥感影像数据,采用这种方法存储并没有优势,主要体现在以下几个方面:1、关系数据库本身并不适合存储类似这些遥感影像的自然结构数据;2、关系数据库本身的容量有限,对于海量数据遥感影像数据本身能力有限;3、存储系统的能力受制于与数据库的DBMS;所以,在存储海量遥感影像数据的时候,使用适合存储自然数据的文件系统更为合适。目前美国的NASA,以及Google在存储海量影像数据的时候都采用了文件系统而非数据库系统。32\n遥感影像标准化处理本章设计的标准数据检索算法的思想是充分考虑遥感影像数据的特点及其应用方式,设计了一种数据标准化处理方法,在查询时根据用户的检索条件构造出检测目标的存储路径,然后查询该路径是否存在,如果存在,则代表检索成功,如果不存在,说明检索失败。该算法的思想简单,实现方便。分析该算法可知,整个系统的性能是建立在使用的文件系统之上的,采用的文件系统的存储、插入以及检索的性能直接影响着该影像检索的性能。存储系统采用的文件系统是NTFS。NTFS是WindowsNT以及之后的Windows2000、WindowsXP、WindowsServer2003、WindowsServer2008、WindowsVista和Windows7的标准文件系统。采用该文件系统综合考虑以下两点原因:1、NTFS文件系统成熟,检索、查询、删除的性能稳定;2、NTFS是Windows系列操作系统的标准文件系统,便于用户使用。在NTFS文件系统中对文件的索引使用的是B+树。B+树的特点是能够保持数据稳定有序,其查找、插入与修改拥有较稳定的对数时间复杂度。在B+树中的节点通常被表示为一组有序的元素和子指针。除了根之外的每个节点都包含最少L个元素最多U个元素,对于任意的L和U有最多U+1个子指针。对于所有内部节点,子指针的数目总是比元素的数目多一个。因为所有叶子都在相同的高度上,节点通常不包含确定它们是叶子还是内部节点的方式。每个内部节点的元素充当分开它的子树的分离值。例如,如果内部节点有三个子节点(或子树)则它必须有两个分离值或元素a1和a2。在最左子树中所有的值都小于a1,在中间子树中所有的值都在a1和a2之间,而在最右子树中所有的值都大于a2。B+树的查找、插入以及删除的步骤如下:1、查找操作:(1)起始于根节点,自顶向下遍历树,(2)选择其分离值在要查找值的任意一边的子指针。在节点内部使用的是二分查找来确定这个位置。2、插入操作:(1)首先,查找要插入其中的节点的位置。(2)接着把值插入这个节点中。如果没有节点处于违规状态则处理结束。违规状态是指该节点包含了可接受范围之外数目的元素。33\n海量遥感影像数据存储组织结构研究(3)如果某个节点有过多元素,则把它分裂为两个节点,每个都有最小数目的元素。在树上递归向上继续这个处理直到到达根节点,如果根节点被分裂,则创建一个新根节点。为了使它工作,元素的最小和最大数目典型的必须选择为使最小数不小于最大数的一半。3、删除操作:(1)首先,查找要删除的值。接着从包含它的节点中删除这个值。(2)如果没有节点处于违规状态则处理结束。(3)如果节点处于违规状态则有两种可能情况:a.它的兄弟节点,就是同一个父节点的子节点,可以把一个或多个它的子节点转移到当前节点,而把它返回为合法状态。如果是这样,在更改父节点和两个兄弟节点的分离值之后处理结束。b.它的兄弟节点由于处在低边界上而没有额外的子节点。在这种情况下把两个兄弟节点合并到一个单一的节点中,而且递归到父节点上,因为它被删除了一个子节点。持续这个处理直到当前节点是合法状态或者到达根节点,在其上根节点的子节点被合并而且合并后的节点成为新的根节点。通过对B+树的算法流程分析可以得出,其查找、插入、删除的过程的算法其实都是建立在对一个有序表的查找上边,使用的算法是折半查找。所以,B+树的查找、插入、N删除操作的时间复杂度都为O(log[m/2]),其中m为B+树的阶数,N为记录数。其算法的查找、插入、删除性能稳定,并且B+树支持对key顺序的连续访问,这可以实现对字符串的前向匹配查找和整数的范围查找,连续访问的性能远快于随机访问。非常适合于存储遥感影像这种大量的、连续的数据。3.4.2遥感影像数据标准化处理系统实现根据设计的遥感影像数据标准化处理方法,开发了一套系统进行影像的标准化处理工作。影像分块处理使用GDAL库。一幅大小为236MB,分辨率为25M的原始影像经过分块处理后的数据量达到403MB,用时88秒,覆盖了了400个标准块范围的区域,生成了1600个标准块数据文件。经过分块处理和标准化命名的文件如图3-12所示。34\n遥感影像标准化处理图3-12经过分块处理和标准化命名的文件将标准化数据进行存储。存储后的影像文件结构如图3-13所示。图3-13经过存储的文件对影像文件的检索界面如图3-14所示,用户从该界面中设定检索条件进行检索,检索成功则在下方返回影像的检索结果,检索成功则下载XML文件,供用户查看影像N的基本信息。由于采用的是NTFS文件系统,其查询的时间复杂度为O(log[m/2]),这个时间复杂度能够满足遥感应用的需求,并且NTFS文件系统支持对文件的连续访问,也很适合存储遥感影像这种连续的数据。35\n海量遥感影像数据存储组织结构研究图3-14影像检索界面由于影像在分块处理的时候生成了金字塔影像,可以直接将金字塔影像放到3D地球上进行展示。如图3-15所示。图3-153D界面展示3.5本章小结本章首先介绍了针对遥感影像特点以及遥感产品生产特点而设计的一种遥感数据36\n遥感影像标准化处理标准化处理方法,根据该方法,对遥感影像数据进行了分块处理,生成了标准块影像文件、标准块属性文件、标准块金字塔影像文件、标准块快视图文件;再经过标准化命名及存储等工作将这些数据有规律的存储起来。标准化处理有利于生产服务器进行并行计算、提高生产效率、便于影像的快速浏览与进行3D展示。然后又根据其存储特点制定了标准数据检索算法,其特点是检索速度快、而且随着数据量的增加其性能也会十分的稳定。最后对标准数据检索算法的性能做了分析,并实现了遥感影像数据标准化处理系统。37\nSD-DRSDSS分布式遥感影像存储系统4SD-DRSDSS分布式遥感影像存储系统在解决了遥感影像数据存储组织结构以及快速检索算法的问题之后,下一步的工作就是如何建立海量遥感数据存储系统的问题。由于遥感影像不断增加,仅仅依靠单一存储节点来存储海量的遥感影像数据是不现实的。为此,结合遥感影像标准化处理以及2.3节中对现有海量遥感数据存储技术分析。决定采用分布式文件系统的结构,利用一个集群系统来存储海量遥感影像数据。为此,设计了专门用于存储标准数据的分布式海量遥感影像数据存储系统SD-DRSDSS(StandardData-DistributedRemoteSensingDataStorageSystem)。4.1分布式存储技术SD-DRSDSS系统架构采用的是分布式存储技术,所谓分布式存储技术,指的是将原来集中存放在一台主机或者服务器上的数据根据一定的规则或者策略存储在多台主机上,然后将这些机器用网络连接起来,统一对外提供数据服务,用户使用起来还像是在一台机器上进行存储的。使用分布式存储技术突破了单个存储节点对于存储容量的限制,非常适于存储海量遥感影像数据。在分布式存储技术出现之前,很多公司都是由大型机来存储数据的,成本高,不宜维护,也难于扩充。采用分布式存储,可以降低成本,所需硬件可以使用各种档次的计算机或者服务器,不仅造价低,其维护难度也降低了,而且可以实现很高的运算速度;可扩展性好,可以动态的增加新的节点和删除需要淘汰的节点;由于系统是有很多个独立的节点所构成,所以对并发访问的支持非常好;另外,分布式系统还具有很高的可用[40]性以及可靠性,系统中的一些节点出现故障并不会影像整个系统对外提供服务。总的来说,分布式存储技术的优点主要包括以下几点:1、性价比高;2、维护容易;3、管理方便;4、可扩展性好;5、高可用性;6、并发访问;39\n海量遥感影像数据存储组织结构研究4.2SD-DRSDSS系统分析4.2.1设计目标SD-DRSDSS系统采用分布式存储系统技术、结合数据标准化处理的数据组织结构,[41]在满足大存储容量需求的同时,还需要达到以下几个目标:1、高可用性:系统应具有高可用性;2、高扩展性:系统能够适应需求的不断变化;3、可管理性:随着存储系统规模的不断扩大,系统的管理复杂性应该控制在一定范围内;4、并发访问:支持多用的并发访问。4.2.2体系结构SD-DRSDSS存储系统建立在分布式系统之上,其存储结构如图4-1所示:客户端客户端前端服务器存储节点存储节点存储节点SDDT表SDDT表SDDT表图4-1SD-DRSDSS存储系统体系结构SD-DRSDSS分布式存储系统的各个存储节点既可以是专用的存储服务器,也可以是一般的PC机。系统中各个存储节点之间通过高速交换机进行连接。整个系统通过前端服务器对各个节点进行负载均衡、节点监控等工作。针对SD-DRSDSS的硬件特点以及遥感影像数据标准化的特点,SD-DRSDSS分布式存储系统具有以下特点:1、系统文件的组织结构是建立在遥感影像数据标准化的基础之上,在前边详细的讲述了遥感影像数据的标准化处理方法,根据这个方法,系统可以直接通过用户的检索条件构造出路径信息,然后去该路径下查看文件是否存在,并返回查询结果。所以,在40\nSD-DRSDSS分布式遥感影像存储系统SD-DRSDSS分布式存储系统中,由于每一个节点都是按照数据标准化存储的,所以,在检索的时候只需要知道这个数据存储在哪一个节点就可以了。因此在SD-DRSDSS分布式存储系统中需要有一个表结构来记录每一个存储节点存储的数据范围以及每个节点的运行状态信息。2、在检索的时候都需要通过表结构来获取存储数据的节点信息,如果采用集中式的架构、即该表只存储在一个节点上,这样做的好处是便于对该表进行管理维护,缺点是该节点有可能成为访问瓶颈,另外,如该节点出现故障,则整个系统都将崩溃,无法对外提供服务。所以,在SD-DRSDSS分布式存储系统中,每个节点都维护一个表,这样,如果某一节点出现故障不会引起整个系统的崩溃。但需要一定策略来维护各个存储节点上表信息的一致性。3、由于每一个节点都有记录数据信息的表,需要有一个专门的服务器将数据检索的任务平均分配到各个节点上。综合以上几点情况,SD-DRSDSS分布式存储系统应该由一个前端服务器和若干存储节点组成。1、前端服务器:提供SD-DRSDSS分布式存储系统外部访问的接口。负责接收客户端下达的检索任务,并按照任务分发策略将这任务平均分发给各个节点进行检索,以提高检索速度。前端服务器还需要监控系统中节点的工作状态。2、存储节点:提供SD-DRSDSS分布式存储系统的存储服务,响应客户端的读写请求,根据节点中的SDDT表中的信息执行前端服务器下达的检索任务并向客户端返回检索结果。4.2.3SDDT表一、SDDT表结构SDDT(StandardDataDistributionTable)表中存储了各个节点存储的数据信息与节点状态信息。允许一个节点有多条记录,SDDT表的结构如表4-1所示。表4-1SDDT表结构IP地址传感器卫星名分辨率时间节点存储状态其中各字段代表含义为:IP地址:SD-DRSDSS系统中存储节点的IP地址。比如,节点IP地址为192.168.0.1。41\n海量遥感影像数据存储组织结构研究传感器:表示存储节点存储的影像数据的传感器类型名。比如,Modis传感器。卫星名:表示存储节点存储的影像数据的拍摄平台。比如,Terra。分辨率:表示存储节点存储的影像数据的分辨率。比如,1KM。时间:影像数据的拍摄时间。由于遥感影像的拍摄时间是连续的,在这里保存2个时间,一个为开始时间,一个为结束时间,中间用逗号隔开。比如,200801011230,200812120630。节点存储状态:地址为该IP地址的节点已用存储容量与可用存储容量,可以计算出计算机上存储容量使用率。比如,200,500,表示使用的容量为200GB,总容量为500GB,计算得出使用率为40%。SDDT表内容示例如表4-2所示,表4-2SDDT表示例IP地址传感卫星分辨时间容量器名率192.168.0.1CCDTerra1KM200801011230,100,120200812120630192.168.0.1IRSTerra1KM200801011230,100,120200812120630192.168.0.1ModisTerra500M200801011230,100,120200812120630192.168.0.1ModisSRTM1KM200801011230,100,120200812120630192.168.0.20,500从表4-2中可以看出,系统中有两个存储节点,一个IP为192.168.0.1,另外一个的IP地址为192.168.0.2。其中IP地址为192.168.0.2的记录为空,表明其节点没有数据;IP地址为192.168.0.1中有4条记录,表明在该存储节点下有4种不同属性的遥感影像数据。二、SDDT表更新策略由于每个存储节点上都有一张SDDT表。为了保证系统的正常运行,各个必须考虑表内容的一致性。为了避免不一致性的产生,每个节点只维护本节点的数据,如果自己节点的记录被更改,则向其他SDDT中其他节点广播发送自己节点的记录,通知别的节点进行修改相42\nSD-DRSDSS分布式遥感影像存储系统应的记录。引起表内容改变的有以下两种情况:一是节点存入了新的数据,引起记录条数的增加,或者原有某一条记录被修改。这种情况下的策略是:(1)新增加的数据引起该节点记录信息的改变以及存储容量信息的改变;(2)当本节点记录被更改后,该节点向SDDT表中其他节点广播发送自己节点的记录信息;(3)其他节点收到后,仅修改与发送广播节点对应的记录信息;(4)更新完成。二是有一个新的存储节点或者刚上线的机器加入到系统中,则新加入的节点向其他节点广播发送SDDT表中关于自身节点的记录信息,并获取其他节点的记录信息。其策略是:(1)新上线了一个存储节点;(2)从前端服务器获取当前在线节点IP向局域网中所有机器广播发送SDDT表中关于自身节点的记录信息;(3)接受到该信息的节点在自己的SDDT表中增加或者更改一条节点记录,并向新上线节点发送自己节点的存储记录信息;(4)新上线节点收到信息,更新自己的SDDT表中的记录;(5)更新完成。其他节点在表中就对应的增加了一条新加入节点IP地址的记录。三、SDDT表的存储选择策略表4-3SDDT表示例192.168.0.1ModisSRTM1KM200801011230,80,100200812120630192.168.0.2ModisSRTM1KM200812120631,100,500201004180630192.168.0.30,500标准化的遥感影像数据在向SD-DRSDSS系统中存储时制定策略应遵循尽量减少SDDT表中的记录数的原则,所以制定以下存储策略:43\n海量遥感影像数据存储组织结构研究(1)相同平台相同传感器相同分辨率的影像数据存放在一个节点中的一个记录内,存储的时候更新该记录的时间信息,不允许在其他节点再建立与这个记录的平台、传感器、分辨率内容相同的新记录,除非该节点存储容量达到临界点时,此时才能在其他节点建立一个新记录。这样能够保证SDDT表中记录的连续性,避免表中记录数过多影像查询效率。比如表4-3所举示例,现在有一个属性为“Modis,SRTM,1KM,2008070707”的标准化数据需要存储,根据上述策略,由于节点192.168.0.2的存储容量使用率没有达到临界点,所以不能在其他节点存储,只能存到节点192.168.0.2中,并更新时间记录为“200812120631,2010070707”。如果节点192.168.0.2的存储使用率达到临界点,可以在节点192.168.0.3上建立属性为“Modis,SRTM,1KM”数据的新记录。(2)存储容量使用率达到80%或者剩下的存储容量不足20GB将不允许这个节点更新记录,但可以增加属于该节点记录中时间范围的数据。如果继续添加的数据是存储容量使用率到达95%或者剩下的存储容量不足5GB,将该节点的数据量最大的记录下的数据按照连续的时间划分,将数据迁移到其他节点上与该数据相同的记录上去。比如表4-3所举示例,现在有一个属性为“Modis,SRTM,1KM,2010070707”的标准化数据需要存储,根据上述策略,需要存储在节点192.168.0.1上;如果节点192.168.0.1的存储容量使用率到达95%或者剩下的存储容量不足5GB,则把节点192.168.0.1的一条记录按时间划分成“[200801011230,2010070707];[2010070708,200812120630]”两个部分,原则是迁移后半部分时间包含的数据后是节点192.168.0.1的存储容量使用率回复到80%;根据策略,需要将后半部分的时间包含的数据迁移到节点192.168.0.2上去,并修改其记录中时间范围的内容为“2010070708,201004180630”(3)在节点添加新记录时需要优先使用存储容量最低的节点。比如表4-3所举示例,现在有一个属性为“Modis,Terra,1KM,2008070707”的标准化数据需要存储,根据上述策略,需要在节点192.168.0.3上添加新记录,而不能在节点192.168.0.2中添加新记录。4.2.4管理系统SD-DRSDSS管理系统部署在前端服务器,负责接收客户端下达的检索任务,并按照任务分发策略将这任务平均分发给各个节点进行检索,以提高检索速度。管理系统还需要监控系统中存储节点的工作状态。44\nSD-DRSDSS分布式遥感影像存储系统SD-DRSDSS管理系统主要负责两个事情,检索任务的下发及存储节点的监控:1、存储节点的监控。存储节点的监控是一项重要的内容,其管理效率直接影响整个系统的性能。监控信息由存储节点上的驻留程序定时获得并发送到SD-DRSDSS管理系统。监控的信息包括存储节点的状态、CPU利用率、内存使用情况、进程数、网络使用情况等信息。2、检索任务的分发策略。SD-DRSDSS管理系统接收客户端发送的数据检索请求后,为了避免所有的检索服务都集中在某台节点上而造成性能瓶颈,所以将检索任务均匀的分布到每个存储节点去执行。分发采取的策略是考虑节点的工作状态进行分发,包括忙碌以及不忙碌两种状态。比如某个节点的CPU使用率超过50%,那么管理系统将其标记为忙碌,管理系统在接收到新的检索请求的时候将将检索任务平均分发到所有在线的标记为不忙碌的存储节点上去执行检索任务。4.2.5数据流程SD-DRSDSS系统主要提供的是标准化数据存储以及数据检索下载这两种服务。下边分别介绍这两个服务的主要流程。一、数据存储流程数据存储的主要流程如图4-2所示。(1)SD-DRSDSS系统的前端服务器收到向系统中存储一批标准化数据的信息,该信息中包括待存储数据的主要属性信息以及数据存放的路径;(2)管理系统根据任务分发策略将检索的主要信息发给某一台存储节点进行检索;(3)收到任务的存储节点检索自己SDDT表并根据SDDT表的数据存储策略获取待存储数据应该保存的节点IP地址信息;(4)根据IP通知该节点去标准化数据存放地址下载待存储数据;(5)下载并按存储方法存储数据;(6)更新存储数据节点SDDT表中的记录(如果待存储的数据的拍摄时间在记录的时间范围之内,则仅仅增加数据,不更新记录内容);(7)广播发送记录修改的信息;(8)结束。45\n海量遥感影像数据存储组织结构研究存储节点收到标准化数据属性信息及存放路径任务分发策略节点从标准块文件名获取数据信息SDDT表存储选择策略查询SDDT表获取存储节点IP成功失败通知存储节点下载数据并按存储规范存储数据反馈失败进行存储失败信息成功更新SDDT表并广播发送结束图4-2SD-DRSDSS系统数据存储流程图二、数据检索下载流程数据检索下载的主要流程如图4-3所示。(1)SD-DRSDSS系统的前端服务器收到数据检索请求;(2)管理系统根据任务分发策略将检索的关键信息发给某一台存储节点进行检索;(3)接收到任务的存储节点检索自己的SDDT表获取存储待检索数据的节点IP地址信息;(4)查询该IP地址下是否有该数据;(5)如果有,则将路径信息返回到请求对象供其下载,否则返回查询失败信息。46\nSD-DRSDSS分布式遥感影像存储系统检索条件任务分发策略存储节点从检索条件获取数据信息检索策略查询SDDT表获取存失败储节点IP成功查询存储节点IP是反馈失败否存在目标文件失败信息成功向检索请求对象反馈目标数据的路径信息结束图4-3SD-DRSDSS系统数据检索下载流程图4.2.6故障检测恢复SD-DRSDSS系统的目标是在存在故障的情况下可靠的工作。在SD-DRSDSS系统中常见的故障有前端服务器故障、存储节点故障以及其他一些错误。1、前端服务器故障前端服务器是整个SD-DRSDSS系统对外服务的平台,负责接收检索任务并将检索任务分发到各个节点。若其发生故障会导致整个SD-DRSDSS系统不工作。所以,对前端服务器的手工干涉是必要的。为了提高其可用性还能够实现前端服务器自动重启并且切换到备用中心节点。2、存储节点故障存储节点会周期性的发送一个信号到前端服务器,如果因为网络或者存储节点本身导致的故障,前端服务器发现在一定时间内没有收到节点的信号就会将该节点标记为停止服务,并且不再将新的检索任务发送到该节点上。4.3SD-DRSDSS系统特点SD-DRSDSS分布式存储系统具有以下特点:47\n海量遥感影像数据存储组织结构研究1、针对性强:SD-DRSDSS分布式存储系统最大特点是根据遥感影像特点所设计的系统,专门用于存储经过标准化处理的遥感影像产品,继承了数据标准化的优点。2、检索速度快:由于数据经过标准化处理,SD-DRSDSS系统在检索的时候只需根据检索条件获取存储节点IP地址,并构造出所需影像路径并进行查询,就能得知所需的影像是否存在,并且把检索任务均匀的分布到各个节点之上,所以检索的速度非常快,而且其检索性能随着数据量的不断增长不会带来太大的影响。3、有利于遥感产品的生产和影像发布:由于标准化处理过程中已经对原始影像进行了标准分块处理以及生成金字塔影像以及快视图文件,既能够很好的支持产品的并行计算,又能很方便的在各种2D、3D的平台上进行影像的展示。4、易于扩展:SD-DRSDSS分布式存储系统很容易就实现存储节点的增加。只需要把新加入的设备联网,就能在SDDT表中增加一条IP地址记录。5、高可用性:SD-DRSDSS系统是基于分布式系统的,某一个存储节点的故障并不会导致整系统服务崩溃。4.4系统实现基于本文所提出的分布式存储系统框架,实现了一套SD-DRSDSS系统。系统由1台前端服务器,2台存储节点、4个客户端组成以及一台千兆交换机。所有计算机的软硬件配置环境如下所示:CPU:Intelcore2双核E7500,主频2.93GHz;硬盘:500GBSATA7200RPM;内存:3GB;网卡:100Mbps;操作系统:Windows7旗舰版;文件系统:NTFS文件系统;48\nSD-DRSDSS分布式遥感影像存储系统系统开发语言:C#;开发环境:MicrosoftVisualStudio2010;由于SD-DRSDSS系统是基于数据标准化处理而构建的,每一个存储节点的性能是是固定的,仅仅是在检索前通过查询SDDT表得到待检索数据存储的IP地址。然后在存储待检索数据的IP节点上进行检索并返回结果。SDDT表使用XML文件进行存储,其中的内容如下:192.168.0.280GB;160GBModisTerra500M201001051634201008130522192.168.0.365GB;250GBCCD1HJ1B25M201009081251201012131422针对该系统主要测试了其在多用户访问下的检索性能,用4个客户端分别模拟20、49\n海量遥感影像数据存储组织结构研究60、100、140、180、220个用户并发访问的能力。其结果如图4-4所示。图4-4平均响应时间系统测试结果表明,随着并发访问用户的不断增多,SD-DRSDSS系统也能保持很好的性能,对用户检索的平均访问时间也没有产生大的影响,这说明SD-DRSDSS系统是稳定的。4.5本章小结本章提出了SD-DRSDSS分布式存储系统,该系统是建立在第三章讲述的遥感影像数据标准化的基础之上,专门用于存储经过标准化处理的遥感影像数据。SD-DRSDSS分布式存储系统具有检索速度快、结构简单、支持高并发访问、有利于遥感产品的生产和影像的发布浏览、易于扩展、可用性高等特点。50\n结论及展望5结论及展望遥感影像的数据量非常大。每天都有通过不同途径获取的大量遥感影像,并且随着影像分辨率的提高,遥感影像应用的范围逐渐扩大,产生的遥感影像数据量也呈几何级递增,而且这个数字随着时间的推移和卫星技术、传感器技术的不断发展还将持续快速增加下去。如何去存储、组织、管理和发布这些海量的遥感影像数据,使遥感影像数据能够更好地为实际应用服务,成为一个热点问题。本文的主要工作是:1、一种遥感影像数据的标准化处理方法及其系统实现。根据遥感影像数据自身的特点以及对遥感影像数据发布浏览的应用需求,提出了一种遥感影像数据的标准化处理方法,根据该方法对原始遥感影像数据进行各种处理。该过程包括:(1)数据分块处理;(2)标准化命名;(3)标准化命名后数据的存储方法。遥感影像数据经过标准化处理后有利于提高检索速度以及传输速度、便于进行并行计算,提高生产效率、能够进行影像的快速浏览与3D展示。2、标准化数据的检索算法及其实现。该算法的特点是可以根据用户的检索条件构造出目标影像的存储路径,再根据存储路径进行查询,得到检索结果并返回。该算法的优点是检索速度快,而且其检索性能不会随着数据量的增加而出现大的波动。3、SD-DRSDSS分布式存储系统及其实现。针对遥感影像的数据的标准化处理方法,提出了一种专门存储海量遥感影像数据的分布式系统,主要用于存储管理经过标准化处理后的海量遥感影像数据,具有结构简单、易于扩展,可靠性高等特点。4、SD-DRSDSS分布式存储系统的检索算法及其实现。在SD-DRSDSS系统中进行快速检索。虽然本文在海量遥感数据存储方面取得了一定的成果,但还有以下工作需要进一步研究和实践。1、数据标准化处理制定的各项方法的优化。比如制定的标准块大小是否合适、存储路径的目录深度、宽度对检索性能的影响还有待进一步的研究深入,制定更优化的方法。2、影像的裁切算法的优化,能够更快速的进行裁切。3、SD-DRSDSS分布式存储系统虽然实现了分布式存储的功能,但还有很多细节需51\n海量遥感影像数据存储组织结构研究要去深入的了解和研究,例如,数据读写性能的优化、数据的镜像方式。4、无损影像压缩技术。能够提高存储、传输效率。52\n致谢致谢在本论文即将完成之际,谨此向我的导师乔保军副教授致以衷心的感谢和崇高的敬意!本论文的工作是在乔老师的悉心指导下完成的。乔老师以他敏锐的洞察力、渊博的知识、严谨的治学态度、精益求精的工作作风和对科学的献身精神给我留下了刻骨铭心的印象,这些使我受益匪浅,并将成为我终身从事科学研究与学习的动力。攻读硕士的这三年里,乔老师不仅为我创造了优越的科研和学习环境,使我得以在计算机科学领域中自由翱翔,同时在思想上、人生态度和意志品质方面给予了谆谆教诲,这些教益必将激励着我在今后的人生道路上奋勇向前。真诚感谢智能实验室的郑逢斌老师、沈夏炯老师、马骏老师、张连堂老师,他们不仅在学术上给我指引,而且在生活上予以帮助,从他们身上我学到很多知识。感谢项目组成员在项目开发中的互助合作,正是集体的努力才使得项目进展顺利。由衷感谢即将和我一起毕业的同学们,他们开创性的研究拓展了我的学术视野,无数次的争论和探讨使我的研究工作有了长足的进展。三年的学习生活历历在目,他们是我学习生活上的伙伴,也是我面对困难和挑战时的战友。在研究生期间,他们给了我很多真挚的帮助。感谢我的家人,无论什么时候,他们一直给我精神上的鼓励和生活上的关怀,给了我克服困难的信心和不断进取的动力。本文的研究工作成果,和他们的支持是分不开的。感谢本论文所参考的文献中所有作者的工作,没有他们的工作做铺垫,我将无法正常进入该领域,本文的工作也是无法开展的!最后,衷心地感谢为评阅本论文而付出宝贵时间和辛勤劳动的专家和教授们!谢毅2011-4-2253\n参考文献参考文献[1]李小文.地球表面时空多变要素的定量遥感项目综述[J].地球科学进展,2006,21(8):771-180.[2]陈述彭,鲁学军,周成虎.地理信息系统导论[M].北京:科学出版社,1999:22-23.[3]廖顺宝,孙九林,李泽辉等.地学数据产品的开发、发布与共享[J].地球科学进展,2005(2):166-172.[4]刘伟,刘露,陈荦等.海量遥感影像数据存储技术研究[J].计算机工程,2009,35(5):236-239.[5]马智民,杨东来,李景朝,等.主要发达国家地学信息服务的现状与特点[J].地质通报,2007,26(3):355-360.[6]百度.百度百科.http://baike.baidu.com/view/720460.htm#sub720460.[7]熊丽华,杨峰.基于ArcSDE的空间数据库技术的应用研究[J].计算机应用,2004(3):90-91.[8]RaviKothuri著,管会生等译.oracleSpatial空间信息管理[M].清华大学出版社.2009:18-19.[9]张超.地理信息系统[M].2009.科学出版社.[10]潘晓绒.遥感技术研究[J].总裁.2009(5):125-129.[11]余明.地理信息系统导论[M].2009.清华大学出版社.[12]张超.基于空间数据库的栅格数据存储管理关键技术研究[D].合肥:国防科技大学.2009.[13]季惠颖,赵碧云.环境科学导刊[J].2008,27(2):21-24.[14]袁建平,龙净林.3S技术在海南热带高效农业中的应用[J].海南师范学院学报(自然科学版),2003,16(1):95-99.[15]GuttmanA,R-trees:ADynamicIndexStructureforSpatialSearching[R].InProceedingsofACMSIGMOD,Boston,MA,1984:47-57.[16]HuertaJ,ChoverM,QuirosR.BinarySpacePartitioningTrees:AmultiresolutionApproach[R].ProceedingsoftheInformationVisualization,1997:148-154.55\n海量遥感影像数据存储组织结构研究[17]BentleyJL.K-DTreesforSemidynamicPointSets[R].InProc6thACMSymposiumComputer,1990:187-197.[18]T.K.SeLlis,N.Roussopoulos,andC.Faloutsos.TheR+-tree:ADynamicIndexforMultidimensionalObjects[R].Proc.1nd.Conf.OnVeryLargeDatabases,1987:507-518.[19]BeckmannN,KriegelH.P,SchneiderR.TheR*-tree:AnEfficientandRobustAccessMethodforPointsandRectangles[C].InProceedingsofSIGMOD,AtlanticCity,NewJersey,1990:322-331.[20]KamelI,FaloutsosC.HilbertR-Tree:AnImprovedR-treeUsingFractals[R].InProc20thIntemationalConferenceonVeryLargeDataPmses,Santiago,Chile,1994,500-509.[21]赵军,王晓.SQLServer2008:使用空间数据实现位置智能[J].张家口职业技术学院学报,2008,21(4):53-54,63.[22]刘伟,海量遥感影像数据存储技术研究[D].合肥:国防科技大学.2007.[23]马荣华,黄杏园.大型GIS海量数据分布试组织与管理[J].南京大学学报,2003,39(6):836-843.[24]杨忠德,李明禄,李鲁群.海量影像无缝数据库管理系统设计及实现[J].计算机工程与应用,2004,30:168-171.[25]GarthA.Gibson,DavidF,Naglet,KhalilAmirit.ACost-Effective,High-BandwidthStorageArchitecture[C].InProc.Ofthe8thInternationalConferenceonArchitecturalsupportforProgrammingLanguagesandOperatingSystem,1998:92-103.[26]D.J.Dewitt,J.Gray.ParallelDatabaseSystems:Thefutureofhighperformancedatabasesystem[R].CommunACM,1992,35(6):85-98.[27]樊小泊,陈红.海量影像数据库管理系统关键技术研究[J].计算机工程与应用,2006,30:10-13,37.[28]刘荣高,庄大方,刘纪远.分布式海量矢量地理数据共享研究[J].中国图像图形学报,2001,6A(9):865-872.[29]RSandberg.TheSunNetworkFilesystem:Design,ImplementationandExperience[C].inProceedingsofthe1987SummerUsenixConference.1987,UniversityofCaliforniaPress:300-314.[30]J.H.Morrig,M.Satyanarayanan,M.H.Conner,etal.Adistributedpersonalcomputing56\n参考文献environment[J].CommunicationsoftheACM,1986,29(3):184-201.[31]M.Satyaaarayanan,JJ.KisIler,EKumar.Ahighlyavailablefilesysteminadistributedworkstationenvironment[J].1EEETransactionsonComputers,1990,3:447-459.[32]T.E.Anderson,M.Dahlin,J.M.Neefe,eta1.ServerlessNetworkFileACMTransactionComputersystem[R].1996,14(1):41—79.[33]R.Latham,N.Miller,R.Ross,eta1.AnextgenerationparallelsystemforLinuxclusters[J].Linux-World,2004:56-59.[34]Redhat.GFSProjectPage.http://sources.redhat.com/cluster/GFS/.[35]朱铁稳,常磊,李琦等.基于数据库的影像数据管理技术研究[J].计算机科学,2005,32(1):95-97,115.[36]程承旗,张恩东,万元嵬等.遥感影像剖分金字塔研究[J].地理与地理信息科学,2010,26(1):19-23.[37]倪建华,秦佐.矢量图形与影像图像一体化实现[J].测绘,2009,32(3):103-105.[38]宋关福,钟耳顺,王尔琪.WebGIS—基于Internet的地理信息系统[J].中国图像图形学报,1998(3):251-254.[39]于洪芬.小规模集群文件系统的元数据管理策略研究[D].保定:河北大学.2007.[40]RichardW.Watson.HighPerformanceStorageSystemScalability:Architecture,ndImplementationandExperience[R].InProceedingsofthe22IEEE/13thNASAGoddardConferenceonMassStorageSystemsandTechnologies,MSST2005.[41]EliezerLevy,AbrahamSilberschatz.DistributedFileSystems:ConceptsandExamples.ACMComputingSurveys(CSUR),1990,22(4):321-374.57\n攻读硕士学位期间发表的论文及科研成果攻读硕士学位期间发表的论文及科研成果一、发表的论文1、谢毅,陈丹捷.一种基于文件系统的海量遥感影像存储组织结构.福建电脑,2011.1。2、谢毅,李旻.计算机导论教学改革研究.中国教育技术装备,2010.33。3、李旻,谢毅.基于PacketTracer的计算机网络课程实践能力考核方法研究.中国教育技术装备,2010.24。二、参加的科研项目1、科工技2010A03A10《红外遥感图像预处理系统》.2010.06至今.参与。2、环境保护部卫星环境应用中心.《生态环境遥感产品生产分系统》.2010.11至今,参与。3、科技部重大专项《高分应用系统总体设计方案设计/子课题名称:高分原型系统设计与系统集成》.2010.11至今.参与。59