高精度地表覆盖数据优化分割的土地利用分类
朱晓霞1,2,3,宁晓刚1,王 浩1,张翰超1
(1.中国测绘科学研究院,北京100036;
2. 兰州交通大学测绘与地理信息学院,兰州730070;
3.天水三和数码测绘院有限公司,天水 741000)
摘要:针对土地利用类型多样、特征易混淆和高分辨率遥感影像信息海量、人工提取费时费力等问题,以北京二号卫星影像为数据源,采用高精度地表覆盖数据优化分割的面向对象分析方法、无地表覆盖数据辅助分类的面向对象分析方法,运用朴素贝叶斯、CART决策树、随机森林和K最邻近分类器,开展武功县土地利用分类,并对分类结果进行精度评估。结果表明:①与无地表覆盖数据辅助分类方法相比,高精度地表覆盖数据优化分割的面向对象分类方法,在精度方面有较大的提升,其分类总体精度提高18.73%,Kappa系数提高0.21;②随机森林对于土地类型多样的影像对象具有较好的识别能力,获得较高的总体精度(95.3%)和Kappa系数(0.94)。研究表明一种利用高精度地表覆盖数据优化影像分割的土地利用分类方法具有更好的可行性和鲁棒性。
0 引言
土地是人类赖以生存和发展的最基本的自然资源,是人类生存和发展的物质基础[1]。21世纪以来,全球土地利用格局发生巨大变化,土地利用变化已成为国际上全球变化研究的前沿与热点课题[2]。土地资源管理是自然资源管理的基础和关键,土地利用变化是自然资源统一管理的有力支撑,为科学利用和合理保护自然资源,推动实施国家重大战略,促进经济社会全面可持续发展提供至关重要的数据支撑。
基于遥感技术的土地利用分类是遥感信息提取中的重要手段之一,获得学术界广泛的关注,取得了较多研究成果。目前,常用的遥感影像信息提取方法包括基于像元[3-4]的影像分析方法和基于对象影像分析(object-based images analysis,OBIA)方法。随着土地利用类型变化日趋复杂化,基于像元的传统遥感影像分类方法已远不能满足当代社会需求。而日益提高的高分辨率遥感影像性能和更丰富的特征信息为复杂的土地利用分类奠定基础。OBIA方法[5-6]采用单个对象作为最小单元,有效地结合光谱信息和形状纹理等信息,实现更高层次的遥感图像分类和目标地物提取,相比传统方法极大提升精度,且更适用于波段数较少的高分辨率遥感影像,有效避免“椒盐现象”,从而极大地提高信息提取精度。
OBIA技术主要包括两方面的内容:一方面是选择适当的影像分割算法与最佳分割尺度;另一方面是建立分类规则实现目标地物的提取。就影像分类而言,与中低分辨率影像[7]相比,高分辨率影像多适用于中小尺度研究,保证高精度的提取结果,满足更精细化的研究需求。如文献[8]基于北京市的ZY-3影像提取城市内部土地利用信息,总体精度达到87%;文献[9]基于TH-1数据运用面向对象方法研究干旱区土地覆被分类,总体精度比最大似然分类提高近10%。但上述面向对象方法[8-9]仍然存在分割结果不确定性、遥感影像信息冗余及分割参数选择具有主观性等问题。本文将地表覆盖数据和ESP(estimationof scale parameter)尺度评价工具融入多尺度分割方法,运用FSO(feature space optimization)工具优化特征集,解决“对象边界”不确定性和特征冗余等现象,为提高遥感影像分类精度提供依据。
影像分割是OBIA的基础和关键,分形网络演化算法(fractalnet evolution approach,FNEA)[10]、均值漂移算法[11]、基于加权聚合的分割算法[12]、隐马尔科夫树分割算法[13]等多尺度分割算法均源于自底向上的区域合并理论。依据相邻基元的相似性度决定相邻基元是否合并及其合并顺序,不断合并小尺度基元,实现多尺度分割。边界特征表达基元相互分离的程度,是地物空间关系的重要特征[14]。而上述方法[10-14]只考虑基元自身的光谱、形状和纹理等内在的特征,忽略了对基元边界特征的分析和运用,导致分割的边界定位精度较低、分割结果过于细碎及整体性不强[15]等现象。目前,在面向对象的多尺度分割方法中,对边界特征的应用较少,本文将地表覆盖数据先验成果的边界约束融入多尺度分割中,解决分割对象边界精度低等问题,进一步提高遥感影像信息提取精度。
针对高分辨率遥感影像信息海量、人工提取费时费力、分割对象边界精度低等缺点,本文以北京二号遥感影像为数据源,将地表覆盖数据[16]和面向对象的影像分析技术相互结合,运用朴素贝叶斯(naive Bayes,NB)、CART决策树(classification and regression tree, CART)、K最邻近(K-nearest neighbor, KNN)和随机森林(random forest, RF)4种方法提取武功县土地利用信息,探索基于高精度地表覆盖数据的面向对象分析方法对于提升土地利用分类精度方面的可行性、有效性与泛化性。力求探寻更适宜的土地利用分类方法及更完善的分类技术,以期为高效、高精度土地利用信息提取提供技术支撑。
1 研究区概况与数据源
1.1 研究区概况
陕西省咸阳市武功县(34°12′~34°26′N,108°~108°26′E)位于关中平原腹地,东至兴平,西临扶风县和杨凌示范区,南与周至县隔河相望,北与乾县接壤(图1)。属温暖带半湿润性气候区,夏季高温多雨,降水的季节性强,年降水量达到633.7 mm,境内的3条河流均属渭河水系。该县地势相对平坦,交通便利,农业生产条件良好,土地开发潜力巨大。该县下辖8个乡镇,土地面积 397.8 km2,拥有“关中米粮仓”之称,是陕西省重要的粮食生产基地。境内生物种类繁多,自然资源种类丰富。从土地利用结构看,武功县的土地利用率比较高,生产用地以农耕地为主;非生产用地中,大部分以居民点、工矿企业、机关学校、交通设施为主。因此,武功县地表覆盖类型丰富,适宜于土地利用分类方法研究。
1.2 数据源及分类体系
1.2.1 数据源
本文使用的遥感数据为两景北京二号多光谱卫星图像,获取时间为2017年9月7日和2017年9月12日,包含4个空间分辨率为3.2 m的多光谱波段 (蓝:440~510nm,绿:510~590 nm,红:600~670 nm,近红外:760~910 nm)和空间分辨率为0.8 m的全色波段(全色:450~650 nm)。通过辐射校正、正射校正、和影像融合和裁剪等影像预处理阶段,获得研究区域待分类的北京2号遥感影像。
研究中辅助分割的数据是武功县基础性地理国情监测[16]成果的地表覆盖数据(获取日期为2017年5月25日)。该数据由自然资源部组织生产、质检和验收,所用影像分辨率均优于2m,由内业解译和外业核实确保质量,精度要求是影像上分界明显的地表覆盖分类界线边界以及定位点的采集精度应控制在5个像素以内,该数据具有精度高、内容丰富、分类详细、现势性强、无缝覆盖地面等优势。该数据共有8个一级类,52个二级类,104个三级类。一级类包括种植土地、林草覆盖、房屋建筑(区)、铁路与道路、构筑物、人工堆掘地、荒漠与裸露地、水域。由于武功县部分地类数量较多地分布在南部,如水域等要素,为了更清楚地展示地表覆盖分类结果,所以展示其南部结果如图2(a)所示。
通过对研究区北京二号影像的目视解译,并参考Google Earth高分辨率影像,按照分层随机采样的原则选择样本。样本点在顾及每种地物类型的数量前提下尽量在整个图像均匀分布。按照武功县各地类数量的大致比例进行换算,选取耕地、园地、林地、草地、交通运输用地、水域及水利设施用地、城镇村及工矿用地的训练样本数量分别为170、94、78、64、30、36和154,如图2(b)所示。引入武功县第三次全国国土调查内业信息提取成果作为真值,选择489个对象作为测试样本点,用于分类精度的评价分析。
1.2.2 土地利用分类体系
以《第三次全国国土调查土地利用现状分类及工作分类》为基础,结合北京二号高分辨率影像上的丰富地物信息,参考第三次全国国土调查内业信息提取分类的标准[17],确定武功县分类体系为耕地、园地、林地、草地、交通运输用地、水域及水利设施用地、城镇村及工矿用地7大主类,由于其他土地面积约占总面积的0.01%,所以未将此类列入分类体系(表1)。
2 高精度地表覆盖数据优化影像分割的土地利用信息提取方法
2.1 高精度地表覆盖数据优化影像分割的土地利用信息提取技术路线
通过分析研究区内各类用地的显著特征,本文采用基于高精度地表覆盖数据优化影像分割的方法探索土地利用信息提取的可行性。基本过程包括高精度地表覆盖数据优化影像分割、确定分类系统、选择样本、特征选取、面向对象的影像分类、分类后处理及精度评价。技术路线如图3所示。
2.2 高精度地表覆盖数据优化影像分割方法
影像分割是面向对象的影像分析的基础与关键。边界特征是影像分析中除光谱、纹理、几何特征外的重要信息。精确的分割是解决土地利用对象边界准确性的基础。普通影像分割只考虑基元自身的光谱、形状和纹理等内在的特征,忽略了对基元边界特征的分析和运用,导致分割的边界定位精度较低、分割结果过于细碎及整体性不强等现象。而高精度地表覆盖数据优化影像分割方法将高精度地表覆盖数据先验成果的边界约束融入多尺度分割中,解决分割对象边界精度低等问题,得到同质性和异质性较高的影像对象,从而使分割后影像对象与实际地物一致性更高,较好地避免了破碎图斑与偏大图斑的产生,成为面向对象的土地利用分类的基础与关键。
本文利用高精度的地表覆盖数据和分形网络演化算法[10]对遥感影像进行分割,并且借助ESP工具和归一化最大最小面积指数(normalizeddifference max and min area index, NDAI)[15]获取地物的全局最优分割尺度参数。具体方法,首先,将地表覆盖矢量数据和遥感影像配准套合,仅依据地表覆盖数据对遥感影像进行分割,获得基于地表覆盖矢量数据边界信息约束下的影像图斑;然后,基于分形网络演化算法的原理,依据ESP获取的分割参数设置尺度参数进行细分割,生成子像斑;最后,分割结果评价运用NDAI来衡量,选择NDAI最大值所对应的分割尺度作为最优尺度参数),得到同质性和异质性较高的影像对象,从而使分割后影像对象边界精度提高,与实际地物边界吻合程度更高。
多尺度分割的全局最优参数指通过该参数一次性分割能够取得尽可能最佳的效果,多尺度分割后的全局最优必须使得其能较准确分割出最大尺度范围内的地物,因此使得分割后生成的影像对象层中的最大对象面积和最小对象面积的差异最大化。归一化最大最小面积指数是由周勇兵提出,指分割后所有对象的最大面积和最小面积的差值除以分割后所有对象的最大面积和最小面积的总和。影像对象间归一化最大最小面积指数越大,说明对象之间分离性高,计算公式如式(1)所示。
2.3 高精度地表覆盖数据优化影像分割的土地利用信息提取
2.3.1 特征选取方法及依据
采用分离阈值(separability and thresholds, SEaTH)算法[19]对土地利用分类的影像特征进行选择,减少特征冗余。该算法是目前具有代表性的基于对象特征的优化方法,既能获取类别间的最佳分离特征,还可以计算出对象特征的最适宜分类阈值,并且执行效率高。该算法针对高分辨率信息冗余等缺点,遴选出有效识别分类目标的特征集,从而提高分类模型效率和精度。
2.3.2 面向对象的影像分类
本文运用朴素贝叶斯分类、CART决策树分类、随机森林、K最邻近分类4种方法进行高精度地表覆盖数据优化影像分割的分类、无地表覆盖数据辅助的分类方法,自动提取面向对象的土地利用信息,4种分类算法[20]的优点和缺点如表2所示。
2.3.3 分类后处理方法
对于初步提取的土地利用结果存在着细碎图斑、地物轮廓粗糙等缺点,本文采用剔除小图斑、平滑边缘、手动修改进行分类后处理。首先利用阈值条件剔除细碎图斑,然后运用pixel-based object resizing算法中的增长和收缩模式进行平滑构筑物,最后将平滑后的数据导入ArcMap,将由树木和建筑物的遮盖所造成的错误进行手动修改。
2.4 精度评价方法及依据
采用制图精度、用户精度、Kappa系数、总体精度对土地利用分类结果进行评价[21]。制图精度指分类结果满足参考分类的程度;用户精度指像素分类正确的可能性;Kappa系数是用于检验遥感影像分类结果的一致性;总体精度指所有被正确分类的像素所占的比例。精度评价指标如表3所示。
3 实验结果分析
3.1 分割结果分析
3.1.1 高精度地表覆盖数据优化影像分割分析
本文初始分割是基于地表覆盖数据的边界进行分割,获得分割结果如表4所示,同时经过不断试验,确定形状因子为0.5,紧凑度因子为0.5,各波段的权重均为1。细分割的分割尺度参数根据ESP工具得出3个ROC峰值,即最优分割尺度参数,分别为108、142和178(图4)。然后运用归一化最大最小面积指数最大值所对应的分割尺度,得到最佳分割尺度为178,其分割结果如表4细分割结果所示。形状光滑度和形状紧密度与初始分割参数一致,分别为 0.5和0.5,各波段的权重均1。采用优化分割后的对象平均异质性较低,对象内部同质性较高,边界轮廓较为清晰,分割效果较好。
3.1.2两种分割方法
本文采用了高精度地表覆盖数据优化影像分割、无地表覆盖数据辅助分割两种分割方法,运用两种方法分割得到结果如图5所示,基于无地表覆盖数据的分割结果的城镇村及工矿用地出现“过分割”现象而过于破碎,且耕地如图5(b)红圈部分也存在“过分割”状态,分割效果最差。而高精度地表覆盖数据优化影像分割结果如图5(a)(蓝色为初始分割边界,黄色为细分割边界)所示,红圈部分没有出现“过分割”和“欠分割”现象,并且正好城镇村于周围地物区分开,由于高精度的地表覆盖数据优化遥感影像分割,使得影像对象间的边界更加精确。分割实验表明:通过对比结果并与真实地物的边界信息发现,基于地表覆盖数据优化分割的效果最佳,边界轮廓最清晰,适用于土地利用信息提取。
3.2特征选择与计算
利用eCognition软件的特征分析工具,对62个初始对象特征进行筛选,最终筛选出16个优化特征子集如表5所示,该特征集不仅包括原影像每个波段的光谱特征,还包括通过计算形成的波段比率、形状、几何和纹理特征,使得用于分类识别的特征更加丰富,更有效地分离目标地物。
3.3 分类结果精度评价
本文选取表5中特征集,进行面向对象的土地利用信息提取,开展了两组实验:①高精度地表覆盖数据优化影像分割的面向对象分类方法;②无地表覆盖数据辅助分类方法。运用Kappa系数、总体精度、制图精度和生产精度对两组实验结果进行精度评价,得到两组精度评价如表6所示。
3.3.1高精度地表覆盖数据优化影像分割的分类精度比较
高精度地表覆盖数据优化影像分割的分类结果与地面实际吻合程度,较无地表覆盖数据辅助的影像分类高。二者精度评价结果见表6所示,高精度地表覆盖数据优化影像分割的分类和无地表覆盖数据辅助分类(图6)的总体精度均值分别为86.43%和67.7%,Kappa系数均值分别为0.83和0.62。前者比后者的总体精度提高18.73%,Kappa系数提升0.21。其中,高精度地表覆盖数据优化影像分割的随机森林分类效果最好,分类总体精度达到95.3%,Kappa系数为0.94。与无地表覆盖数据辅助分类的结果相比,总体分类精度和Kappa系数分别提高了18%和0.21。其次,高精度地表覆盖数据优化影像分割的CART决策树和朴素贝叶斯的分类结果较好,总体分类精度分别提高了19.2%和18%, Kappa系数分别提高了0.23和0.2。最后,K最邻近分类的总体分类精度和Kappa系数分别提高了19.7%和0.21。综上所述,高精度地表覆盖数据优化影像分割的分类结果优于无地表覆盖数据辅助分类结果。
3.3.2 4种分类器算法的分类精度比较
本文利用朴素贝叶斯、K最邻近、随机森林、CART决策树算法进行分类,不同分类器的结果精度评价如表6所示,在高精度地表覆盖数据优化影像分割的分类方法中,随机森林分类器的分类的总体精度和Kappa系数最高;其次是CART决策树和朴素贝叶斯分类器,CART决策树和朴素贝叶斯分类总精度分别为88.1%和82.5%,Kappa系数分别为0.85和0.78;分类结果较差的为K最邻近分类,其分类总体精度为79.8%,Kappa系数为0.74。4种分类器在无地表覆盖数据辅助分割的分类中总体精度和Kappa系数的排序同高精度地表覆盖数据优化影像分割的分类排序一样。
影像分类的分类器算法的选择需要考虑精度、速度、易用性和数据集等。贝叶斯分类器相对简单,对小规模数据具有较好的分类效果。CART决策树分类精度和效率适中,应用比较简单,可解释性强,缺点是易发生拟合现象。K最邻近分类器理论成熟,思想简单,可以用于非线性分类,缺点为计算量较大,需要消耗大量内存。随机森林训练快速并且调整参数难度较小,有效防止过拟合现象,是解决众多分类问题的“赢家”。
4 结束语
本文基于北京二号卫星遥感数据对陕西省咸阳市武功县土地利用信息进行分类研究,利用高精度地表覆盖数据优化影像分割的分类方法、无地表覆盖数据辅助分类两种方法,展开朴素贝叶斯、CART决策树、随机森林和K最邻近4种分类器分类情况相互比较。得出以下结论:
1) 采用高精度地表覆盖数据优化影像分割的面向对象分类方法,在精度方面有较大的提升,其分类总体精度较无地表覆盖数据辅助分割提高18.73%,Kappa系数提高了0.21,所以此方法对提取土地利用信息具有较好的可行性。
2) 随机森林分类器无论是从分类精度、分类速度、易用性还是处理拟合等现象,均成为解决众多分类问题的“赢家”。其中,高精度地表覆盖数据优化影像分割的随机森林分类精度为95.3%,Kappa系数达到0.94,提取效果最理想。
高精度地表覆盖数据优化影像分割的土地利用提取方法将高精度地表覆盖数据运用到多尺度分割中,得到同质性较高的影像对象,较好地避免了破碎图斑的产生。因此,该方法对提取土地利用信息具有较好的可行性和鲁棒性,为土地利用信息的快速提取提供有效和可靠的技术手段。
虽然高精度地表覆盖数据优化影像分割的面向对象分类取得了较高的分类精度,但对于具有相近光谱特性的地物进行分类时,仍然出现了一些错分现象。为进一步提高分类精度,未来的研究应着重在优化决策树结构与引入模糊数学方法来改进分类算法。考虑到干旱区植被和水体的季节变化比较大,还需利用多季相遥感数据,进一步提高分类精度。此外,现土地利用分类只到一级类,部分一级类的子类型的光谱差异也会影响分类精度,比如林地下面乔、灌等类型。针对更加细致的子类进行分类研究将是今后的研究方向。
引用格式:朱晓霞,宁晓刚,王浩,张翰超.高精度地表覆盖数据优化分割的土地利用分类[J].测绘科学,2021,46(6):140-149.