卫星遥感数据在农作物种植监测中的关键应用技术(二)
作者: 发布时间:2019-06-20

在上一篇《卫星遥感数据在农作物种植监测中的关键应用技术(一)》中,我们提到了图像物种识别的原理和应用、遥感成像的原理、光谱地物识别的原理,说明了在遥感卫星大面积信息采集和当前空间分辨率条件下,利用光谱特征进行地物识别和物种分类对于农林作物种植监测和产业发展规划具有重要的意义。下面探讨一下总体的思路和几个关键技术。

一、利用光谱特征分析农林作物物种的总体思路

参照地物识别中植被指数中的归一化差分植被指数NDVI的理念,通过某一类地物在多个光谱波段的特征数据分析,寻找与其他地物存在较大差异的数据特征,并对数据特征进行指数化设计,凸显光谱特征的差异性,通过分析出来的光谱数据特征值设计深度学习的输入特征向量,利用深度学习算法进行验证,判断其在实际地物识别中的准确率,最终形成输入合理、计算快速、结果精准的人工智能物种识别模型,是利用光谱特征向量进行物种识别的主要思路与过程。

下面举例说明光谱特征数据的分析过程。


示例:各类林木的各波段反射特征值分析


如图所示,在某个林区要区分上述7中林木的过程中,首先通过人工判读的方式,将7种不同林木的遥感数据进行提取,获取7类林木在常用8个波段的光谱反射率平均值(B1-B8),作为光谱反射率特征值的分析依据。

通过观察分析,可知这7中林木在光谱反射率特征值中与其他地物有明显区别,并且这7中林木的数据波段趋势类似,B1-B2波段光谱反射率稍有上升;B2-B5波段光谱反射率持续下降;B5-B7波段光谱反射率陡然上升;B7-B8波段光谱反射率明显下降。对比其他地物的光谱放射率特征,这7中林木的数据分析完全符合植被植被指数中的归一化差分植被指数NDVI特点,也就是说,可以利用NDVI指数对植被进行提取。(为简便说明物种分类的数据分析,假设地面的所有植被都是这7中林木组成。)

在物种识别的过程中,逐一提取具有显著特征的物种进行识别,逐一进行分类判别(决策树思想)。这7类林木在B1-B5波段,数据特征区分不明显,数据密度高,区分难度大,数据差异性集中反映在B5—B8波段。

B5—B7波段,有两个物种“国槐”和“垂柳”的光谱反射率上升趋势相比较其他几个物种特别明显,可以作为这两个物种的第一识别特征。为放大这个特征,与其他物种的数据特征有更加明显的差异,我们对这个上升斜率做放大,特征值设计为(B7-B5)/(B7+B5)。通过这个特征值,可以将这两个波段光谱反射率上升特别明显的两个物种进行区分。在“国槐”和“垂柳”这两个物种的区分中,就可以通过绝对值的特征来判别,“国槐”的数据值永远比“垂柳”要高,简单的判别是:他们的平均值之上的是“国槐”,在平均值之下的是“垂柳”。

剩余的5个物种,“白杄”在B7—B8波段光谱反射率的下降趋势更加明显,可以把表达式设计为(B8-B7)/(B8+B7),将“白杄”从这5个物种中进行分离。剩余的4个物种中,在B5—B7波段光谱反射率的数据趋势中,“新疆杨”的上升速率最快且绝对值最高,“杜松”的上升速率最慢且绝对值最低。在“油松”与“圆柏”数据对比中,“油松”在B5—B7波段光谱反射率的上升速率跟快且绝对值高于“圆柏”。

通过以上的光谱放射率特征值分析,我们可以发现几个对判别物种具有特征意义的数值,他们分别是:B5、B6、B7、B8、(B7-B5)/(B7+B5)、(B8-B7)/(B8+B7)。利用这些光谱放射率的数据特征值,设计合理的输入向量,选择不同的深度学习算法,就可以对物种进行更加有效的判别。

一、遥感数据在种植监测应用中的关键技术

1. 数据采集的要素设计

l  卫星选择

国外高分辨率卫星数据费用高,周期长,获取难度大,在以往的研究中,只能根据影像覆盖情况进行较小范围的高精度面积提取,随着我国第一颗高分辨率卫星成功发射,国产影像分辨率高,覆盖面广,重访周期短,一批覆盖面广、分辨率高的影像已经运用到农作物面积提取、长势分析、病虫害防治等研究中。在卫星的选择中,需要根据空间分辨率、光谱分辨率、时间分辨率、辐射分辨率等具体参数,选择不同的卫星遥感数据开展研究与应用。

“高分一号”于2013年4月26日在酒泉卫星发射中心由长征二号丁运载火箭成功发射。是高分辨率对地观测系统国家科技重大专项的首发星,配置了2台2米空间分辨率全色/8米空间分辨率多光谱相机,4台16米空间分辨率多光谱宽幅相机。设计寿命5至8年。“高分一号”卫星具有高、中空间分辨率对地观测和大幅宽成像结合的特点,2米空间分辨率全色和8米空间分辨率多光谱图像组合幅宽优于60公里;16米空间分辨率多光谱图像组合幅宽优于800公里。


高分二号卫星是我国自主研制的首颗空间分辨优于1米的民用光学遥感卫星可在遥感集市平台中查询到,搭载有两台高分辨率1米全色、4米多光谱相机,具有亚米级空间分辨率、高定位精度和快速姿态机动能力等特点,有效地提升了卫星综合观测效能,达到了国际先进水平。

 

l  时相选择

在进行不同作物的光谱特征数据分析过程中,数据的准确性和关键特点是分析结果是否精准的关键。在对某个物种进行遥感数据采集的时候,应该选择起不同的生长阶段进行典型数据采集,尤其是季节性的农作物。一般在发芽期不太适合采集,选择叶片生长比较茂盛的阶段比较能够提取更加有物种特征的光谱反射率。不同的作物在不同的地区有不同的生长阶段,所以也必须考虑当地气候对作物生长的影响。

l  区域选择

在获取作物的遥感数据时,选择区域意味着选择不同地物进行识别和训练。首先要确定的是,在目标监测范围内,选择最具典型特征并且包含有各类典型地物的区域进行数据采集,这样可以保证作物的数据特征明显,区分各类地物时的数据准确,甚至要包含典型的近似性地物,才能利用更加精准的数据进行细分。

1.  特征数据的分析设计

特征数据分析,是设计特征向量的重要基础,明确、典型、差异性大的特征向量对物种识别算法的效率和准确度起着决定性作用。根据光谱的连续性,对于比较容易辨识的物种,一般选择8个波段的反射率数据进行分析就能达到辨识要求,对于光谱辨识困难的特殊物种,需要通过更高密度的光谱曲线才能在多个等同的物种中找到特殊的光谱反射率特征,从而发现该物种独特的光谱特征。在特征数据分析过程中,最基础的是光谱反射率的绝对值,然后分析在不同波段变化的趋势,再然后通过连续斜率变化等逐层细化寻找数据特征。

2.  深度学习的算法设计

机器学习(Machine Learning,ML),多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能(Artificial Intelligence,AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习就是探究和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。

深度学习是基于机器学习延伸出来的一个新的领域,由以人大脑结构为启发的神经网络算法为起源加之模型结构深度的增加发展,并伴随大数据和计算能力的提高而产生的一系列新的算法。深度学习,作为机器学习中延伸出来的一个领域,被应用在图像处理与计算机视觉,自然语言处理以及语音识别等领域。

深度学习的算法,主要有决策树(Decision Tree)、最邻近规则分类(K-Nearest Neighbor)KNN算法、支持向量机(Support Vectors Machine,SVM)算法、神经网络(Nerual Networks)算法等主要算法。对于不同的物种识别数据特征和分类需求,应该选择不同的算法进行物种识别的应用设计。

一般主要使用决策树和神经网络两种算法,这里做个简要介绍与场景分析。

l  决策树

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。

决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。

分类树(决策树)是一种十分常用的分类方法,是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

决策树在物种识别中,首先用于地物分类。对于卫星遥感数据来说,利用决策树首先可以将特征明显的水体、植被、土壤等具有明显波段数据特征的地物进行分类。

植被,一般利用NDVI(Normalized Difference Vegetation Index,归一化差分植被指数,标准差异植被指数)来进行区分,通用的表达式是NDVI=(NIR-R)/(NIR+R)。由地物光谱曲线可以看出,植被在B4和B3之间的反射率差值明显大于非植被地物,取NDVI上植被的最小值和非植被的最大值的平均值制作约束条件NDVI≥0.425作为植被识别决策模型的第一层约束条件,即分离植被与非植被。

水体,一般利用归一化差分水体指数(NDWI,Normalized Difference Water Index)来进行区分,通用的表达式是NDWI=(p(Green)-p(NIR))/(p(Green)+p(NIR))。根据地物光谱特征数据分析,水体在B2-B4阶段的变化趋势有明显的下降趋势,(B2-B4)/(B2+B4),正值为数值上升而负值为数值下降,计算结果反应了变化的速度也就是斜率。在B2,B4之间,水体的反射率有明显的减小趋势,在B4处达到最小值,因此利用可以将水体和非水体进行分离。

因此,利用决策树进行地物分离的决策树案例可以图示为:


l  神经网络算法

人工神经网络(Artificial Neural Networks,ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。

神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。

神经网络是通过对人脑的基本单元—神经元的建模和联接,探索模拟人脑神经系统功能的模型,并研制一种具有学习、联想、记忆和模式识别等智能信息处理功能的人工系统。神经网络的一个重要特性是它能够从环境中学习,并把学习的结果分布存储于网络的突触连接中。神经网络的学习是一个过程,在其所处环境的激励下,相继给网络输入一些样本模式,并按照一定的规则(学习算法)调整网络各层的权值矩阵,待网络各层权值都收敛到一定值,学习过程结束。然后就可以用生成的神经网络来对真实数据做分类。

神经网络在物种识别中,应用于多个特征值组合形成特征向量,根据特征向量设计输入层结点、隐藏层数、隐藏层结点、输出层结点等神经网络结构,提取明确的训练集,对神经网络模型进行继续训练,得到成熟的物种识别模型。

特征向量的分析设计,通过光谱波段的反射率采集,以及典型数据分析中,提取绝对值、变化率等作为特征向量,作为神经网络的输入层;神经网络的输出层,一般已经明确分离了建筑、土壤、水体等地物,只要区分在剩余的所有地物或者植被种类中是不是目标物种,所以输出层一般设计一个结点;根据要识别物种与其他地物的区分复杂度进行设计,一般先进行神经网络的一层隐藏层进行模型训练,验证精确度后再判断是否需要增加层数;为了使更多的特征向量值在模型训练中发挥作用,隐藏层设置的结点数量也要随之调整,验证精确度后再判断是否需要增加隐藏层结点数。



图例:利用神经网络进行物种识别

1.  人工智能的模型训练

在通过遥感数据的光谱特征数据进行物种辨识的过程中,利用决策树进行分类的关键数据是通过特征数据分析得来的决策判断阈值,阈值越精准,物种判别越精准。这就需要在长期的大量的典型数据分析中,利用更多的已知正确数据和近似错误数据进行阈值的精准化。

基于神经网络算法的物种识别模型,需要经过长期的特征数据训练集的训练,才能够逐步提高精准度。在模型训练的过程中,除了持续提取争取的物种遥感数据的特征值进行正向训练外,还要选取极易混淆的周边地物和相似地物进行错误数据集的反向训练,才能快速提高识别效率和精准度。训练时,还需要对特征向量数量(输入结点数)、隐藏层数、隐藏层结点数进行适当的调整,在效率与准确度之间做出实用化的平衡。经过长期训练,才能“喂养”出效率高、精度高的物种识别模型。

2.  识别精准的野外验证

利用训练好的物种识别模型,加载某个特定区域的全色和多光谱的整合数据后,就可以进行物种分析了。在完成室内判读后,需要对室内解译工作进行验证,携带该区域的卫星影像,进行进一步的解译判读,以提高判读的精度。根据调查区域内的地理环境及交通道路条件,制定野外验证考察路线,选定重点考察点。完成野外验证后,回到室内根据验证的结果及对目标物种影像特征增加的新的认识,重新进行判读修改,以进一步提高判读的精度。同时可以将野外采集的地面样方作为精度验证的依据。

基于地面样方数据验证是精度验证的主要手段之一,也是说明分类结果准确程度的指标之一,可以采用混淆矩阵、Kappa系数、总体分类精度、制图精度、用户精度等5种方式表述基于地面样方数据精度验证结果。总体分类精度指的是所有被正确分类的像元总和除以总像元数。制图精度指正确分为A类的像元数与A类真实参考总数的比率。用户精度是指正确分到A类的像元总数与分类器将整个影像的像元分为A类的像元总数(混淆矩阵中A类行的总和)比率。

3.   遥感监测的实际应用

完成遥感数据物种分类并制作专题图后,可建立各类农林作物的分布图形数据库,利用GIS工具软件的面积计算功能,进行图形数据的面积量测与汇总,生成面积量测汇总表格,统计计算目标区域的农林作物种植面积测量,根据政府、行业、野外验证的数据,进行种植面积的比对,最终得出目标区域的农林作物种植面积计算。

在获取到某类农林作物较为精确的种植分布数据后,可以通过横向数据关联的形式,将土地权属、种植户和种植企业信息、土地租赁和流转信息、GAP认证信息等属性数据与种植分布数据相关联,结合农产品的存储仓库信息、库存量信息、精深加工企业的生产需求信息,就能够形成“公司+基地+农户+科技”的产业化经营模式,将农产品种植业带入基地化、规模化、标准化、商品化、组织化的发展轨道,形成区域化布局、标准化生产、科技化发展、规模化经营、组织化协作的发展格局。

二、 唯恒在农林作物种植监测领域的探索

云南唯恒基业科技有限公司(以下简称“唯恒”),建立有专门的卫星遥感数据在农业应用领域的数字化解决方案实验室,通过与国内领先的遥感卫星运营公司合作,获取第一手的卫星遥感数据,通过技术团队的地图处理,形成具有分析价值的遥感信息大数据库。


利用卫星遥感与无人机光谱仪构建农业种植监测大数据库

当前,利用农业种植监测大数据库,利用决策树与神经网络相结合的应用模式,长期训练了以三七为代表的高原特色农产品人工智能物种分类模型,并在试验区域进行了实用化验证,达到了实际应用的精准度要求。在此基础上,针对擅长的农业与中药材种植领域,开发了作物识别、面积计算、密度分析、长势分析、产量评估等行业化应用,未来将在农业与中药材的产业化发展规划和数字化供应链整合中发挥总要作用。


农业与中药材行业中的应用