收到日期:10/07/2016;接受日期:24/07/2016;发表日期:28/07/2016
更多相关文章请访问研究与评论:统计与数学雷竞技苹果下载科学杂志
埃塞俄比亚的四个主要农作物产区Tigray、Amhara、Oromia和SNNP被纳入研究。生产函数的三种模型:线性,指数和Cobb Douglas被考虑和评估统计模型诊断。基于2007/2008年农业抽样调查数据,统计模型诊断发现作物生产函数由Cobb-Douglas函数表示。柯布-道格拉斯生产函数首先用普通最小二乘拟合。正如预期的那样,由于异常值的出现,使用OLS的参数估计具有误导性;因此稳健回归被作为一种替代方法。然后许多参数估计收到预期的迹象,R2值增加,参数估计的标准误差降低。一般来说,农场规模、肥料、种子、耕牛力量和人力对作物产量最大化很重要。研究发现,除了SNNP,每个地区的农场规模都有很大的贡献,在SNNP,这是由于人力劳动。教育变量在提格雷和阿姆哈拉均为负号,差异无统计学意义。 Production elasticities for each of the inputs except farm size in Tigray, Amhara and Oromia suggested that the relation between inputs and output was inelastic.
生产函数,稳健回归,离群值,作物生产,埃塞俄比亚,柯布-道格拉斯,OLS,提格雷,阿姆哈拉,奥罗米亚,SNNP
埃塞俄比亚的农业是该国的主要活动,因此该国的经济以农业为主。它平均占国内生产总值的50%左右,产生90%的出口收入,并为该国的次要活动提供约70%的原材料[1].尽管各区域的产量有所不同,但该国几乎所有区域都生产主要粮食作物。为此,主要季节[2]任何一年,农民私人控股的主要作物产量平均占主要作物总产量的90%以上,占耕地面积的93%以上[1].
埃塞俄比亚种植多种作物,包括谷物(“苔麸”、玉米、小麦、大麦、高粱、小米、燕麦等);豆类(马豆、鹰嘴豆、菜豆、田豆、扁豆、大豆和野豌豆);油籽(亚麻籽、胡芦巴、“努格”、油菜籽、向日葵、蓖麻豆、落花生等);兴奋剂(咖啡、茶、聊天、烟草等);纤维(棉、剑麻、亚麻等);水果(香蕉、橙子、葡萄、木瓜、柠檬、苹果、菠萝、芒果、鳄梨等);蔬菜(洋葱、番茄、胡萝卜、卷心菜等);根和块茎(土豆、甘薯、甜菜、山药等)和甘蔗。根据埃塞俄比亚中央统计局(CSA)进行的2007/08(2000欧共体)年度作物产量预测调查,粮食作物(即谷物、豆类和油籽)的总面积约为1100万公顷,预计将从私人农民的土地上生产约1.6451亿公司谷物。
埃塞俄比亚拥有广阔的肥沃土地、多样的气候、充足的降雨和庞大的劳动力资源,农业潜力巨大。然而,尽管有这种潜力,埃塞俄比亚的农业仍然不发达,因为它受到周期性干旱的困扰;土壤退化(由过度放牧、森林砍伐和人口密度高造成)和经济基础差(生产力低、土地管理低、基础设施薄弱和技术水平低)。现有的落后和传统农具和现代农业投入的使用非常有限,加上主要的雨养农业(该部门的绩效高度依赖于降雨的及时开始、持续时间、数量和分布),对现有的温饱/仅够糊口/农业系统作出了很大贡献。
在埃塞俄比亚这样一个农业经济占主导地位的国家,必须给予适当的关注(包括广泛的研究工作),以提高农业的绩效,就生产总量而言,以确保其人口的国内粮食供应。为此,埃塞俄比亚政府一直在制定和执行各种经济和部门政策和战略。在过去的15年里,政府已将农业确定为发展的优先部门,因此制定了农业发展主导的工业化(ADLI)战略。为了实现千年发展目标,扩大了农业推广服务,增加了现代投入的供应和应用,从而提高了总产额,特别是谷物、豆类和油料种子。
埃塞俄比亚种植各种各样的作物,其中谷物是最重要的大田作物,也是大多数埃塞俄比亚人饮食中的主要成分。主要的粮食作物是画眉草、小麦、大麦,它们主要是凉爽气候的作物;还有玉米、高粱和小米,这些都是温暖气候的粮食作物。Teff是在较冷的高地种植的最受欢迎的作物,而高粱是主要的低地作物,由于其耐寒和抗旱的特性,它在半干旱的环境中生长得很好。
问题陈述
农业的良好表现保证了粮食作物的供应。农业在埃塞俄比亚的政治、经济和社会稳定中发挥的主要作用使得农业生产的衡量极其敏感。埃塞俄比亚农业的特点是生产力低。造成这种情况的原因是有限的现代农业技术和传统做法的使用以及连作导致的土壤肥力下降。在用于提高作物产量的传统做法中,最广泛使用的做法是通过长期休耕和使用粪便和作物残余物来保持土壤肥力。由于普遍存在的迅速和不受控制的人口增长导致该国的休耕土地和薪柴短缺减少,这些逐渐变得不可能。另一种增加作物产量的做法是扩大可耕地。然而,这一方案已经实施了很长时间,由于该国人口的高速增长,大部分适合种植的高地已经被开垦殆尽。
因此,提高农村人口生活水平、确保粮食安全和减轻贫困的唯一现实选择是集中注意提高土地和其他资源的生产力,同时保护那些被过度利用的资源。
由于资源有限,埃塞俄比亚农民面临着如何最好地生产作物以及生产多少的关键决定。作物产量低的问题包括没有足够的作物土地、使用传统农业技术(例如化学品和化肥用量不当)和其他农业投入分配不当。与此相关,亚的斯亚贝巴等人进行了一项研究。[3.]揭示了埃塞俄比亚中部高地一些选定地区的主要作物生产问题是缺乏土地,家庭劳动力短缺,投入价格高,缺乏正规和非正规来源的贷款,难以进入市场,缺乏适当的储存设施,以及缺乏推广服务。
鉴于上述问题,解决作物的优化生产问题是极其必要的。一般来说,文献中的一些研究使用了生产函数分析来处理最优生产的问题。生产函数将单个产出y与一系列生产要素x联系起来1, x2,…,xn.特别是,作物生产函数将每户作物产量与生产要素联系起来,如作物土地面积、劳动力参与率、化肥使用量、种子施用量和用水量。
在农业生产函数分析中,决定增加或减少一个要素水平所产生的边际产量取决于其他要素的可用数量;例如,每多施一单位肥料所产生的额外产品,在很大程度上取决于与之相结合的土地、劳动力等的数量。也就是说,人们期望生产投入在技术上是相互依赖的;具体地说,对于正常投入,预期投入水平的增加会增加生产过程中其他投入的边际生产率和平均生产率。在这种情况下,回归参数估计应解决共线性问题,以便获得更可靠的参数估计。
在许多作物生产方案中,作物产量异常低或异常高是很常见的。此外,在任何耕作系统中,作物生产因素如作物面积、施肥量和耕牛数量之间可能会出现极端值。这些观测值的异常值(异常值)的影响是,获取参数估计的经典方法,如最小二乘拟合准则,可能会产生误导性的结果。用稳健回归技术处理异常值问题[4].因此,本研究采用稳健回归方法来解决离群值的问题,使得从给定的生产函数得到的参数估计值不再具有误导性。此外,生产或作物产量函数的充分表示对于农业和环境经济分析中的建模目的至关重要。为此,在农学和农业经济学文献中,对生产函数不同函数形式的讨论和估计备受关注。
虽然在埃塞俄比亚的一些地区,关于农业生产和农民效率的研究很少[3.-6],没有对埃塞俄比亚作物生产函数的估计给予太多的关注,并应用统计技术,如稳健回归。因此,本研究试图展示稳健回归在埃塞俄比亚私人农民持有作物耕作系统生产函数分析中的应用,重点关注影响作物产量的最重要生产因素,如作物面积公顷、劳动力、化肥和种子。
研究目的
(i)利用稳健回归对埃塞俄比亚的私人农民农场进行生产函数分析。
(ii)根据埃塞俄比亚2007/08年(2000欧共体)农业抽样调查的数据,拟合不同的作物生产函数,并为私人农民持有的作物农场选择适当的函数。
分析埃塞俄比亚不同地区私人农民土地的作物生产因素。
数据和分析方法
的数据
本研究中作物生产函数的分析和估算采用了2007/08(2000欧共体)农业抽样调查的数据[2(“Meher”季)由埃塞俄比亚中央统计局进行。农业抽样调查涵盖了除阿法尔三个地区和索马里地区六个地区的非定居人口以外的全国农村地区。但是,本研究只考虑了Tigray、Amhara、Oromia和SNNP四个主要作物产区。
研究中的变量
因变量:作物总产量,用Y表示,定义为每个私人农户的作物总产量,单位为公制。
独立变量:假设下列自变量对每个研究区域的作物产量有正向(+)、负向(-)或正向和/或负向(+/-)的影响。
(i) X1:化肥施用量,单位为千克(+)。
X2:改良和/或非改良种子的重量,单位为千克(+)。
X3:耕地面积,单位为公顷(+)。
X4:人力劳动,根据农民的家庭规模计算(+)。
(v) X5:耕牛劳动:定义为每户拥有的耕牛总数(+)。
X6:户主获得的教育(最高等级)(+)。
(vii) X7:有外延接触的受访者得分为1,否则为0(+)的虚拟变量。雷竞技网页版
(viii) X8:虚拟变量,作物受损为1,否则为0(-)。
(ix) X9:虚拟变量,灌溉农田为1,其他为0(+)。
(x) X10:一个虚拟变量,如果作物土地所有权类型为私有,则得分为1;如果作物土地所有权类型为出租/租赁(+/ -),则得分为0。
生产功能
生产函数是一个函数,它指定了一个公司、一个行业或整个经济在所有投入组合下的产出。给定所有技术上可行的输出和输入组合的集合,只有包含特定输入集合的最大输出的组合才能构成生产函数。另外,生产函数也可以定义为给定现有技术条件下,生产指定数量的产出所需的最低输入要求。通常认为每种生产技术都可以构造独特的生产函数。
产出与投入的关系是非货币的,也就是说,生产函数将实物投入与实物产出联系起来,不考虑价格和成本。但是,生产函数并不是生产过程的完整模型:它故意抽象了物理生产过程的本质和固有方面,包括错误和浪费。生产函数的主要目的是解决在生产中使用要素投入的配置效率以及由此产生的对这些要素的收入分配问题。在某些假设下,生产函数可以用来为每个要素得出边际产量,这意味着将产出产生的收入理想地划分为每个投入生产要素产生的收入。
一个合适的生产函数(模型)应该表现出几个通常被认为是生产过程的技术特征。在先验基础上,可以假设农业生产函数表现出三个基本特征。首先,像大多数生产过程一样,农业过程中的投入可能会遵循边际生产率递减规律,即,当连续的可变投入单位应用于给定数量的其他资源时,产出(边际产品)的增量将下降。其次,增加或减少一个要素水平的决定所产生的边际产量取决于其他要素的可用数量。最后,如果生产的必要条件之一不存在,即零输入水平,该过程将不会产生任何输出。
如上所述,生产函数的技术特征可能对给定研究中考虑的任何函数形式都不是严格有效的;因为具有理想技术特性的模型规格有时会伴随着统计问题,或者根本没有数据支持。因此,其他函数形式,尽管它们不满足所述的技术特征,但应考虑进行进一步分析,以便在统计和数学方面加以考虑。放宽上述一个或多个特征,并基于对传统和流行文献的回顾,Griffin等。[7]确定了20种函数形式,包括线性、二次、平方根、超对数和柯布-道格拉斯。在本研究工作中,生产函数估计所考虑的模型有:线性模型、柯布-道格拉斯模型和指数模型。
生产函数可以用隐式形式表示为:
I = 1,2,3,…,n .......(1)
在那里,
•Y我是输出;
•X1我X2我X、…Ki,为K个解释变量(输入);
•ε我是第i个误差项;
•n为研究中纳入的观察数(病例数);
f(.)是解释变量的已知函数。
作物生产功能的不同投入可以是劳动力、土地、种子、化肥、化学品和拖拉机(耕牛)。
线性生产函数
(2)在那里,
Y是输出或响应(因变量);X1
•X1,……, XK为K个生产要素(投入);
•n =生产函数估计中考虑的情况数;
•I = 1,2,3,…,n
βj是需要估计的参数。
εi =随机扰动项,分布独立正态,均值为零,方差为常数σ2。
柯布-道格拉斯产生函数
下面给出的Cobb-Douglas函数形式在文献中经常被使用,并被证明可以准确地捕捉潜在的关系[8,9].
模型:(3)
, X1,……, XK, Y, i和å如上所定义。
可以将模型改为如下的线性形式,用线性回归估计的方法估计参数。
(4)指数生产函数
(5), X1,……, XK, Y, i和å如上所定义。
该模型还可以转化为线性形式,以便使用线性回归估计方法对参数进行估计。
(6)多元线性回归模型与统计假设
对由给定数据集产生的问题的实证调查,只有在对模型进行了令人满意的指定并进一步检查了统计假设之后才应该开始。考虑以下多元线性回归模型:
Y = xβ +ε (7)
在那里,
•Y是一个n x 1的因变量向量;
•n为回归中考虑的病例/受试者数量;
•X是一个n X (K+1)自变量矩阵;
•K为解释变量的个数;
•β是回归系数和的(K+1) x1向量
ε是一个n x 1的随机扰动向量。
在考虑上述回归模型后,手头的数据集应该满足以下假设,详细讨论可以在Gujarati [10等等。
(i)线性-预测因子和结果变量之间的关系应该是线性的。
(ii)正态性-误差应呈正态分布。从技术上讲,只有t检验有效时才需要正态性,但系数估计只需要误差相同且独立分布。
(iii)方差的同质性(同方差)-误差方差应该是常数。通常,在同方差模型中存在一些极端或不寻常的观测值(离群值)使模型具有异方差[11].残差与预测值的关系图对于判断是否违反同方差假设很重要。如果残差作为预测值的函数具有某种模式,那么就会有非恒定方差(异方差)的证据。当残差图明显偏离正常时,应进行更正式的异方差检验[12(Jason and Waters, 2002)。对此可能的测试有Goldfeld-Quandt测试,Breusch-Pagan测试和White测试。然而,Rana等人[11]证实了上述检验在检测异方差时遇到了巨大的挫折。据此,他们提出了一种修正的Goldfeld-Quandt (MGQ)检验,计算步骤如下。
(a)与经典的Goldfeld-Quandt检验类似,根据假定会引起异方差的X值对观测数据进行排序或排序,从最低的X值开始。
(b)省略中心c观测值,其中c是先验指定的,然后将剩余(n-c)观测值分为两组,每组(n-c)/2观测值。
(c)通过任何鲁棒回归技术检查异常值,最好使用鲁棒最小平方和LTS(参见本章末尾关于LTS的详细信息)来拟合回归线。然后根据拟合计算整个数据集的删除残差,而不包括被LTS拟合标识为异常值的点。
(d)对于两组,计算平方删除残差(MSDR)的中位数,并计算比率MGQ = MSDR2/ MSDR1
在那里,
•MSDR2和MSDR1分别为较小组和较大组的删除残差平方的中位数。在正态下,MGQ统计量遵循分子和分母自由度分别为(n-c-2(K+1))/2的F分布。
•K为模型中解释变量的数量。
(iv)独立性-与一个观测值相关的误差与任何其他观测值的误差不相关(无自相关)。自相关在时间序列数据中更为常见,其中一个或多个连续周期的误差项是相关的。然而,对于横断面数据,随机抽样保证了不同的误差项是相互独立的,自相关不是一个问题[13].
(v) x是线性无关的(无多重共线性),因此秩(xTX) = rank (X) = K,这意味着(XTX)-1的存在。多重共线性既不是可以通过探索回归残差发现的规格错误,也不是建模错误,而是数据不足的一种情况[14].以下是用于检测多重共线性的各种技术。
相关矩阵检验:多重共线性的一个非常简单的测量方法是检查相关系数的非对角线元素,如果回归量xi和Xj几乎线性相关,则将会接近团结。
方差膨胀因子(VIF):VIF =在哪里平方倍数之间是否存在相关系数以及其他解释变量。作为趋向于1,表示在x 's中存在线性关系,x的估计系数的VIF我趋于无穷。有人认为VIF超过10表明多重共线性可能在估计中造成问题[14].
特征值和条件数(CN):如果数据中存在一个或多个近线性依赖关系,则X的一个或多个特征值TX,表示λ1,λ2,,,λk会很小。CN被认为是测量回归估计对数据中微小变化的敏感性,并被定义为矩阵(X)的最大特征值与最小特征值之比TX)的解释变量,即,
一般情况下,如果条件数小于100,则不存在严重的多重共线性问题。CN在100和1000之间表示中等到强烈的多重共线性,如果超过1000,则表示严重的多重共线性。
除了上述假设之外,在分析过程中还会出现一些问题,尽管严格地说,这些问题不是回归假设,但回归分析人员仍然非常关注这些问题。这些是不寻常的观察结果,可能是异常值或杠杆点,对系数施加不适当的影响。满足上述假设和发现外围情况的问题是相互交织的。例如,如果一个案例在因变量上有一个值是异常值,它将影响倾斜,从而影响分布的正态性。关于异常值的详细讨论将在下一节中给出。
当上述假设完全满足时,用普通最小二乘(OLS)方法得到式7中的最佳(方差最小)无偏线性估计量。最小二乘误差平方和的方法是最小二乘误差平方和T代表转置。
也就是说,(8)
Q的最小值可以通过取Q对每个βi的偏导数并等于零来实现,即:(9)
以上表明
期望是公正的,因为
的方差协方差矩阵由:
在σ2由均方误差估计,它由:
(11)在那里,n K T和如上所定义。
然而,我们预计本研究中的作物生产数据容易受到异常观测的影响,从而导致OLS回归的参数估计具有误导性。因此,特别注意处理回归分析的存在不寻常的观测。
异常观测和稳健回归
离群值:离群值是在数值上与其余数据有距离的观测值。在预测变量上具有极端值的观测值是具有高杠杆的点。杠杆是衡量一个自变量偏离其均值的程度。如果这种杠杆点偏离了大多数观察所描述的线性关系,则称为“坏杠杆点”。相比之下,如果杠杆点没有偏离典型的关系,则称为“良好的杠杆点”。好的杠杆点不是异常值,甚至可以改善回归推理,因为这些点减少了系数估计的标准误差。异常值在任何分布中都可能偶然出现,但它们通常表明测量误差或总体具有重尾分布。
异常值的常见原因是两个分布的混合,这可能是两个不同的子种群,或者可能表明“正确的试验”与“测量误差”,这是由混合模型建模的。异常值是最极端的观测值,包括样本最大值或样本最小值,或两者都包括,取决于它们是极高还是极低。然而,样本的最大值和最小值不一定是异常值,除非它们与其他观测值异常地远。此外,在许多作物生产方案中,特别低或特别高的作物产量以及极端的投入值是常见的。我们特别期望生产投入具有影响力。例如,教育水平可以影响现代农业实践的适当使用,从而间接提高产量水平。在更多和更少的情况下,对耕牛和人类劳动的反应也会发生变化。异常观测值(离群值)的影响是最小二乘估计是低效的,并且可能有偏差。
自动拒绝异常值并不总是一个非常明智的过程。有时,异常值所提供的信息是其他数据点所不能提供的,因为它是由可能至关重要的情况的不寻常组合而产生的,需要进一步调查而不是拒绝。一般而言,只有当异常值是由记录观测资料或设置仪器时的错误等原因引起时,才应立即予以拒绝[15].用稳健回归技术处理异常值问题[4].因此,本研究采用稳健回归方法来解决异常值/杠杆点的问题,使参数估计不再像最小二乘估计那样容易受到异常数据的影响。
健壮的回归
一个统计过程被认为是稳健的,即使在统计模型的假设不正确的情况下,它也表现得相当好。稳健回归程序通常是指不仅在误差总体正态分布时表现良好,而且对偏离正态假设的小偏差不敏感的回归程序。在估计统计回归模型和检验假设的过程中,人们经常发现假设被严重违反。有时变量可以转换为符合假设的一种手段。然而,转换通常不会消除或减弱有影响的异常值的影响,这些异常值会使预测产生偏差并扭曲参数估计的重要性。在这种情况下,能够抵抗异常值影响的稳健回归可能是唯一合理的方法。
异常值检测
异常值检测,稳健回归的一个目的是确定残差是一个极端的负值还是正值。在简单线性回归分析的情况下,可以使用散点图检测异常值。然而,如果问题的维数超过简单线性回归情况,并且观测的数量非常大,这就不可能实现。使用残差图作为离群值诊断是一种不好的做法,因为残差图可能会受到离群值的影响[4],特别是在不良杠杆点的情况下,即异常值可以倾斜回归线,回归残差较小。因此,需要其他诊断工具来确定外围或有影响的观测结果。在实际考虑中,人们经常尝试使用最小二乘过程的诊断来检测异常值。然而,这样的程序容易受到所谓的掩蔽效应的影响,因为它们可能受到极端观测的强烈影响,以至于拟合的模型将无法检测到与其他观测不同的观测。异常值诊断程序,如学生化残差和jackknife残差,Cooks距离和Hat矩阵元素也遭受掩蔽效应。最重要的是,在存在两个或多个离群值的情况下,这些离群值诊断可能只能检测到一个,因为一个离群值可能被其他离群值所掩盖。为了避免这种影响,在文献中采用了稳健的离群值检测方法。
稳健回归的类型
稳健回归方法有很多种。尽管它们以不同的方式起作用,但它们对观测结果的重视程度都较低,否则会影响回归线。稳健回归的主要目的是检测异常值,并在异常值存在时提供抗(稳定)结果。用稳健回归技术解决了三类问题:
(i) y方向(响应方向)异常值问题
(ii) x空间中的多元离群值问题(即协变量空间中的离群值,也称为杠杆点)
(iii) y方向和x空间的异常值问题。
针对上述问题的稳健回归方法包括:最小绝对值回归或最小绝对偏差(LAD)回归、m估计(Huber估计器和Bisquare估计器)和有界影响回归(最小平方和最小修剪平方和最小中位数)。
高击穿点:一个估计对较重数据污染的稳健性是通过击穿点来衡量的,击穿点是一个样本中在不产生任意大偏差的情况下可能出现的离群值的最大比例。由于一个异常观测值(异常值)足以影响OLS回归的系数估计值,因此OLS回归的击穿点为0%。最大可能的击穿点是50%。这是通过最小修剪平方(LTS)估计和最小平方中值估计来实现的,最小中值估计是使平方残差的中值最小化的估计。
最小绝对偏差(LAD)回归:LAD回归与最小二乘回归不同,它最小化残差绝对值的和,以估计回归系数。LAD估计的优势在于它对响应变量分布的鲁棒性(尽管不是相对于解释变量)。由于这个原因,LAD估计有时被推荐作为迭代估计算法的起始值。LAD方法尤其适用于分布产生的异常值比例大于正常值或样本非常大的情况。尽管LAD回归对异常值具有鲁棒性,但对于高杠杆的情况,它通常比OLS差。如果杠杆点非常远,LAD回归线将穿过它,即它的击穿点也是0%。
M-estimates:LAD估计相对于OLS的主要优势是它们对异常值不那么敏感。然而,当没有异常值时,OLS估计可能更准确。m估计结合了两种方法的优点。在高杠杆的情况下,m估计的性能下降,这意味着崩溃点也是0%。当污染主要在响应方向时,m估计是一种常用的异常值检测和稳健回归方法。
有限影响(BI)方法:尽管M估计比LAD估计更有效;单个杠杆点可以完全支配随后的估计。这种限制导致了限制任何单个元素或X行影响的估计的发展,以防止杠杆点和回归离群值。此外,这些包括最小修剪平方(LTS)估计和最小中位数估计的方法具有更高的击穿点,高达50%。但是,当考虑的样本量较小时,BI方法的效率较低。
最小边平方(LTS):LTS回归基于h个观测值(总共n个观测值)的子集,其最小二乘拟合具有最小的残差平方和。LTS回归方法如下:
对稳健残差的平方从小到大排序,即:
计算LTS通过最小化稳健残差平方和来估计回归系数:其中h在范围内定义:SAS默认取h为(SAS研究所[16], 2008), K为自变量的个数。
首先,本文采用SAS9.2的鲁棒程序,对生产函数(模型)进行迭代重加权最小二乘回归估计。
作物生产函数中的数据污染主要在响应方向,因此可以采用以下m估计方法。在m估计中,目标是选择能够最小化残差函数的回归系数。普通最小二乘法的解是使残差平方和最小的系数。当数据包含异常值时,这种解决方案是不可取的,因为具有较大误差项的观测值(相对于其他观测值)将对估计系数产生更大的影响。
考虑线性回归模型:(12)
最常用的m估计,Huber m估计,的价值是最小化函数:
(16)在哪里(14)
建议取c = 1.5σ,其中σ是随机误差总体的标准差σ的估计值。
为了求(3.15)的最小值,对于一个固定值σ,求(3.15)的导数令它们都等于0。这就得到了K + 1个未知数的K + 1个方程:
(15)对于j = 0,1, ....,K,在哪里one lets Xio对于所有i =1,这些是未知数中的非线性方程但是它们可以用线性方程近似如下。
考虑一个迭代过程,其中目前的估计和表示改进的估计。
让
为了解决改进的估计,请写
更进一步说
然后式(15)可由线性方程估计:
(16)设W是带有对角线元素的对角线矩阵式(15)可进一步用矩阵表示为:
在那里,
(我)为估计回归系数的K+1 × 1向量;
(ii) X为n × K + 1设计矩阵;
(iii) Y为n × 1的响应变量向量。
求解上式,可以得到以下加权最小二乘估计量。
(17)迭代重加权最小二乘可以通过设置开始最小二乘向量的估计。在每个迭代步骤中,向量对当前的估计是用来计算矢量的残差。然后利用残差来获得和权重W我.向量改进后的估计值现在可以计算为式(17)。迭代过程继续进行,直到收敛。
当数据在x空间中被污染时(这是我们在本研究中通常预期的),M估计不能很好地[16]。利用最小二乘修剪法,得到了迭代重加权最小二乘回归的系数估计。由于LTS估计的效率较低,这种方法得到的估计不再可靠,因此LTS估计仅作为一种异常值检测手段。因此,参数的最终估计是由加权最小二乘拟合得到的,其中的权重可以确定如下
采用LTS估计迭代重加权最小二乘的方法,对加权矩阵的对角线元素进行加权由一个指标函数生成,(18)
在那里,
是规模估计,可以得到如下。
而且被选择去做一致性假设高斯模型。
具体地说,
其中Φ和Φ分别是标准正态分布的分布函数和密度函数。
r我为LTS估计得到的残差。
(a)上述指标函数对被确定为异常值的观测值的权重为0,否则为1。
(b)选择截断值3是因为如果残差是正态分布,那么大约99%的标准化残差将位于区间[-3.0,3.0]
最后,借助式(17)得到加权最小二乘的系数估计值,并进一步考虑这些估计值以解释最终模型。
研究变量的描述
在调查年度,Tigray、Amhara、Oromia和SNNP地区私人农民的平均作物产量为17.36;22.02;分别为32.89和30.74公公,平均耕地面积分别为1.24;1.49;2.22公顷及1.25公顷用于生产。尽管SNNP地区农民自耕农拥有的平均作物土地面积低于Amhara地区,与Tigray地区几乎相同,但上述结果表明,SNNP地区的农民平均作物产量(产量)在三个地区中最高。这进一步表明,在给定的平均耕地面积下,SNNP地区的平均生产力高于Amhara地区。上述结果还表明,每个地区的农民拥有非常小的农业土地面积,除奥罗米亚外,每个地区的平均土地面积不到1.50公顷,这可能导致一般农民的平均作物产量较小。表1Tigray、Amhara、Oromai和SNNP地区作物产量变异系数(cv %)为64.86;65.85;分别为57.09和77.62,因此SNNP地区产量数据变化较大,而Oromia地区产量数据最稳定。以公公为单位的产量最大值出现在SNNP地区,最小值出现在提格雷地区(表1).虽然农业用地的最小面积在每个地区几乎相同的公顷,最大的奥罗米亚地区是最高的,因为它显示表1.
地区 | 变量 | 病例数 | 最低 | 最大 | 的意思是 | 中位数 | 标准偏差。 | CV % |
---|---|---|---|---|---|---|---|---|
提格雷 | 教育 | 1676 | 0 | 12 | 2.29 | 1.00 | 2.28 | 99.56 |
家庭规模 | 1676 | 1 | 11 | 3.4 | 3.00 | 1.87 | 55 | |
肥料 | 1676 | 0.00 | 335 | 45.04 | 30.44 | 41.31 | 91.76 | |
种子重量 | 1676 | 2.50 | 425 | 88.07 | 69.79 | 71.67 | 81.38 | |
土地面积 | 1676 | 0.03 | 6 | 1.24 | 1.02 | 0.86 | 69.35 | |
生产 | 1676 | 0.17 | 34.75 | 17.36 | 9.79 | 11.26 | 64.86 | |
牛的数量 | 1676 | 0 | 6 | 1.74 | 2.00 | 0.75 | 43.1 | |
教育 | 6157 | 0 | 12 | 1.81 | 1.00 | 1.93 | 106.63 | |
家庭规模 | 6157 | 1 | 12 | 5.21 | 5.00 | 2.05 | 39.35 | |
阿姆哈拉 | 肥料 | 6157 | 0.00 | 710 | 56.19 | 40.00 | 99.52 | 177.11 |
种子重量 | 6157 | 3.00 | 625 | 110.3 | 72.84 | 121.98 | 110.59 | |
土地面积 | 6157 | 0.26 | 8.25 | 1.49 | 1.26 | 1.08 | 72.48 | |
生产 | 6157 | 1.007 | 45.5 | 22.02 | 14.06 | 14.39 | 65.35 | |
牛的数量 | 6157 | 0 | 9 | 1.5 | 1.00 | 0.87 | 58 | |
教育 | 6371 | 0 | 12 | 2.87 | 1.00 | 3.17 | 110.45 | |
家庭规模 | 6371 | 1 | 13 | 6.04 | 6.00 | 2.4 | 39.74 | |
Oromia | 肥料 | 6371 | 0.001 | 550 | 125.8 | 90.00 | 115.72 | 91.99 |
种子重量 | 6371 | 1.00 | 600 | 164.6 | 133.00 | 127.18 | 72.27 | |
土地面积 | 6371 | 0.05 | 11.67 | 2.22 | 1.89 | 1.52 | 68.47 | |
生产 | 6371 | 1.14 | 60.5 | 32.89 | 17.71 | 18.78 | 57.09 | |
牛的数量 | 6371 | 1 | 12 | 2.03 | 2.00 | 1.09 | 53.69 | |
教育 | 8084 | 0 | 12 | 2.76 | 1.00 | 3.07 | 111.23 | |
家庭规模 | 8084 | 1 | 14 | 4.79 | 4.00 | 2.33 | 48.64 | |
SNNP | 肥料 | 8084 | 0.00 | 658 | 27.04 | 15.65 | 45.98 | 170.04 |
种子重量 | 8084 | 1.00 | 681.6 | 45.14 | 25.00 | 60.11 | 133.16 | |
土地面积 | 8084 | 0.05 | 10.35 | 1.25 | 0.93 | 1.56 | 124.8 | |
生产 | 8084 | 0.86 | 66.43 | 30.74 | 16.34 | 23.86 | 77.62 | |
牛的数量 | 8084 | 0 | 14 | 0.85 | 2.00 | 1.42 | 167.06 |
表1:连续预测因子和各区域作物生产函数因变量的汇总统计。
各地区农民平均受教育年限不足3年;在所有情况下,最高为12 (表1).这表明农民受教育程度相对较低,平均水平低于第二周期小学教育(5 - 8年级)。表1以Kg为单位的种子重量平均值在Oromia地区最高(164.64 Kg), SNNP地区最低(45.14 Kg)。而在奥罗米亚地区,以Kg为单位的种子重量数据在各区域中具有较高的稳定性,奥罗米亚地区以Kg为单位的种子重量CV%最小(72.27)。这意味着,与其他地区的农民相比,奥罗米亚地区的农民使用的种子数量相对统一。另一方面,在SNNP地区,以Kg为单位的种子施用量数据变化较大,这进一步说明该地区部分农民的种子施用量较大,而另一些农民的种子施用量较小(表1).
根据所给出的以公斤为单位的化肥的平均用量表1与其他地区相比,奥罗米亚地区产量最高(125.79 Kg)。另一方面,以Kg为单位,SNNP区域的平均施肥量最低(27.04 Kg)。总的来说,这表明农民在他们的作物生产过程中施用了少量的肥料。此外,所给出的变异系数值表1结果表明,阿姆哈拉地区农民间化肥使用量差异较大(CV% = 177.11),有的农民大量使用化肥,有的农民少量使用或根本不使用化肥。而Tigray地区以Kg为单位的施肥量数据较为稳定(CV% = 91.76),说明Tigray地区农民的施肥量与其他地区农民的施肥量比较接近。
虽然每户家庭人数中位数在奥罗米亚地区最多(6人),但在SNNP地区观察到每户家庭人数最多(14人)。此外,家庭人数变异系数的值表明,阿姆哈拉地区的数据相对稳定(CV% = 39.35),说明家庭户均规模相对统一。农民拥有耕牛数量最多的是SNNP地区(14头耕牛),其次是Oromia地区(12头耕牛)、Amhara地区(9头耕牛)和Tigray地区(6头耕牛)表1在每个区域都很小,在任何区域都不超过2。这表明,耕牛的数量并不足够,而耕牛通常被认为是埃塞俄比亚农作物种植最重要的投入之一。此外,在SNNP地区,耕牛数量数据差异较大,变异系数为167.06%,说明有的农民耕牛数量较多,有的农民耕牛数量较少或为零(表1).
总体而言,除阿姆哈拉(Amhara)外,各地区半数以上的农民(仅45.3%)有外延联系(雷竞技网页版表2).检查表2各地区农民使用灌溉的比例普遍较低,提格雷地区比例最高(42.8%)。虽然埃塞俄比亚在发展灌溉方面有很好的潜力,但上述结果表明,每个地区的农民都没有高度重视灌溉。也许,这部分是因为灌溉需要长期的努力和大量的投资,由于缺乏技术和财政资源,不太可能在私人农民一级实施。上面给出的描述性结果还表明,与租用和/或租赁的农业用地相比,每个地区农民拥有私人农业用地的比例都很高。虽然作物土地的平均面积一般较小,但结果是表2揭示了大部分农民拥有农地。此外,结果在表2表明在每个地区作物的损失普遍很高。这可能导致每个地区的农民人均作物产量最低。
地区 | |||||||||
---|---|---|---|---|---|---|---|---|---|
提格雷 | 阿姆哈拉 | Oromia | SNNP | ||||||
变量 | N | 百分比 | N | 百分比 | N | 百分比 | N | 百分比 | |
扩展 | 是的 | 862 | 51.4 | 2792 | 45.3 | 4068 | 63.9 | 5050 | 62.5 |
雷竞技网页版 | 没有 | 814 | 48.6 | 3365 | 54.7 | 2303 | 36.1 | 3034 | 37.5 |
总计 | 1676 | One hundred. | 6157 | One hundred. | 6371 | One hundred. | 8084 | One hundred. | |
灌溉 | 是的 | 717 | 42.8 | 2498 | 40.6 | 2392 | 37.5 | 3415 | 42.2 |
应用 | 没有 | 959 | 57.2 | 3659 | 59.4 | 3979 | 62.5 | 4669 | 57.8 |
总计 | 1676 | One hundred. | 6157 | One hundred. | 6371 | One hundred. | 8084 | One hundred. | |
作物的损害 | 是的 | 1107 | 66.1 | 3721 | 60.4 | 3950 | 62 | 5152 | 63.7 |
没有 | 569 | 33.9 | 2436 | 39.6 | 2421 | 38 | 2932 | 36.3 | |
总计 | 1676 | One hundred. | 6157 | One hundred. | 6371 | One hundred. | 8084 | One hundred. | |
土地 | 私人 | 1167 | 69.6 | 4541 | 73.8 | 4552 | 71.4 | 5556 | 68.7 |
所有权类型 | 租金/租赁 | 509 | 30.4 | 1616 | 26.2 | 1819 | 28.6 | 2528 | 31.3 |
总计 | 1676 | One hundred. | 6157 | One hundred. | 6371 | One hundred. | 8084 | One hundred. |
表2:每个区域生产函数中包含的虚拟变量的总结。
因变量和自变量的关联
每个预测变量与响应变量之间的相关性使用皮尔逊相关系数进行。这样做是为了在考虑完整的生产函数之前,检查因变量和每个预测因子之间是否存在显著的关联。相关矩阵,显示在表3-6揭示除教育程度外,每个预测变量与响应变量均具有高度显著的正相关(p<0.0001)。事实上,SNNP区域的教育变量与响应变量存在高度显著的正相关(p<0.0001)。提格雷地区的教育变量在5%显著性水平下与应答无统计学显著性相关。但在Amhara和Oromia地区,同一变量与响应变量的正相关具有统计学意义(p < 0.01)。
刺激 | 建造 | Hsize | Fert | 重量 | 区域 | 牛 | |
---|---|---|---|---|---|---|---|
刺激 | 1 | -0.0072 | 0.6282 | 0.3506 | 0.62073 | 0.7162 | 0.261 |
- | 0.7679 | <。 | <。 | <。 | <。 | <。 | |
建造 | -0.0072 | 1 | 0.0006 | 0.0371 | -0.0008 | 0.00455 | 0.0226 |
0.7679 | - | 0.9818 | 0.1289 | 0.9742 | 0.8524 | 0.3557 | |
H大小 | 0.6282 | 0.0006 | 1 | 0.3711 | 0.81083 | 0.88705 | 0.2669 |
<。 | 0.9818 | - | <。 | <。 | <。 | <。 | |
Fert | 0.3506 | 0.0371 | 0.3711 | 1 | 0.41087 | 0.42512 | 0.1255 |
<。 | 0.1289 | <。 | - | <。 | <。 | <。 | |
重量 | 0.6207 | -0.0008 | 0.8108 | 0.4109 | 1 | 0.88697 | 0.2674 |
<。 | 0.9742 | <。 | <。 | - | <。 | <。 | |
区域 | 0.7162 | 0.00455 | 0.88705 | 0.4251 | 0.88697 | 1 | 0.2945 |
<。 | 0.8524 | <。 | <。 | <。 | - | <。 | |
牛 | 0.261 | 0.0226 | 0.2669 | 0.1255 | 0.2674 | 0.2945 | 1 |
<。 | 0.3557 | <。 | <。 | <。 | <。 | - |
表3:Tigray区域响应与预测变量之间的相关性矩阵。
刺激 | 牛 | 区域 | Fert | Hsize | 重量 | 建造 | |
---|---|---|---|---|---|---|---|
刺激 | 1 | 0.2818 | 0.6235 | 0.3985 | 0.2616 | 0.307 | 0.0375 |
- | <。 | <。 | <。 | <。 | <。 | 0.0033 | |
牛 | 0.2818 | 1 | 0.4359 | 0.2652 | 0.2939 | 0.2077 | 0.0171 |
<。 | - | <。 | <。 | <。 | <。 | 0.1793 | |
Areah | 0.6235 | 0.4359 | 1 | 0.3752 | 0.3197 | 0.3748 | 0.0565 |
<。 | <。 | - | <。 | <。 | <。 | <。 | |
Fert | 0.3985 | 0.2652 | 0.3752 | 1 | 0.1398 | 0.2815 | 0.0928 |
<。 | <。 | <。 | - | <。 | <。 | <。 | |
Hsize | 0.2616 | 0.2939 | 0.3197 | 0.1398 | 1 | 0.1451 | 0.0336 |
<。 | <。 | <。 | <。 | - | <。 | 0.0085 | |
重量 | 0.307 | 0.2077 | 0.3748 | 0.2815 | 0.1451 | 1 | 0.0672 |
<。 | <。 | <。 | <。 | <。 | - | <。 | |
建造 | 0.0375 | 0.0171 | 0.0565 | 0.0928 | 0.0336 | 0.0672 | 1 |
0.0033 | 0.1793 | <。 | <。 | 0.0085 | <。 | - |
表4:阿姆哈拉地区响应与预测变量之间的相关矩阵。
刺激 | 建造 | Hhsize | Fert | 重量 | 区域 | 牛 | |
---|---|---|---|---|---|---|---|
刺激 | 1 | 0.0473 | 0.213 | 0.3129 | 0.2538 | 0.4787 | 0.2574 |
- | 0.0002 | <。 | <。 | <。 | <。 | <。 | |
建造 | 0.0473 | 1 | 0.0924 | 0.0468 | 0.0335 | 0.0329 | 0.0448 |
0.0002 | - | <。 | 0.0002 | 0.0074 | 0.0087 | 0.0003 | |
Hhsize | 0.213 | 0.0924 | 1 | 0.1657 | 0.1782 | 0.3066 | 0.2704 |
<。 | <。 | - | <。 | <。 | <。 | <。 | |
Fert | 0.3129 | 0.0468 | 0.1657 | 1 | 0.5675 | 0.5014 | 0.3638 |
<。 | 0.0002 | <。 | - | <。 | <。 | <。 | |
重量 | 0.2538 | 0.0335 | 0.1782 | 0.5675 | 1 | 0.5792 | 0.3972 |
<。 | 0.0074 | <。 | <。 | - | <。 | <。 | |
区域 | 0.4787 | 0.0329 | 0.3066 | 0.5014 | 0.5792 | 1 | 0.4792 |
<。 | 0.0087 | <。 | <。 | <。 | - | <。 | |
牛 | 0.2574 | 0.0448 | 0.2704 | 0.3638 | 0.3972 | 0.4792 | 1 |
<。 | 0.0003 | <。 | <。 | <。 | <。 | - |
表5:奥罗米亚地区响应与预测变量之间的相关矩阵。
刺激 | 建造 | 牛 | 区域 | 重量 | Fert | Hsize | |
---|---|---|---|---|---|---|---|
刺激 | 1 | 0.1043 | 0.1446 | 0.1352 | 0.1025 | 0.1316 | 0.3347 |
- | <。 | <。 | <。 | <。 | <。 | <。 | |
建造 | 0.1043 | 1 | 0.0161 | 0.0421 | -0.0431 | 0.0381 | 0.1448 |
<。 | - | 0.1485 | 0.0002 | 0.0001 | 0.0006 | <。 | |
牛 | 0.1446 | 0.0161 | 1 | 0.0139 | 0.3053 | 0.3554 | 0.0812 |
<。 | 0.1485 | - | 0.2093 | <。 | <。 | <。 | |
区域 | 0.1352 | 0.0421 | 0.0139 | 1 | 0.1917 | 0.1108 | 0.1267 |
<。 | 0.0002 | 0.2093 | - | <。 | <。 | <。 | |
重量 | 0.1025 | -0.0431 | 0.3053 | 0.1917 | 1 | 0.4813 | 0.1384 |
<。 | 0.0001 | <。 | <。 | - | <。 | <。 | |
Fert | 0.1316 | 0.0381 | 0.3554 | 0.1108 | 0.4813 | 1 | 0.1156 |
<。 | 0.0006 | <。 | <。 | <。 | - | <。 | |
Hsize | 0.3347 | 0.1448 | 0.0812 | 0.1267 | 0.1384 | 0.1156 | 1 |
<。 | <。 | <。 | <。 | <。 | <。 | - |
表6:SNNP区域响应与预测变量之间的相关性矩阵。
虽然Tigray地区少数预测变量之间,即家庭规模、作物面积和种子重量之间的相关系数大于0.80,但相关矩阵表明,每对预测变量之间的相关性在每个地区普遍不高。
生产函数估计结果
由于可能很难完成其他回归技术,如鲁棒回归,而不至少隐含地涉及OLS回归,因此给出了OLS估计结果。由于参数估计(在符号和值上)的特殊性,每个区域的生产函数估计因区域而异。因此,分别给出了各区域拟合的统计模型。
普通最小二乘(OLS)估计
为了提供关于估计和进一步后果的一般见解,本节只提供奥罗米亚地区作物生产函数的OLS估计。在所有情况下,F检验结果证实模型具有统计学高度显著性(p < 0.0001)。另一方面,对OLS结果的粗略检查显示,一些参数估估与理论预期不一致。此外,每个参数估计的置信区间普遍较宽,标准误差也较大。这些共同促使一些重要变量的系数估计值在统计上不显著(表7-8).
源 | DF | 平方和 | 意思是广场 | F值 | Pr > F | |
---|---|---|---|---|---|---|
模型 | 10 | 1547.87370 | 154.78737 | 562.66 | <。 | |
错误 | 6360 | 1749.68430 | 0.27510 | - | ||
修正总 | 6370 | 3297.55800 | - | |||
根均方误差 | 0.52449 | r平方= 0.4694 | Durbin-Watson D = 1.842 | - | - | |
依赖的意思 | 3.28340 | Adj R-Sq = 0.4686 | - | |||
多项式系数Var | 15.97399 | - |
表7:奥罗米亚地区作物生产函数的方差分析及模型总结。
变量 | 标签 | DF | 参数 | 标准 | t 价值 |
Pr > |t| | 95%置信限 | ||
---|---|---|---|---|---|---|---|---|---|
估计 | 错误 | VIF | |||||||
拦截 | 拦截 | 1 | 2.37315 | 0.05662 | 41.91 | <。 | 2.2622 | 2.48415 | 0.0000 |
爱死 | 教育日志 | 1 | 0.01294 | 0.00963 | 1.34 | 0.1790 | -0.0059 | 0.03182 | 1.0182 |
韩 | 家庭规模的对数 | 1 | 0.04968 | 0.02128 | 2.34 | 0.0196 | 0.0079 | 0.09139 | 1.1230 |
LFERT | 肥料原木 | 1 | 0.05862 | 0.00880 | 6.66 | <。 | 0.0414 | 0.07588 | 1.6867 |
轻型 | 以千克为单位的种子对数 | 1 | -0.11250 | 0.01065 | -10.57 | <。 | -0.1334 | -0.09163 | 2.0248 |
LAREA | 作物面积对数 | 1 | 1.04057 | 0.02374 | 43.84 | <。 | 0.9940 | 1.08710 | 1.8779 |
液态氧 | 牛圆木 | 1 | 0.00380 | 0.02772 | 0.14 | 0.8909 | -0.0505 | 0.05815 | 1.3444 |
EXT2 | 扩展= 1 | 1 | -0.08659 | 0.01558 | -5.56 | <。 | -0.1171 | -0.05604 | 1.0586 |
IRRIG2 | 灌溉= 1 | 1 | -0.00824 | 0.01515 | -0.54 | 0.5865 | -0.0379 | 0.02146 | 1.0161 |
DAM2 | 伤害= 1 | 1 | 0.00898 | 0.01508 | 0.60 | 0.5515 | -0.0208 | 0.03853 | 1.0112 |
OWN2 | 所有权= 1 | 1 | 0.00824 | 0.01615 | 0.51 | 0.6098 | -0.0234 | 0.03991 | 1.0050 |
表8:奥罗米亚地区作物生产函数的OLS参数估计。
根据OLS估计,Oromia和SNNP地区作物生产函数中被纳入解释变量解释的变异占总变异的比例小于50% (R2< 0.50)。虽然统计上不显著,但提格雷地区生产函数中教育变量的系数估计值收到了一个与先验预期不同的信号。奥罗米亚地区外延接触变量的OLS估计出乎意料地为负。雷竞技网页版此外,在阿姆哈拉和奥罗米亚地区,关于可变耕牛数量的系数估计值在统计上是不显著的。提格雷、阿姆哈拉和奥罗米亚地区灌溉变量的OLS估计值虽然在统计上不显著,但有迹象表明与理论预期不同。这些理由表明,OLS估计不可能是表示实际投入产出关系的首选方法。因此,进行了统计模型诊断和检查,以确定哪些统计假设被违反,并据此进行可能的补救措施。
统计模型诊断与检验
正如在本研究的方法论部分所提出的那样,使用每个地区的作物生产数据彻底评估了线性、指数和柯布-道格拉斯三种不同的生产函数(模型)。为了简化模型诊断和检验的步骤,首先考虑的模型是线性生产函数(见式2),根据其背后的统计假设对线性模型进行拟合和诊断。在使用线性模型后,除了无自相关和无多重共线性的假设外,在许多区域生产函数中,几乎所有在方方法论部分所述的线性回归假设都被违背了。当然,这与生产函数的一般文献是一致的,在这种情况下,线性生产函数不被大多数人推荐作为可行的替代方案。
因此,进行了各种数学变换(对数、平方根和二次),至少使线性、正态性和齐次方差的假设成立。在这些转换中,对数形式比其他形式更受欢迎,因为它在响应被违背的假设、易于解释和与所提出的模型一致方面表现出色。当每个区域的线性生产函数中的响应变量转换为对数尺度并保持预测因子不变时,模型就变成了指数生产函数(见式5)。在该模型中,残差与预测值的关系图显示异方差已在一定程度上下降,模型接近于保持线性,但极端观测值的问题被高度识别。因此,为了可能缓解异方差、非线性和异常值的问题,进一步的转换是强制性的。因此,所做的转换是取每个预测变量的对数,考虑预测变量的叉乘,包括预测变量的多项式,合并预测变量的平方根和立方根。与上述原因类似,选择响应变量的对数回归到每个预测变量的对数上。也就是说,因变量和解释变量的转换导致柯布-道格拉斯生产函数的对数形式(见公式4)。尽管这些转换没有减少异常值的问题,但它们有助于进一步最小化可见的误差方差的异质性,从而导致接近线性。此外,在预测变量和响应变量的对数转换情况下,决定系数(R2)的值更高。鉴于上述解释,选择Cobb-Douglas模型对每个区域的作物生产函数进行进一步研究。
因此,对前一章讨论的所有假设进行Cobb-Douglas模型的对数形式检验(见式4)。利用vif值验证无多重共线性的统计假设。vif值均小于10,表明各区域作物生产函数的多重共线性不严重。利用Durbin-Watson统计量检验各区域生产函数中随机扰动项之间是否存在自相关。Tigray、Amhara、Oromia和SNNP地区的OLS回归的Durbin-Watson统计估计分别为1.81、1.78、1.842和1.768。由于所有这些值都在2附近徘徊,因此误差分量不是自相关的。每个区域生产函数的正态分位数-分位数图,证实了柯布-道格拉斯模型对数形式的正态假设是不满足的。这可能是由于数据受到了孤立病例的影响,这使得分布倾斜。OLS与预测值的非标准化残差图表明,误差项的方差不是同方差的,线性假设也不严格满足。
此外,采用最小二乘回归方法检验了离群值和杠杆点的存在性。基于LTS的结果表明,在每个地区的生产数据中都有许多孤立的情况。因此,我们使用改进的Goldfeld- Quandt (MGQ)检验进一步检验异方差性,以检查是否存在真实的异方差性,或者由于异常值的存在,误差似乎是异方差的(表9).
提格雷 | 阿姆哈拉 | Oromia | SNNP | |
---|---|---|---|---|
病例数(n) | 1676 | 6157 | 6371 | 8084 |
C | 176 | 257 | 371 | 484 |
MSDR2 | 0.0917 | 0.1017 | 0.16813 | 0.3831 |
MSDR1 | 0.0868 | 0.0973 | 0.1660 | 0.4128 |
MGQ | 1.0565 | 1.0452 | 1.0127 | 0.9281 |
变量X | 家庭规模 | 将牛 | 肥料 | 家庭规模 |
Fcrit (α = 0.05) | 1.1287 | 1.0626 | 1.0620 | 1.0549 |
注意:Fcrit (α =0.05)为分子自由度和分母自由度分别为(n-c-2x11)/2的F统计量的表格值。 |
表9:修正的Goldfeld-Quandt检验结果。
H0:误差方差是齐次的
H1:误差方差是异构的
α= 0.05
以上各区域误差分量的MGQ检验结果表明,各区域生产函数中的误差项不存在异方差。此外,非标准化鲁棒残差与预测值的图验证了误差不是异方差(附录A)。最重要的是,附录A中显示的图表明使用鲁棒回归后线性假设得到满足。最后,在稳健回归后,评估误差项的正态性假设。QQ图表明,在进行稳健回归后,实现了正态性假设。因此,作为最终模型估计的稳健回归估计如下所示。
稳健回归估计
异常值的存在是使用OLS方法进行参数估计可信度的核心问题。为此,采用鲁棒方法对回归方程进行重新估计,以调整离群值问题的影响。在鲁棒方法得到的结果中,R2值(总体拟合优度的汇总度量)较大,系数的标准误差较小,并且一般发现系数估计值与OLS方法不同。此外,每个参数估计的置信区间已经比从OLS中获得的置信区间窄。因此,这些结果证实,OLS估计由于出现异常值和/或杠杆点而具有误导性。
基于最小修剪二乘残差分析的重加权最小二乘算法具有鲁棒性和有效性,可用于生产函数参数的重估计。表10-13).
参数 | DF | 估计 | 标准错误 | 95%置信限 | 卡方 | 标准化Beta系数 | |
---|---|---|---|---|---|---|---|
拦截 | 1 | 0.9329 | 0.1055 | 0.726 | 1.1397 | 78.13 * | 0.0000 |
LnEduc | 1 | -0.0259 | 0.0203 | -0.0656 | 0.0138 | 1.63 | -0.0176 |
LnFer | 1 | 0.0486 | 0.0135 | 0.0221 | 0.0751 | 12.9 * | 0.0556 |
LnWt | 1 | 0.0718 | 0.029 | 0.015 | 0.1287 | 6.13 __ | 0.0675 |
LnOx | 1 | 0.1348 | 0.0444 | 0.0477 | 0.2219 | 9.2 * | 0.0437 |
LnAr | 1 | 1.735 | 0.0845 | 1.5694 | 1.9006 | 421.5 * | 0.7418 |
五星级 | 1 | 0.1273 | 0.0293 | 0.0699 | 0.1848 | 18.88 * | 0.0598 |
Ext | 1 | 0.0357 | 0.0193 | -0.0022 | 0.0736 | 3.40‡ | 0.0222 |
Irr | 1 | -0.0125 | 0.0225 | -0.0565 | 0.0315 | 0.31 | -0.0077 |
大坝 | 1 | -0.0687 | 0.0269 | -0.1215 | -0.0159 | 6.51 __ | -0.0404 |
自己的 | 1 | -0.006 | 0.024 | -0.0531 | 0.0411 | 0.06 | -0.0034 |
规模 | 0 | 0.4446 | - | - | - | - | - |
注意:* = p < 0.01显著;†= p < 0.05显著;‡= p < 0.1时显著 |
表10:Tigray地区最终WLS拟合的参数估计和相关统计。
参数 | DF | 估计 | 标准错误 | 95%置信限 | 卡方 | 标准化Beta系数 | |
---|---|---|---|---|---|---|---|
拦截 | 1 | 1.3456 | 0.0461 | 1.2553 | 1.436 | 852.07 * | 0.0000 |
LnOx | 1 | 0.0373 | 0.0178 | 0.0204 | 0.0722 | 4.39 __ | 0.0157 |
LnAr | 1 | 1.3585 | 0.0247 | 1.31 | 1.407 | 3014.96 * | 0.5918 |
LnFer | 1 | 0.0571 | 0.0037 | 0.0498 | 0.0645 | 232.66 * | 0.1454 |
五星级 | 1 | 0.1056 | 0.0213 | 0.0638 | 0.1474 | 24.49 * | 0.0425 |
LnWt | 1 | 0.0212 | 0.0081 | 0.0052 | 0.0371 | 6.79 * | 0.0259 |
LnEduc | 1 | -0.0231 | 0.015 | -0.0525 | 0.0063 | 2.36 | -0.0123 |
Ext | 1 | 0.0254 | 0.0157 | -0.0053 | 0.0561 | 2.63 | 0.0145 |
Irr | 1 | -0.0071 | 0.0143 | -0.0351 | 0.0208 | 0.25 | -0.0039 |
大坝 | 1 | -0.0616 | 0.0283 | -0.1172 | -0.0061 | 4.74 __ | -0.0344 |
自己的 | 1 | 0.0199 | 0.0158 | -0.0111 | 0.0508 | 1.58 | 0.0100 |
规模 | 0 | 0.5351 | |||||
注意:* = p < 0.01显著;†= p < 0.05显著;且*** = p < 0.1时显著 R2= 0.5791= 1.5797 |
表11:Amhara地区最终WLS拟合的参数估计和相关统计。
参数 | DF | 估计 | 标准错误 | 95%置信限 | 卡方 | 标准化Beta系数 | |
---|---|---|---|---|---|---|---|
拦截 | 1 | 2.4652 | 0.0536 | 2.3601 | 2.5703 | 2114.02 * | 0.0000 |
LnEduc | 1 | 0.0181 | 0.0091 | 0.0003 | 0.0358 | 3.96 __ | 0.0192 |
五星级 | 1 | 0.0497 | 0.0201 | 0.0104 | 0.089 | 6.14 __ | 0.0250 |
LnFer | 1 | 0.0516 | 0.0084 | 0.0352 | 0.068 | 37.99 * | 0.0769 |
LnWt | 1 | -0.1283 | 0.01 | -0.148 | -0.1086 | 163.17 * | -0.1735 |
LnAr | 1 | 1.0251 | 0.0226 | 0.9809 | 1.0693 | 2064.28 * | 0.5986 |
LnOx | 1 | 0.0479 | 0.0261 | -0.0034 | 0.0991 | 3.35‡ | 0.0203 |
Ext | 1 | -0.0934 | 0.0147 | -0.1222 | -0.0646 | 40.43 * | -0.0624 |
Irr | 1 | 0.004 | 0.0143 | -0.024 | 0.032 | 0.08 | 0.0027 |
大坝 | 1 | 0.0034 | 0.0142 | -0.0245 | 0.0313 | 0.06 | 0.0023 |
自己的 | 1 | 0.0053 | 0.0152 | -0.0245 | 0.0352 | 0.12 | 0.0033 |
规模 | 0 | 0.5443 | - | - | - | - | - |
注意:* = p < 0.01显著;†= p < 0.05显著;‡= p < 0.1时显著 R2= 0.5193= 1.0641 |
表12:奥罗米亚地区最终WLS拟合的参数估计和相关统计。
参数 | DF | 估计 | 标准错误 | 95%置信限 | 卡方 | 标准化Beta系数 | |
---|---|---|---|---|---|---|---|
拦截 | 1 | 1.3236 | 0.0599 | 1.2062 | 1.4411 | 487.66 * | 0.0000 |
五星级 | 1 | 0.7804 | 0.025 | 0.7313 | 0.8294 | 972.67 * | 0.3088 |
LnFer | 1 | -0.0046 | 0.0117 | -0.0275 | 0.0182 | 0.16 | -0.0068 |
LnWt | 1 | -0.1194 | 0.0441 | -0.2058 | -0.0329 | 7.33 * | -0.1344 |
LnAr | 1 | 0.6102 | 0.0267 | 0.5578 | 0.6626 | 521.12 * | 0.2451 |
LnOx | 1 | 0.1182 | 0.023 | 0.0731 | 0.1633 | 26.36 * | 0.0627 |
LnEduc | 1 | 0.0842 | 0.013 | 0.0587 | 0.1096 | 41.89 * | 0.0602 |
Ext | 1 | 0.0513 | 0.0204 | 0.0114 | 0.0913 | 6.33 __ | 0.0233 |
Irr | 1 | -0.0303 | 0.024 | -0.0774 | 0.0168 | 1.59 | -0.0140 |
大坝 | 1 | -0.0682 | 0.0259 | -0.119 | -0.0174 | 6.93 * | -0.0308 |
自己的 | 1 | -0.0524 | 0.0251 | -0.1017 | -0.0031 | 4.34 __ | -0.0228 |
规模 | 0 | 0.858 | - | - | - | - | - |
请注意: * = p < 0.01时显著;†= p < 0.05显著;且*** = p < 0.1时显著 R2= 0.5328= 1.4736 因变量是生产Ln,单位是每农民, 在那里, Ln =一个量的自然对数; Hs =每户总人口数; 牛=每户拥有的耕牛总数; 农业用地面积,单位为公顷; 化肥施用量,单位为千克; Wt =改良和/或非改良种子的重量,单位为Kg; Educ =户主获得的教育(最高等级); Ext =有外延接触的农民得分为1,其他为0的虚拟变量;雷竞技网页版 Irr =对农田进行灌溉的农民得分为1,否则为0; Own =土地所有权类型为私有的虚拟变量得分1,土地所有权类型为出租/租赁的虚拟变量得分0; 是连续预测变量(变量输入)的系数估计的和。 |
表13:最终WLS的参数估计和相关统计适合SNNP区域
回归系数的讨论与解释
如前所述,异常值的出现是每个区域生产数据的主要问题。因此,采用LTS残差回归(稳健回归)迭代重加权最小二乘方法来处理这一问题。回归分析表明,在本研究中考虑的区域中,具有统计学意义的参数数量有所不同。然而,f检验结果显示,各区域的整体回归模型具有统计学意义。估计的生产函数能够较好地拟合每个区域的观测数据,如R2大于0.50,说明作物产量变化的50%以上是由所包含的解释变量解释的。这个性能很好;但是,可以通过加入农民能力和降水量等变量来改进模型。在大多数研究区,农用地面积、种子施用量、耕牛数和每户个体数变量具有统计学意义[17,18](这些结果与Addis et. al, 2001;威尔和奈特,2000年;Yao, 1996; Yohannes和Coffin, 1993)。这些系数在估计生产函数中的统计显著性表明,这些变量是作物生产中最重要的投入,需要特别注意。
Tigray地区的生产函数估计结果表明,在其他变量不变的情况下,每户平均人口增加1%,作物平均产量增加0.13%。在保持其他变量不变的情况下,平均作物面积每增加1%,平均作物产量就增加1.74%。耕牛数对投入增加1%的产量响应为0.13%,说明耕牛数对产量最大化的贡献不高。这部分是因为每个私人农民拥有的耕牛的平均数量很少(平均不到2头)。此外,肥料和种子变量的系数估计值在统计上具有显著性,这意味着作物产量随着这些投入的增加而增加。施肥量每增加10%,作物产量增加0.49%。此外,提格雷地区教育变量估计系数无统计学意义。这意味着该地区的农民不能再将他们从教育中获得的技能用于作物生产系统。这当然与他们的教育水平低有关(平均年级水平不到三年级)。
此外,标准化beta系数表明,在Tigray地区,作物土地面积依次为种子重量、劳动力参与(每户人数)、使用化肥和耕牛对每户作物产量最大化有许多贡献。
作为虚拟变量输入的外延接触和作物损害变量的估计系数具有统计学意义。雷竞技网页版变量推广接触的系数估计值为正,表明参与农业推广计划的农民的作物产量高于未参与农业推广计划的农民。雷竞技网页版然而,对可变作物损害的系数估计为-0.0687,表明面临作物损害的农民预期作物产量下降百分比为6.87%。换句话说,这一结果表明,如果Tigray地区的每个农民在其他变量相同的情况下,面临作物损害的农民比没有遭受损害的农民减产约6.87%。
综上所述,基于Tigray地区农作物农场的重加权最小二乘(Reweighted Least Squares, RLS)回归估计结果,可以得出一些结论。首先,作物生产主要由三个主要因素决定:农业用地、人力和种子。其次,肥料和耕牛功率对作物产量的影响具有统计学意义,说明除了上述三大因素外,作物产量还取决于每户拥有的耕牛数量和肥料。最后,没有遭受作物损害的农民比遭受作物损害的农民产量更高;由于作物不断受到一些自然或人为灾害的破坏,这种情况又可能导致该地区作物产量最低。
在阿姆哈拉地区的稳健回归估计中,除教育和灌溉变量外,其他系数均具有预期的先验符号。农用地面积的标准化beta系数最高,为0.5918。这表明,该地区的作物生产高度依赖于农业用地面积。在其他变量影响不变的情况下,作物产量的系数估计值为1.3585,表明农业用地面积每增加1%,作物产量将增加1.3585%。在该地区,牛功率、肥料、种子和人力对作物产量产生积极影响的变量也得到了类似的结果。在这些变量的系数估计值中,肥料的贡献最高(标准化beta系数= 0.1454),其次是人力劳动、种子和耕牛。因此,在其他变量中,这些变量对提高作物产量起着关键作用。特别是,化肥等投入的重要性源于这样一个事实,即化肥是主要的土地扩大投入,通过提高农业土地的肥力和生产力来提高作物产量。
教育变量估计系数对阿姆哈拉地区农作物产量无显著影响。这个变量的不显著性是由于受教育的比例和水平,即只有少数农民受过教育,甚至在这些农民中,平均教育水平也没有超过2级。Amhara地区农田作物损害变量与作物产量呈显著负相关(p < 0.05)。-0.0616的系数估计值表明,面临作物损害的农民的产量比没有保持其他因素不变的农民少6.16%。然而,灌溉和扩张对作物产量的估计系数没有统计学上的显著贡献。这实际上与描述性结果一致(不到50%的农民使用灌溉并有推广联系)。雷竞技网页版
Oromia地区农业用地面积的系数估计值为正,具有极显著的统计学意义(p < 0.01),表明农业用地面积对作物产量有正向影响。在其他因素不变的情况下,农业用地面积每增加1%,作物产量就会增加约1.03%。同样,肥料、教育和耕牛力对作物产量的贡献在统计上是显著的,尽管系数的大小非常小,即不到作物总产量的6%可以用这三者中的任何一个来解释。教育变量的正向显著效应表明,受正规教育年限越长的农民,每公顷作物产量越高,这可能是由于他们获得技术知识的能力增强,这有助于他们专注于最佳投入产出组合。此外,受过一定教育的农民对使用改良技术(如施用化肥、使用农药和改良种植材料)反应迅速。
在Oromia地区,种子重量系数在1%水平上为负且有统计学意义,说明种子重量的增加降低了作物产量。这可能是由于改良/非改良种子的重量增加到一定程度后,作物产量随重量的增加成比例增加,但随后开始下降。另一个可能的原因是,该地区的农民可能大多使用非改良种子,这样作物产量可能不会随着种子数量的增加而增加。
虽然扩展接触变量的符号为负,但它对Oromia地区作物产量的雷竞技网页版贡献具有统计学意义(p < 0.01)。有外延接触者的作物平均产量(30.69公担)小于雷竞技网页版无外延接触者的作物平均产量(36.79公担),与外延接触变量的符号一致。这可能与农业推广服务提供者没有适当地为农民提供服务有关。另一方面,灌溉变量的标准化beta系数较小,不具有统计学意义。这可能与埃塞俄比亚在调查年度内雨量普遍分布均匀和及时有关[19这样就不会因为水的可用性而观察到产量差异。
在SNNP地区,耕地、人力、耕牛、教育和种子对作物产量的影响具有统计学意义。除种子变量系数外,其余系数均为正。人工劳动的标准化beta系数(0.3088)最高。这意味着人力劳动是该地区作物产量最大化的主要投入。在其他变量不变的情况下,每户平均人数增加1%,作物产量增加0.78%。这一结果当然不同于其他作物面积系数估计值最高的地区。人类劳动变量的最高系数估计值背后的可能原因是,该地区处于经济工作年龄(15 - 64岁)的个体比例很大,为49.7% [20.].因此,他们高度有效地参与了农业实践。
虽然一般认为农田施肥对作物增产作用较大,但在SNNP地区,其贡献不具有统计学意义,且与理论预期有显著差异。化肥变量的不显著性可能是由于与其余区域相比,平均用量最小(27.04 Kg)。
在SNNP区域,除灌溉外,所有变量的系数估计值都具有统计学意义,并具有预期的先验迹象。与理论预期相反,灌溉变量的系数估计值为负,这意味着使用灌溉的农民比不使用灌溉的农民产量更少。这可能是由于缺乏足够的知识,在田间不适当地用水造成的。
总之,产出的变化相对于单位投入的变化,柯布-道格拉斯函数的生产弹性与估计模型的系数相同。因此,除了Tigray、Amhara和Oromia地区的作物面积分别为1.7350、1.3585和1.0251外,其他地区各投入的生产弹性均小于1。这表明,除了上述地区的作物面积外,投入和产出之间的关系是非弹性的。也就是说,在保持其他因素不变的情况下,每个因素的边际回报率会随着使用因素的增加而下降。Tigray、Amhara和Oromia地区种植区的生产弹性意味着最大的技术效率。此外,规模回报系数是通过将可变投入(在特定时期内随产量变化的投入(如化肥、种子、燃料、收获劳动力等)的估计系数相加而得到的,埃利斯,1994,第42页),对于每个表明规模回报增加的区域而言,这些系数大于单位。从这些结果可以得出,所有生产要素每增加1%,作物产量就会增加1%百分比。事实上,只有当农民在每一个投入要素上都能做出相应的改变时,这才成立。为此,关于收益递增的发现与规模收益递增发生在相对较低的产出水平(这是小规模农业的特征)的说法完全一致[21-23].
本文采用稳健回归方法对埃塞俄比亚Tigray、Amhara、Oromia和SNNP四个主要农作物产区进行生产函数分析。首先,提出了三个生产函数(线性、指数和Cobb-Douglas),但统计模型诊断和检验以及先验理论预期表明,每个地区的作物生产函数都被Cobb-Douglas生产函数所适当地表示。这实际上与文献一致。
总的来说,每个地区的统计结果表明,农场规模、化肥、种子使用、耕牛力和人力对作物产量最大化起着关键作用。从这些变量中发现,在SNNP例外的每个地区,最大的贡献是由于农场规模(最高的标准化beta系数),其中很大一部分是由于人类劳动。然而,由于人口增长,扩大农场规模的可能性是不现实的,只有通过劳动力的有效参与和现代农业实践的有效利用,才能实现土地生产力的最大化。这包括教育农民(提供正规教育或短期培训,重点是明智地使用农业投入),加强杀虫剂和农药的使用,增加化肥的施用,增加灌溉面积和更大程度地扩大农业推广服务。这一分析的结论与ADLI战略中确定的政策方向有很强的一致性。这篇分析的结论真正要说明的是,现代农业投入和实践的扩大必须尽可能扩大。
为此,在许多地区,肥料对显著的作物产量反应的贡献被观察到是良好的(见标准化beta系数)表10- - - - - -13).令人惊讶的是,SNNP区域的系数估计在统计学上不显著。这表明,SNNP地区的农民施用化肥的程度最低(平均用量当然是27.04 Kg),或者根本不施用化肥。这背后的原因可能是缺乏及时向农场提供肥料的运输设施,经济上无法负担肥料的成本,以及不愿意施用化肥,这些都与一些不科学的理由有关。
在Tigray和Amhara地区,教育对作物产量最大化的贡献不显著。这是因为农民几乎是文盲(平均正规教育年限不到三年),因此他们不再轻易成为志愿者,至少在接受现代农业投入(如施用改良种子和化肥)方面是如此。这最终导致该地区每公顷作物产量最低。
在生产函数中输入的虚拟变量中,延伸接触对Tigray和SNNP地区作物产量有显著的正向影响,而对Oromia地区有显著的负向影响。雷竞技网页版推广接触的负面信号意味着政策制定者和农业与农村发展部应尽最大努力雷竞技网页版减轻推广对奥罗米亚地区作物生产力的负面影响。虽然统计上不显著,但除奥罗米亚外,每个研究区域灌溉变量的系数估计值为负。该变量的不显著性可能与使用灌溉的农民比例较小有关(表1).此外,由于缺乏良好的知识,在农场上不适当的用水可能导致灌溉变量为负号。除奥罗米亚外,作物受到的损害可能包括易受干旱、洪水和作物病毒的影响,这是每个研究区域作物产量下降的基本问题。
到目前为止,在埃塞俄比亚农业中,作物和牲畜生产是交织在一起的,因此不可能在本研究中分别为作物生产获得每个变量的值。因此,分析中获得的数据更加聚合。因此,我们认为,如果有可能获得/收集单独的作物耕作系统的可测量数据,本研究为该领域的进一步研究开辟了一条可能的途径。