第⼆章统计数据的搜集与整理第⼀节数据的计量与类型
统计研究客观事物的数量⽅⾯,离不开统计数据,统计数据是对客观现象进⾏计量的结果。对统计数据的属性、特征进⾏分类、标⽰和计算,称为统计测定或统计度量,有定性测定和定量测定之别,并且可分不同的层次。根据计量学的⼀般分类⽅法,按照对事物计量的精确程度,可将所采⽤的计量尺度由低级到⾼级、由粗略到精确分为四个层次,即:定类尺度、定序尺度、定距尺度和定⽐尺度。采⽤不同计量尺度可以得到不同类型的统计数据,⽽不同类型的逃难数据⼜适⽤于不同的统计分析⽅法。
⼀、数据的计量尺度
(⼀)、定类尺度(Nominal scale)
定类尺度也称类别尺度或列名尺度,是最粗略、计量层次最低的计量尺度。它只能按照事物的某种属性对其进⾏平⾏的分类或分组。使⽤该尺度对事物所作的分类,各类别之间是平等的并列关系,⽆法区分优劣或⼤⼩,各类别之间的顺序是可以改变的。由于定类尺度只能区分事物是同类或不同类因此它具有=或≠的数学特性。定类尺度是对事物最基本的测度,是其他计量尺度的基础。
要求:必须符合穷尽性和互斥性的要求。(⼆)定序尺度(Ordinal scale)
定序尺度⼜称顺序尺度,是对事物之间等级差或顺序差别的⼀种测度。它不仅可以竟事物分成不同的类别,⽽且还可以确定这些类别的优劣或顺序。定序尺度对事物的计量要⽐定类尺度精确些,但它也只测度了类别之间的顺序,⽽未测量出类别之间的准确差值。因此该尺度具有>和<的数学性质,当然也包括了定类尺度的特性,其计量结果不仅能对事物分门别类,还可以⽐较⼤⼩,但不能进⾏加、减、乘、除等数学运算。(三)定距尺度(Interval scale)
定距尺度也称间隔尺度,它不仅能将事物区分为不同类型并进⾏排序,⽽且可以准确地指出类别之间的差距是多少。它是对事物类别或次序之间间距的测度,通常使⽤⾃然或度量衡单位作为计量尺度,计算结果表现为数值。由于这种尺度的每⼀间隔都是相等的,只要给出⼀个计量单位,就可以准确地指出两个计数之间的差值。它不仅具有定类尺度和定序尺度的特性,其结果还可以进⾏加、减运算。(四)定⽐尺度(Ratio scale)
定⽐尺度也称为⽐率尺度,它与定距尺度属于⼀个层次,⼀般可不作区分,其计量的结果也表⽰为数值。它除了句要上述三种计量尺度的全部特性外,还可以计算两个测度值之间的⽐值。这就要求定⽐尺度中必须有⼀个绝对固定的“零点”,这也是它与定距尺度的唯⼀差别。因此采⽤定⽐尺度计量的结果通常不会出现“0”值。现实⽣活中,⼤多数情况下使⽤的都是定⽐尺度。定距尺度和定⽐尺度的区别可以形象的⽐喻为:定距尺度是从桌⾯上开始测量⾼度,定⽐尺度则是从地⾯上开始测量⾼度。定⽐尺度中由于“0”表⽰不存在,因⽽其数值不仅可以⽐较⼤⼩、计算差值,还可以计算数值之间的⽐值。它可以进⾏加、减、乘、除运算。
⼆、数据的类型和分析⽅法(⼀)数据类型与分析⽅法
统计数据是采⽤某种计量尺度对事物进⾏计量的结果,采⽤不同的计量尺度会得到不同类型的统计数据,有以下四种类型:定类数据:表现为类别,但不区分顺序,是有定类尺度计量形成的。定序数据:表现为类别,但有顺序,是有定序尺度计量形成的。定距数据:表现为数值,可进⾏加、减运算,是由定距尺度计量形成的。
定⽐数据:表现为数值,可进⾏加、减、乘、除运算,是由定⽐尺度计量形成的。
前两类数据说明的是事物的品质特征,不能⽤数值表⽰,其结果均表现为类别,也称为定性数据或品质数据(Qualitativedata);后两类数据说明的是现象的数量特征,能够⽤数值来表现,也称为定量数据或数量数据(Quantitaive date)。由于定距尺度和定⽐尺度属于同⼀测度层次,所可以把后两种数据看作是同⼀类数据,统称为定量数据或数值型数据。
特别指出:适⽤于低层次测量数据的统计⽅法,也适⽤于较⾼层次的测量数据,因为后者具有前者的数学特性;反之,适于较⾼层次测量数据的统计⽅法,则不能⽤于较低层次的测量数据,因为低层次数据不具有⾼层次测量数据的数学特性。(⼆)变量及其类型
在统计中,把说明现象某种特征的概念称为变量(Variable),变量的具体表现称为变量值。统计数据就是统计变量的具体表现,变量可分为以下⼏种类型:
1、定类变量(Nominal variable)。如果⼀个变量由定类数据来计录就称为定类变量。如……2、定序变量(Ordinal variable)。如果⼀个变量由定序数据来计录就称为定序变量。如……3、数字变量(Numerical variable)。如果⼀个变量由数量数据来计录就称为数字变量。如……三、统计调查的种类
(⼀)按调查的组织⽅式不同,分为统计报表和专门调查。
(⼆)根据调查对象包括的范围不同,分为全⾯调查和⾮全⾯调查。全⾯调查即对调查对象的全部单位⽆⼀例外的进⾏调查,它⼜包括全⾯统计报表的普查;⾮全⾯调查即对调查对象中的⼀部分单位进⾏调查,包括抽样调查、重点调查、典型调查和⾮全⾯统计报表。
(三)按调查登记时间连续与否,分为经常性调查和⼀次性调查。经常性调查也称连续性调查,是指随着被研究现象的变化,连续不断地进⾏登记,以取得这些现象在⼀段时期内发展的总量。⼀次性调查⼜称不连续性调查,是指对被研究现象每间隔异端相当长的时间所进⾏的登记,以取得这些现象在⼀定时点状况上的总量。
(四)按搜集资料的⽅法不同,分为直接观察法、凭证(报告)法、询问(采访)法。直接观察法由调查⼈员亲临现场对被调查单位进⾏观察、点数、计量;凭证法是以各种原始记录和核算凭证为基础,依据统⼀的表格形式和要求,按照⾪书关系逐机向有关部门提供统计资料的⽅法;询问法只指派调查员对被调查者询问、采访,提出所要了解的问题,根据被调查者的答复来搜集统计资料的⽅法。第⼆节统计数据搜集的组织形式
统计数据主要来源于两种渠道:⼀是直接的调查和科学实验;⼆是别⼈调查和科学实验。⼀、统计数据的直接来源
统计数据的直接来源是指由直接的调查和科学实验获得第⼀⼿资料,主要有两个渠道:专门组织的调查和科学试验。(⼀)统计调查⽅式
统计调查是取得时候经济数据的主要来源,也是获得直接统计数据的重要⼿段。常⽤的统计调查⽅式有以下⼏种:
1、普查。普查市委某⼀特定⽬的⽽专门组织的⼀次性全⾯调查,如……,它是使⽤于特定⽬的、特定对象的⼀种调查⽅式,主要⽤于搜集处于某⼀时点状态上的社会经济现象的数量,摸底是掌握特定社会经济现象的基本全貌,为国家提供有关政策或措施提供依据。
普查的特点:(1)普查通常是⼀次性的或周期性的;(2)普查⼀般须要规定统⼀的标准时点;(3)普查的数据⼀般⽐较准确,规范化程度较⾼,可以为其它调查提供依据;(4)普查的使⽤范围⽐较窄,只能调查⼀些最基本及特定的现象。2、统计报表。统计报表是所统计数据的⼀种重要形式,在我国⼏⼗年的政府统计⼯作中,已形成了⼀整套⽐较完备的统计报表制度,它已成为国家和地⽅政府部门统计数据的主要来源。统计报表是按国家有关法规的规定,⾃上⽽下地统⼀布置、⾃下⽽上地逐级提供基本统计数据的⼀种调查⽅式。它要以⼀定的圆熟数据为基础,按照统⼀的表式、统⼀的指标、统⼀的报送时间和报送程序进⾏填报。
种类:按调查对象所包括的范围不同可分为全⾯报表和⾮全⾯报表;按报送时间不同可分为⽇报、⽉报、季报、半年报和年报等;按报表的内容和实施范围的不同可分为国家统计报表(国民经济基本统计报表)、部门统计报表和地⽅统计报表;按填报单位不同,可分为基层统计报表和综合统计报表等优点:统计数据的统⼀性和时效性、全⾯性、连续性、相对可靠性。3、抽样调查。它是实际中应⽤最⼴泛的⼀种调查⽅式和⽅法,它是从调查对象的总体中随机抽取⼀部分单位作为样本进⾏调查,并根据样本调查的结果来推断总体数量特征的⼀种⾮全⾯调查。
抽样调查的特点:(1)经济性;(2)时效性强;适⽤⾯⼴;(4)准确性⾼。
4、重点调查。它是专门组织的⼀种⾮全⾯调查,它是在调查对象中只选择⼀部分重点单位所进⾏的调查,借以了解总体的基本情况。
重点单位:是指在总体中具有举⾜轻重的地位的单位。这些单位虽然数⽬较少,但就调查的标志值来说在懊恼共同标志总量中占有绝⼤的⽐重,能够反映出总体的基本情况。如……,它可以四⼀次性调查也可以是经常性调查。通常情况下,可以同统计报表制度想结合,采⽤统计报表取得所需要的资料。
5、典型调查。它也是专门组织的⼀种⾮全⾯调查,它是根据调查研究的⽬的和要求,在对总体进⾏全⾯分析的基础上,有意识地选择其中有代表性的典型单位进⾏深⼊细致的调查,借以认识事物的本质特征、因果关系和发展变化的趋势。典型单位:是指那些最充分、最集中地体现总体某⼀⽅⾯共性的单位。
选典的⽅法:(1)“解剖⿇雀”式的⽅法。它适⽤于总体内各单位差别不太⼤的情况。通过对个别代表性单位的调查,即可估计总体的⼀般情况。(2)“划类选典”的⽅法。总体内部差异明显,但可以划分出若⼲个类型组,使各类型组内部差异较⼩。从各类性组中抽选⼀两个具有代表性的单位进⾏调查,即为划类选典。(3)“抓两头”的⽅法。既分别从先进单位和落后单位中选择典型,以便总结经验和教训,带动中间状态的单位,推动整体的发展。(⼆)数据的搜集⽅法
数据的搜集⽅法即统计调查⽅法可分为两⼤类:询问调查和观察实验。
1、询问调查。是调查者与被调查者直接或间接接触以获得数据的⼀种⽅法。具体包括:
(1)访问调查。访问调查⼜称派员调查,是调查者与被调查者通过⾯对⾯地交谈从⽽得到所需统计资料的调查⽅法。其调查的⽅式有标准式访问和⾮标准式访问两种。标准式访问⼜称结构式访问,是按照调查⼈员事先设计好的、有固定格式的标准化问卷或表格,有顺序的依次提问,并由受访者作出回答。⾮标准式访问⼜称⾮结构式访问,是由调查⼈员给被调查者⼀个题⽬或提纲,由调查⼈员和受访者⾃由交谈,以获得所需资料。
(2)邮寄调查。是通过邮寄或宣传媒体等⽅式将调查表或调查问卷送⾄被调查者⼿中,由被调查者填写,然后将调查表寄回或投放到指定收集点的⼀种调查⽅法。它是⼀种标准化调查,其特点是,调查⼈员和被调查者没有直接的语⾔交流,信息的传递完全依赖于调查表。邮寄调查的问卷或表格发放⽅式有邮寄、宣传媒介传送、专门场所分发三种。
(3)电话调查。是调查⼈员利⽤电话同受访者进⾏语⾔交流,从⽽获得信息的⼀种⽅式。它具有时效快、费⽤低的特点。电话调查所提问题要明确,问题数量不宜过多。
(4)电脑辅助调查。电脑不仅可以完成调查数据的处理,⽽且整个调查过程,包括问卷的设计和显⽰、样本设计、数据处理等也多可以由电脑来控制和完成。电脑辅助调查也称为电脑辅助电话调查,是在电话调查时,调查的问卷、答案都有计算机显⽰,整个调查过程,包括拨号、调查记录、数据处理等也都借助于计算机来完成。
(5)座谈会。也称为集体访谈法,是将⼀组被调查者集中在调查现场,让他们对对调查的主题发表意见,从⽽获取调查资料的⽅法。这种⽅法适⽤于搜集与研究课题有密切关系的少数⼈员的倾向和意见。参加座谈会的⼈员不宜太多,通常为6—10⼈,并且是所调查问题的专家或有经验的⼈员。优点:取得的意见较为⼴泛、深⼊,且不会遭到拒访。
(6)个别深度访问。深度访问是⼀种依次只有⼀名受访者参加的特殊的定
性研究。它要求不断深⼊的受访者的思想当中,努⼒发掘其⾏为的真实动机。是⼀种⽆结构的个⼈访问,常⽤于动机研究。2、观察与实验。观察与实验是调查者通过直接的观察或实验获得数据的⼀种⽅法。
(1)观察法。是指就调查对象的⾏动和意识,调查⼈员边观察边记录以收集信息的⽅法。它是⼀种可代替直接发问的⽅法。采⽤此⽅法,常常能够在被观察者不易觉察的情况下获得信息资料。
(2)实验法。是⼀种特殊的观察调查⽅法,它是在所设定的特殊实验场所、特殊状态下,对调查对象进⾏实验以取得所需资料的⼀种调查⽅法。有室内实验法和时常实验法两种。⼆、统计数据的间接来源
是指通过其他渠道获取别⼈调查或科学实验的第⼆⼿数据。第⼆⼿数据主要是公开出版的或公开报道的数据,当然也有些是尚未公开的数据。还可以在⽹络上获取所需要的统计数据。如……
注意:利⽤第⼆⼿数据对使⽤者来说既经济⼜⽅便,但使⽤时应注意统计数据的含义、计算⼝径和计算⽅法,以避免误⽤或滥⽤。同时,在引⽤第⼆⼿数据时,⼀定要注明数据的来源,以尊重他⼈的劳动成果。
第三节统计调查⽅案
在进⾏统计调查之前,需要制定⼀个周密、完整的调查⽅案,使调查得以顺利的实施和完成。不同调查的调查⽅案在内容和形式上回⼀定的差别,但总体上看,⼀个完整的统计调查⽅案,⾄少应回答或解决以下⼏个⽅⾯的问题(五个“W”,⼀个“H”)。为什么进⾏调查、向谁调查、调查什么、何时调查、调查何时、怎样调查。⼀、确定调查⽬的
调查⽬的是调查所要达到的具体⽬标,它所回答的是为什么调查,要解决什么样的问题,调查具有什么样的社会经济意义等。调查⽬的的写作要简明扼要。如……⼆、确定调查对象和调查单位
调查对象是根据调查⽬的确定的调查研究的总体或调查范围。调查单位是构成调查对象的每⼀个单位,它是调查项⽬和指标的承担者或载体,是搜集数据、分析数据的基本单位。调查对象和单位所解决的是向谁调查,由谁提供所需数据的问题。如……。在实际调查中,调查单位可以是调查对象的全部单位,也可以是部分单位。三、设计调查项⽬和调查表
即回答调查什么的问题,调查项⽬是调查的具体内容,可以是调查单位的数量特征,业可以是调查单位的某种属性或品质特征。
调查项⽬通常以表格的形式来表现,称为调查表。它是⽤于登记调查数据的⼀种表格,⼀般由表头、表体和表外附加三部分组成。表头是调查表的名称,⽤来说明调查表的内容、被调查单位的名称、性质、⾪属关系等;表体是调查表的主要部分,包括调查的具体项⽬;表外附加通常有填表⼈签名、填表⽇期、填表说明等内容组成。举例。
调查表⼀般有单⼀表和⼀览表两种形式。四、调查时间与调查⽅法
调查时间包括两个⽅⾯的涵义:⼀是统计资料所属的时间,踏回答的是“调查何时”的问题;另⼀个是统计调查的⼯作时间,它回答的是“何时调查”的问题,它是⼀个时间段的概念,是指从搜集资料开始起,到将资料报送到调查⽅案所规定的部门和机构为⽌的整个调查⼯作所需要的时间。举例。五、调查⼯作的组织实施计划
调查的组织与实施⼯作具体包括:调查⼈员的选择、组织和培训;调查表格、问卷、调查员⼿册的印制;必要调查⼯作的准备;调查经费的来源和开⽀预算等。第四节统计数据的质量⼀、统计数据的误差
统计数据的误差通常是指统计数据与客观实际之间的差距,误差主要有登记性误差和代表性误差两类。
登记性误差是调查过程中由于调查者或被调查者的⼈为因素所造成的误差。其中前者造成的误差主要有:调查⽅案中有关的规定或解释不明确导致的错误、抄录错误、汇总错误等;后者造成的登记性误差主要有:因⼈为因素⼲扰形成的有意虚报或瞒报调查数据这种误差在统计调查中应予以特别重视。从理论上讲,登记性误差是可以消除的。代表性误差主要是指⽤样本数据进⾏推断时所产⽣的随机误差。
⼆、统计数据的质量要求:就⼀般的统计数据⽽⾔,可将其质量评价标准概括为六个⽅⾯:1、精度,即最低的抽样误差或随机误差;2、准确性,即最⼩的⾮抽样误差或偏差;3、关联性,即满⾜⽤户决策、管理和研究的需要;4、及时性,即在最短的时间⾥取得公布数据;5、⼀致性,即保持时间序列的可⽐性;6、最低成本,即在满⾜以上标准的前提下,以最经济的⽅式取得数据。问卷设计(⾃学)
第五节统计整理的意义和程序
统计资料的整理与显⽰是统计⼯作的⼀个重要环节,它是统计资料的搜集⼯作的继续,是统计分析的前提。(统计⼯作分为统计设计、统计搜集、统计整理、统计分析四个环节)。⼀、统计整理的意义
统计整理:指根据统计研究的⽬的要求,对统计调查所取得的各项资料进⾏科学的分组和汇总的⼯作过程;对已整理过的资料(包括历史资料)进⾏再加⼯也属于统计整理。
1、通过统计调查可以取得第⼀⼿资料,但这种资料只能反映总体各单位的具体情况,是分散、零碎、表⾯的。要说明总体情况,揭⽰出总体的内在特征,
还需要对这些资料进⾏加⼯整理,使之系统化,以便通过综合指标对总体作出概括性的说明。
2、统计整理是整个统计⼯作和研究过程的中间环节,起着承前启后的作⽤。统计整理是统计调查的继续,⼜是统计分析的基础。统计调查所搜集到的资料,只有通过科学的审核、分类、汇总等整理⼯作,才能使统计在认识社会的过程中,实现由个别到全体、由特殊到⼀般、由现象到本质、由感性到理性的转化,才能从整体上反映出事物的数量特征。否则统计调查所得的资料再丰富、再完备,其作⽤也发挥不出来,统计调查就将徒劳⽆益,统计分析也将⽆法进⾏。
3、统计整理还是积累历史资料的必要⼿段。统计研究中经常要⽤动态分析,这就需要有长期累积的历史资料,⽽根据积累资料的要求,对已有的统计资料进⾏筛选,以及按历史的⼝径对现有的统计资料重新调整、分类和汇总等,都必须通过统计整理⼯作来完成。⼆、统计整理的程序
统计整理的全过程包括对统计资料的审核、分组、汇总和编制统计图表四个环节,需要按照⼀定的步骤进⾏:(1)对搜集到的资料进⾏全⾯审核,以确保统计资料符合统计研究⽬的的要求,资料准确⽆误。
(2)根据研究⽬和统计分析的需要,选择整理的标志,并进⾏划类分组。统计分组是统计整理的重要内容和统计分析的基础,只有正确的分组才能整理出有科学价值的综合指标,并借助这些指标来揭⽰现象的本质与规律。(3)在分组的基础上,将各项资料进⾏汇总,得出反映各组和总体数量特征的各种指标。
(4)统计资料的显⽰。即通过编制统计表和绘制统计图,将整理出的资料简捷明了、系统有序地显⽰出来。第六节统计资料的审核
对调查资料进⾏审核是统计整理的第⼀步,包括以下内容:⼀、审核资料的完整性和及时性
审核资料的完整性,就是看调查单位或填报单位是否齐全;规定的项⽬是否都有答案,应报资料的份数是否符合规定。审核资料的及时性,是看填报单位是否按时报送了有关资料。对不报、漏报或迟报的现象都要及时查清。⼆、审核资料的正确性
审核资料的正确性,是检查所填报的资料是否准确可靠。常⽤的审核⽅法有两种:(⼀)逻辑检查
⾸先,从理论上或常识上检查资料是否有悖常理、有⽆不切实际或不符合逻辑的地⽅。⽐如,⼀张调查表中,年龄是9岁,职业是教师,其中必有⼀个是错误的。⼜如,若在某劳动密集型⾏业的报表中,企业规模为⼤型,⽽职⼯⼈数则是100⼈,这其中也必有⼀错。
其次,是检查各项⽬之间有⽆相互⽭盾的地⽅。例如,企业的净产值⼤于同期总产值就是明显的逻辑错误。(⼆)计算检查
即检查各项指标的计算⼝径、计量单位是否符合规定,并通过各种计算⽅法来检查各指标间的数字是否相互衔接。三、历史资料的审核
在利⽤历史资料(或其他间接资料)时,应审核资料的可靠程度、指标含义、所属时间与空间范围、计算⽅法和分组条件与规定的要求是否⼀致。⼀般可以从调查资料的历史背景、调查者搜集资料的⽬的以及资料来源等,来判断资料的可靠程度,也可以从指标间的相互关系以及指标的变动趋势来检查它的正确性。对不能满⾜现在要求、缺漏或有疑问的资料,要进⾏有科学根据的推算、弥补和订正。四、资料审核后的订正
通过上述审核,如发现有缺报、缺份和缺项等情况,应及时催报、补报;如有不正确之处,则应分别不同情况作如下处理:(1)对于可以肯定的⼀般错误,应及时代为更正,并通知原报单位。
(2)对于可疑之数或⽆法代为更正的错误,应要求原单位复查更正。
(3)如果所发现的差错在其他单位也可能发⽣时,应将错误情况通报所有单位,以免发⽣类似错误。(4)对于严重的错误,应发还重新填报,并查明发⽣错误的原因,若属于违法⾏为,则应依法严肃处理。第七节统计分组⼀、统计分组的概念
1、概念:根据社会经济现象的特点和统计研究的⽬的要求,按照某个重要标志(或⼏个标志)把总体划分为若⼲不同性质的组,称为统计分组。统计分组的对象是总体,统计分组的标志可以是品质标志,也可以是数量标志。2、统计分组的深层次理解
从分组的性质来看,分组兼有“分和合”双重含义。
1)对于现象总体⽽⾔,是“分”,即把总体分为性质相异的若⼲部分;⽽对于总体单位⽽⾔,⼜是“合”,即把性质相同的许多总体单位合为⼀组。
2)对于分组标志⽽⾔,是“分”,即按分组标志将不同的标志表现分为若⼲组,⽽对于其他标志⽽⾔,是“合”,即在⼀个组内的各单位即使其它标志表现不相同也只能结合在⼀组。
由此可见,选择⼀种分组⽅法,突出了⼀种差异,显⽰了⼀种⽭盾,必然同时掩盖了其他差异,忽略了其他⽭盾。不同的分组⽅法,可能得出不同的结论。缺乏科学根据的分组,不但⽆法显⽰事物的根本特征,甚⾄会把不同性质的事物混淆在⼀起,歪曲社会经济现象的本质。因此,统计分组必须先对所研究现象本质作全⾯地、深刻地分析,确定所研究现象类型的属性及其内部差别,⽽后才能选择反映事物本质的正确的分组标志。⼆、统计分组的原则
统计分组,必须遵循两个原则:穷尽原则和互斥原则。
穷尽原则,就是使总体中的每⼀个单位都应有组可归,或者说各分组的空间⾜以容纳总体所有的单位。例如,从业⼈员按⽂化程度分组,分为⼩学毕业、中学毕业(含中专)和⼤学毕业三组,那么,那些⽂盲或识字不多的以及⼤学以上的学历者则⽆组可归。如果将分组适当调整为⽂盲及识字不多、⼩学程度、中学程度、⼤学及⼤学以上,这样分组,就可以包括全部从业⼈员的各种不同层次的⽂化程度,符合了分组的穷尽原则。
互斥原则,就是在特定的分组标志下,总体中的任何⼀个单位只能归属于
某⼀组,⽽不能同时或可能归属于⼏个组。例如,某商场把服装分为男装、⼥装、童装三类,这不符合互斥原则,因为童装也有男、⼥装之分。若先把服装分为成年与⼉童两类,然后每类再分为男⼥两组,这就符合互斥原则了。三、统计分组的作⽤
统计分组在统计研究中的重要作⽤可概括为三个⽅⾯:(⼀)划分社会现象的不同类型。
社会经济现象千差万别,要了解各种社会经济现象的性质、特点及其相互关系,必须根据某种标志把它们划分为性质不同的类型,以便揭⽰不同社会经济现象的质的差异。例如,国民经济按产业分组;农业分成农、林、牧、渔业各组;社会商品零售额按商品⽤途分组;企业按所有制分组等等。这些分组也叫类型分组。
如下表是我国城镇居民家庭收⼊消费性⽀出按商品类别分组的统计表,它将全部消费品分为⼋⼤类,尽管它们同属于消费品,但在效⽤上却有“质”的差别。通过这种分类,可以反映我国居民和社会集团的商品性消费中不同类别的商品所占的地位和作⽤,也为进⼀步研究我国消费品零售额的⽔平与结构提供了便利条件。我国城镇居民家庭⼈均消费⽀出及构成
(⼆)揭⽰社会现象的内部结构。
从数量上反映总体内部的结构是统计研究的重要任务。总体的内部结构可体现部分与整体的关系以及各部分之间存在的差别和相互联系,反映事物从量变
到质变的过程,帮助⼈们掌握事物的特征,认识事物的性质。我国出⼝产品构成表(%)
如该表,就从我国出⼝商品构成的变化,反映出我国经济发展⽔平和经济结构的变化。(三)分析社会现象之间的依存关系。
社会经济现象之间⼴泛地存在着相互依存的关系,如农作物的耕作深度与收成率之间、合理密植与农产量之间、家庭的⼯资收⼊与⽣活费⽀出之间、⼯⼈技术级别与产品质量之间、⼯⼈劳动⽣产率与产品成本之间、市场商品价格与其需求量之间等等,都在⼀定程度上存在相互依存的关系。所有这些依存关系,都可通过统计分组分析出影响因素与结果因素之间的变动规律。四、统计分组的种类
(⼀)按分组的作⽤或⽬的不同,分为类型分组、结构分组和分析分组。1、类型分组:是将复杂的现象总体,划分为若⼲个不同性质的部分。
2、结构分组:是在对总体分组的基础上计算出各组对总体的⽐重,以此来研究总体各部分的结构。类型分组和结构分组往往紧密联系在⼀起。
3、分析分组:是为研究现象之间依存关系⽽进⾏的统计分组。分析分组的分组标志称为原因标志,与原因标志相对应的标志称为结果标志。如影响某种商品消费需求的因素有:该商品的价格、消费者收⼊、相关商品的价格、消费者偏好以及消费者对该商品的预期等。原因标志不同,结果标志也会不同;同⼀原因标志由于分组的不同,结果标志也会不同。例如,⼯⼈的劳动⽣产率与产值之间、商品流通费⽤率与商品销售额之间的依存关系,都可以按分析分组法来研究它们之间的联系。(⼆)按分组标志的多少,可分为简单分组、复合分组和并列分组。
1、简单分组:就是对总体只按⼀个标志进⾏分组。例如国民⽣产总值按产业分为第⼀、第⼆、第三产业三组;货运量按运输⽅式分为铁路运输、公路运输、⽔陆运输、航空运输与管道运输等五组。
2、复合分组:就是对总体按两个或两个以上的标志进⾏的重叠式分组,即在按某⼀标志分组的基础上再按另⼀标志进⼀步分组。
例如,为了认识我国⾼校学⽣的构成,我们可以同时采⽤学科、本科或专科、性别等三个标志进⾏分组:这样分组的结果就形成⼏层重叠的组别,把⾼校学⽣的构成分析得更为深⼊、详细。
复合分组的优点是,从对同⼀现象的层层分组和分组标志的联系中,更深⼊全⾯地研究总体各个⽅⾯的内部结构。但是,采⽤复合分组时,组数会随着分组标志的增加⽽成倍增加,使每组包括的单位数相应减少,处理不好就会成为烦琐哲学,不利于分析问题。因此,不能滥⽤复合分组,尤其不宜采⽤过多的标志进⾏复合分组,也不宜对较⼩总体进⾏复合分组。
3、并列分组:就是同时⽤两个或两个以上的标志,分别从不同的⾓度,进⾏不重叠的多种分组。也就是说,很多简单分组从不同⾓度说明同⼀个总体,就构成⼀个并列的分组体系。例如,职⼯先按性别分成两组,另按年龄分成若⼲组;进⼝总额先按贸易对象分成若⼲组,另按商品⽤途分成若⼲组。
并列分组的特点是两种或多种分组相互独⽴⽽不重叠,既可从不同的⽅⾯反映事物的多种结构,⼜不致使分组过于烦琐,故被⼴泛采⽤。
(三)按分组标志的性质,分为品质分组和数量分组。
品质分组:是按品质标志进⾏的分组,即按事物的某种属性分组。如企业按经济类型、⾏业分组;⼈⼝按性别、民族分组;⼤学⽣按专业分组等。这种分组⾼校学本科 专科 男 ⽂科 理科 ⼥ 男 ⼥ 本科 专科男 ⼥ 男 ⼥
可以反映总体的构成和不同属性事物在总体中的地位和作⽤。
数量分组:是按数量标志进⾏的分组。如企业按⽣产能⼒、劳动⽣产率分组;商店按商品流转额、职⼯⼈数分组;⼈⼝按年龄、⾝⾼分组等。这种分组的⽬的在于通过事物在数量上的差异来反映事物在性质上的区别。
按品质标志分组和按数量标志分组是⼀对重要的统计分组,统计分组⽅法主要是围绕这两种分组来阐述的。五、分组标志的选择
分组标志是统计分组的依据或标准。正确选择分组标志是进⾏统计分组的关键,分组标志确定得恰当与否会直接影响统计分组的作⽤。为了正确选择分组标志,必须遵循以下⼏条原则:(⼀)要符合统计研究的⽬的和要求
统计分组是为统计研究服务的,统计研究的⽬的不同,选择的分组标志也应有所不同。
例如,同是以⼯业部门为研究对象,当研究的⽬的是为了分析部门中各种规模的企业的⽣产情况时,应该选择产品数量或⽣产能⼒作为分组标志;当研究⽬的在于确定⼯业内部⽐例及平衡关系时,应该以⾏业为分组标志,将⼯业部门划分为重⼯业与轻⼯业或冶⾦、电⼒、化⼯、机械、纺织、煤炭等⼯业⾏业。(⼆)必须选择最重要的标志作为分组依据
社会经济现象纷繁复杂,研究某⼀问题可能涉及许多标志,科学的统计分组则应从中选择与统计研究的⽬的、与有关事物的性质或类型关系最密切的标志,即最主要或最本质的标志作为统计分组的依据。
例如,根据统计调查资料,研究⼈民⽣活⽔平变动情况时,可供选择的分组标志有:家庭⼈⼝数、每户就业⼈数、每⼀就业者负担⼈数、家庭总收⼊、平均每⼈⽉⽣活费收⼊等。⽽其中最能反映⼈民⽣活⽔平变动的标志是平均每⼈⽉⽣活费收⼊,故应选择这⼀标志作为分组标志。
(三)要考虑到社会经济现象所处的具体历史条件
客观事物的特点和内部联系随着条件的变化⽽不同,因此选择分组标志时,要具体情况具体分析,根据事物的不同条件来选择分组标志。
[例如,同是划分企业规模,在劳动密集型的⾏业或地区,可采⽤职⼯⼈数
作为分组标志;⽽在技术密集型的⾏业或地区,则应选择固定资产价值或⽣产能⼒作为分组标志。]六、统计分组的⽅法
在分组标志确定后,就要进⾏具体的分组。我们说按分组标志的性质不同,分为品质分组和数量分组,这两种分组的具体处理⽅法也存在着不同。(⼀)品质分组的⽅法
按品质标志分组时,其组数的确定主要取决于两个因素——统计研究的任务与事物的特点。
1、对事物进⾏品质分组,其组数的多少⾸先取决于事物本⾝的特点。事物本⾝所具有的既定的属性,是我们确定组数的基本依据。在有些场合,事物的属性就已确定了总体的组数.
例如,⼈⼝、职⼯和学⽣按性别分组,就只能分为两组;企业按经济类型分组,在我国现⾏经济体制下,也只有国有、集体、个体、合营和外资等⼏组。
2、对于有些事物构成⽐较复杂,组数可多可少的情况,就需要考虑统计研究任务的具体要求。例如:①⼈⼝按职业分组,产品和商品的分组等,就是可粗可细,组数可多可少的,到底分为⼏组,就只好根据统计研究的任务来确定了。要求较细时,组数可多些;要求较粗时,组数则可少些。②我国把社会经济各部门划分为第⼀产业、第⼆产业和第三产业,第⼀产业还可细分为农业、林业、畜牧业和渔业等。③但有的品质分组较为复杂,组的界限不易划分,存在着⼀些交叉过渡状态,组界边缘不清,例如第⼀产业中的林业与第⼆产业采掘业中的⽊材及⽵材采运业的区分。对于这⼀类问题,统计⼯作中采⽤统⼀的分类标准。这样的具体规定分类(组)的标准,为统计整理提供了统⼀的依据。(⼆)数量分组的⽅法
按数量标志分组,应注意如下两个问题:
⾸先,分组时各组数量界限的确定必须能反映事物质的差别。例如,学⽣学习成绩分组,不能把55分和65分合为⼀组,因为这样的分组未区分及格与不及格的质的差别。
其次,应根据被研究的现象总体的数量特征,采⽤适当的分组形式,确定相宜的组距、组限。1、单项式分组与组距式分组
1)单项式分组:就是⽤⼀个变量值(标志值)作为⼀组,形成单项式变量数列。单项式分组⼀般适⽤于离散型变量且变量变动范围不⼤的场合。
如,育龄妇⼥按其⽣育⼦⼥存活数分组,可分为0个、1个、2个、3个、4个、5个等6组。
2)组距式分组:就是将变量依次划分为⼏段区间,⼀段区间表现为“从……到……”距离,把⼀段区间内的所有变量值归为⼀组,形成组距式变量数列。区间的距离就是组距。对于连续型变量或者变动范围较⼤的离散型变量,适宜采⽤组距式分组。例如,反映居民居住⽔平情况按⼈均居住⾯积分组分为:4平⽅⽶以下,4-6平⽅⽶,6-8平⽅⽶,8平⽅⽶以上等4组。再如了解某班学⽣成绩情况,按成绩进⾏组距式分组。2、间断组距式分组和连续组距式分组
在组距式分组中,每组包含许多变量值,每⼀组变量值中,其最⼩值为下限,最⼤值为上限。组距是上下限之间的距离,相邻两组的界限,称为组限。
间断组距式分组:是指凡是组限不相连的分组。例如,⼉童按年龄分组分为未满1岁,1-2岁,3-4岁,5-9岁,10-14岁。连续组距式分组:凡是组限相连(或称相重叠的)分组,即以同⼀数值作为相邻两组的共同界限的分组。例如,⼯⼈按⼯时定额完成程度分组分为90-100%,100-110%,110-120%等组。
如果变量值只是在整数之间变动,例如企业数、职⼯数、机器设备台数等离散型变量,可采⽤间断组距式分组,也可采⽤连续组距式分组。如果变量值在⼀定范围内的表现即可以是整数,也可以是⼩数,如产值、⾝⾼、体重等连续型变量,只能采⽤连续组距式分组。“上限不在内”原则
在进⾏连续组距式分组时应注意,由于以同⼀个数值作为相邻两组共同的界限,为了遵循统计分组穷尽和互斥原则,所以统计上规定,凡是总体某⼀个单位的变量值是相邻两组的界限值,这⼀个单位归⼊作为下限值的那⼀组内,即所谓“上限不在内”原则。[例如学⽣成绩分组,把70分的学⽣归⼊70-80分组内,
把80分的学⽣归⼊80-90分组内。]根据这⼀原则,离散型变量的分组,各组的上限也可以写为下⼀组的下限,这样处理既简明⼜便于计算。连续型变量的分组也可以仅列出左端的数值,即以各组的下限来表⽰。[如上例学⽣成绩分组也可表⽰为50-,60-,70-,……]3、等距分组与异距分组
按数量标志进⾏组距式分组,还可分为等距分组和不等距(或称异距)分组。1)等距分组
等距分组:就是标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。凡是在标志值变动⽐较均匀的情况下,都可采⽤等距分组。例如,⼯⼈的年龄、⼯龄、⼯资的分组;零件尺⼨的误差、加⼯时间的分组;农产品单位⾯积产量、
单位产品成本的分组等等。等距分组有很多好处,它便于绘制统计图,也便于进⾏各类运算。2)异距分组
分组的形式应服从分组的要求,即性质相同的单位应合并在⼀个组内,性质不同的应当分开。现象的差别取决于现象的本质,⽽不在于数学形式,必须根据现象的本质特征和统计研究的⽬的任务来确定分组的等距与否。在下列情况下,就必须考虑采⽤异距分组:
第⼀,标志值分布很不均匀的场合。例如,学⽣成绩如果密集于某⼀范围,如60-80分或70-90分之间,其它部分则分布⼗分稀少,在这种场合若仍以10分为组距进⾏等距式分组,则⽆法显⽰出分布的规律性,会使得这⼀密集的分数段分布的信息损失过⼤。因此,合理的做法是,在分布⽐较密集的区间内使⽤较短的组距,在分布⽐较稀少的其余部分使⽤较长的组距,形成各组的组距不相等的异距分组。
第⼆,标志值相等的量具有不同意义的场合。例如,⽣命的每⼀个⽉对于新⽣婴⼉和对于成年⼈是⼤不⼀样的,此时,进⾏⼈⼝疾病研究的年龄分组,应采⽤异距式分组,即1岁以下按⽉分组,1-10岁按年分组,11-20岁按5年分组,21岁以上按10年或20年分组等等。
第三,标志值按⼀定⽐例发展变化的场合。例如,百货商场营业额差别是很⼤的,⽐如营业额从5万元⾄5千万元,可采取公⽐为10的不等距分组5-50
万元、50-500万元、500-5000万元。若⽤等距分组,即使组距为100万元,也得分为50组,显然是不合适的。
对于异距分组⽅法的运⽤,没有固定模式可供依循,全凭统计⼈员在实践中不断探索,关键在于对所研究现象的内在联系必须⼗分熟悉,才能很好运⽤异距分组来揭⽰事物的本质。七、组距、组数、组限与组中值
在具体进⾏分组时,⾸先应对标志值的分布情况进⾏仔细审查,找出变量的最⼤值和最⼩值;其次,在分布⽐较集中的标志值处确定组距的中⼼位置;再次,根据预定的组距的⼤⼩定出上下限。⼀般地,第⼀组的下限必须略⼩于实际变量值的最⼩值,最后⼀组的上限必须略⼤于实际变量值的最⼤值,并尽可能使各单位的标志值在组内分布⽐较均匀。(⼀)组距
在组距式分组中,组距是各组上下限之间的距离,即各组最⼤标志值和最⼩标志值之差。
1、由于有等距分组与异距分组之分,在后⽂中将要出现的频数密度的概念,必须具体计算确定每⼀个组的组距⼤⼩。在许多版本的教科书中,笼统地使⽤如下公式来计算组距的⼤⼩,即组距=上限-下限
①事实上,这⼀公式只适⽤于计算连续组距式分组的组距⼤⼩,例如成绩
分组中,60-70分,70-80分,其组距为10分(=70-60或80-70)。②如果将这⼀公式套⽤于间断组距式,将会产⽣谬误。例如,商店规模按职⼯⼈数分组,分为1-5⼈,6-10⼈,11-15⼈等等。套⽤上述公式,得出5-1(或10-6,或15-11)=4,即组距为4⼈的结论,显然是错误的。
2、对于间断式分组的组距⼤⼩的计算,必须采⽤如下公式组距=本组上限-前组上限(1)(或)=后组下限-本组下限(2)(或)=本组上限-本组下限+1 (3)
在上⾯的例⼦中,可见其组距实际上是5⼈。应当注意到,连续组距式分组的组距⼤⼩,也可根据公式(1)或(2)求得。(⼆)组数
全距是总体中最⼤的标志值与最⼩的标志值之差。
组数的多少直接取决于两个因素,⼀个是总体的全距,另⼀个是组距。在等距分组的条件下,组数等于全距除以组距。在组距既定的条件下,全距⼤则组数多,全距⼩则组数少;在全距既定的条件下,组距⼤则组数少,组距⼩则组数多。全距是客观存在的事实,不以⼈的意志为转移,所以,确定组数的关键是确定组距。如对学⽣成绩情况的统计分组中,组数过少,例如学⽣成绩分为2组,不能很好地达到分组的基本要求;组数过多,例如成绩分为101组,即分组过细,也⽆法起到化繁为简的作⽤,难以显⽰出总体分布的规律。
决定组数的多少,并⽆规则可⾔,必须凭借经验和所研究问题的性质作出判断。这⾥,向⼤家介绍⼀种确定组数和组距的经验
公式,这⼀公式是美国学者斯特杰斯(Sturges)创⽴使⽤的,称为斯特杰斯经验公式,即:n=1+3.3lgN 则有:max min1 3.31lgx xRd=n N-=
+,公式中,n为组数,N为总体单位数,d
为组距,R为全距,即最⼤变量值X max与最⼩变量值X min之差。根据这⼀公式,可以得出如下(见下表)的组数参考标准。
分组组数参考标准表
上述公式及表中数据仅供参考,不能⽣搬硬套。实际分组时采⽤组数多少应依据所研究资料的性质⽽定。(三)组中值
组中值:为上下限之间的中点数值,组中值的计算公式为:组中值=(上限+下限)/2
在计算平均指标或进⾏其它统计分析时,常以组中值来代表各组标志值的平均⽔平。当各组标志值均匀分布时,组中值代表各组标志值的⽔平,其代表性就⾼。因此,分组时应注意:1、尽可能使组内各单位标志值分布均匀;
2、为避免产⽣过⼤的计算误差,在选取各组上、下限时,应尽可能使组中值恰为整数。
3、当连续型变量按离散型变量表⽰时,组距数列的编制采取相邻组限不重叠的形式,组中值的确定应考虑到连续型变量⾃⾝的特点。
年龄就是⽐较典型的例⼦,它实质上是连续型变量,习惯上⽤整数表⽰。例如⼀群⼤学⽣分为17-19岁、20-22岁两组,则组距3岁,组中值分别为18.5岁和21.5岁。因为第⼀组应包括19岁⼜不到20岁的⼤学⽣,上限应视为20岁。同样道理,第⼆组上限应视为23岁。
4、开⼝组的组中值的确定。在编制组距式变量数列时,使⽤“××以上”或“××以下”这样不确定组距的组,称为开⼝组。例如,反映某⼯业企业⼯⼈⽣产定额完成情况,按⽣产定额完成程度分组,分为90%以下,90-100%,100-110%,110%以上。开⼝组的组距是以相邻组的组距为本组的组距,如上例,90%以下的组,因相邻组的组距为10%(=100%-90%),故第⼀组视为80-90%,其组中值为(80%+90%)/2=85%,即85%;110%以上的组距=115%。以邻组的组距10%为本组组距,视为110-120%,组中值为110%120%2
第⼋节频数分布
⼀、频数分布的基本概念(⼀)频数分布
在统计分组的基础上,将总体所有的单位按某⼀标志进⾏归类排列,并计算各组的单位数称为频数分布,或次数分布。频数分
布是统计整理的⼀种重要形式,通过对零乱的、分散的原始资料进⾏有次序的整理,形成⼀系列反映总体各组之间单位分布状况的数列,即分布数列。(⼆)分布数列的两个要素
1、总体按某标志所分的组。就变量数列⽽⾔,总体按数量标志分组,分组标志在各组有不同的数量表现,形成标志值数列,亦称变量,⼀般⽤x表⽰;
2、各组所出现的单位数,即频数,⼜称为次数,⽤f表⽰。(三)分布数列的种类
根据分组标志特征的不同,分布数列可分为品质分布数列和变量分布数列。
因篇幅问题不能全部显示,请点此查看更多更全内容