统计学(第2版)
上QQ阅读APP看书,第一时间看更新

1.2 统计学的基本概念

任何一门科学在研究该科学的理论和方法时都要涉及一些基本概念,统计学也不例外。统计总体与总体单位、统计标志与统计指标以及指标体系等,是统计学中几个最常用和重要的基本概念。理解和正确使用这些概念是学习统计学后续内容的基础。

1.2.1 总体与总体单位

如前所述,统计学是研究客观现象总体的数量特征和数量关系的学科。因此,首先对统计总体要有一个明确的认识。统计总体简称总体,它是客观存在的、具有某种共同性质的许多个别事物构成的整体。例如,所有上市公司、在校大学生、所有旅行社、工业企业、全部职工等,都可以称为统计总体。

统计总体具有三大特点,即同质性、大量性、变异性。同质性是指总体中各个单位具有某一共同的性质,同质性是确定统计总体的基本标准;大量性是指统计总体应该由足够数量的同质性单位构成,统计对总体数量特征的研究,其目的是探索、揭示现象的规律,而现象的规律只有通过大量观察才能显示出来;总体各个单位除了具有某种或某些共同的性质以外,在其他方面具有质的差别和量的差别,这种差别称为变异。正因为变异是普遍存在的,才有必要进行统计研究。总体中各个单位之间具有变异性的特点,这是各种因素错综复杂作用的结果,所以有必要采用统计方法加以研究,才能表明总体的数量特征。

根据所包含的单位的数量不同,总体可以分为有限总体和无限总体两类。有限总体是由有限量的单位构成的总体。例如,全国人口普查,尽管其包含的单位数量很大,但仍然是有限的,所以是有限总体。而当总体单位数难以确定,其数量有可能是无限多时,便构成了无限总体。例如,要检验某种新工艺是否真正能够改善产品的性能时,由于该新工艺的应用有可能一直延续下去,利用该工艺制造的产品包括已经生产和将要生产的产品,其数量也难以准确确定,因此就属于无限总体。

总体单位也简称为单位,是组成总体的各个个体,是各项统计数字最原始的承担者。例如:要研究上市公司的经济效益时,所有上市公司构成一个统计总体,每一个上市公司则是总体单位,将每个上市公司的有关经济效益方面的数量特征加以登记、汇总,就取得所有上市公司经济效益的统计资料。根据研究目的的不同,总体单位可以是人、物、机构等实物单位,也可以是一种现象或活动过程等非实物单位。

总体和总体单位的概念是相对而言的,随着研究目的和总体范围的不同而相互转化。同一个研究对象,在一种情况下为总体,但在另一种情况下又可能变成总体单位。例如:研究全国各省的人口情况时,全国为总体,各省为总体单位;而当要研究某省各县人口状况时,则该省就变成了总体,各县又成了总体单位。

1.2.2 样本

在推断统计学中将所要研究的事物全体构成的总体称为全及总体,从全及总体中抽取出来的,代表全及总体的部分单位组成的集合体称为样本。样本是推断统计学中非常重要的概念。抽取样本时应注意以下问题:

(1)抽取样本的目的是推断总体,所以样本的单位必须取自同一总体。一般情况下,样本中个体的数目以30为界限,大于30为大样本,小于等于30为小样本,对社会经济现象进行调查通常取大样本,对自然现象进行调查通常取小样本。

(2)从一个总体可以抽取多个样本,样本个数的多少和样本所包含的单位数量与抽样方法有关。

(3)样本的抽取必须按随机原则,排除主观因素的影响,以确保样本的客观性与代表性。

(4)由样本去推断总体的特征总会存在一定的误差。如何科学地从总体中抽取样本,怎样控制样本的代表性误差,是推断统计学中研究的主要问题。

1.2.3 统计标志与标志表现

标志是指总体各单位所具有的属性或特征的名称。每个总体单位从不同方面考察都具有许多属性和特征,例如,每个企业都具有经济类型、所属行业、资产数量、职工人数、产品产量等属性和特征,这些就是企业总体单位的标志;又如,每个大学生都具有姓名、性别、年龄、籍贯、专业等属性和特征,这些就是大学生总体单位的标志。由此可见,所谓属性和特征可以是自然属性也可以是社会属性,而且都是总体中每个单位普遍具有的。如果只是个别单位具有的特殊属性和特征就不能作为统计总体单位的标志。

标志分为品质标志和数量标志两种。品质标志表明总体单位属性方面的特征,例如,每个企业的经济类型、所属行业、设备的种类等属性和特征,每个大学生的性别、籍贯、专业等属性和特征。数量标志表明总体单位数量方面的特征,例如,每个企业资产数量、职工人数、产品产量等属性和特征,每个大学生的年龄、身高、体重等属性和特征。尽管总体各单位都有共同的标志,但每单位对该标志的具体表现却可能不同。品质标志的表现和数量标志的表现是不同的。品质标志的表现只能用文字、语言来描述。例如,性别是品质标志,而标志表现具体为男性或女性;又如专业是品质标志,而标志表现具体为工商、物流、财务、会计、旅游等。数量标志的表现可以用数值来表示。例如,资产是数量标志,其具体表现为多少万元;又如年龄是数量标志,其具体表现为多少岁等。

无论是品质标志还是数量标志,如果在一个总体的各单位具体表现都相同,则称之为不变标志。例如,在物流管理专业大学生总体中,专业这一标志各单位表现都是物流,所以专业便是不变标志。在一个总体中,当一个标志在各单位的具体表现有可能不同时,这个标志便称为可变标志。例如,物流管理专业大学生总体中,各单位的姓名、性别、年龄、籍贯表现不同,所以姓名、性别、年龄、籍贯是可变标志。

1.2.4 变量与变量值

可变的数量标志是变量,例如,年龄、身高、体重、工资、产量、资产等都是变量。变量的具体数值表现称为变量值。例如,某公司职工的工资有1500元、1860元、2120元三种,1500元、1860元、2120元就是变量值。变量与变量值是两个既有密切联系又有明显区别的不同概念,不能混淆。例如,职工人数是一个变量,因为各个工厂的职工人数可能是不同的,如甲工厂有1000人,乙工厂有1500人,丙工厂有1800人,都是“职工人数”这个“变量”的具体数值,也就是变量值,求甲、乙、丙三个工厂平均职工人数,不能说是求三个“变量”的平均数,因为这里只有“职工人数”一个变量,并没有三个变量,而应该说是求三个变量值的平均数。

变量按取值是否连续区分为连续变量和离散变量。连续变量是指变量值在相邻的两值之间可无穷分割,可以表现为无穷小数,其取值既可以是整数也可以取小数。例如,产品产量、企业资产、销售额、总产值、资金、利润等。离散变量是指变量值只能表现为整数而不能取小数。如人口数、企业数、机器台数等。变量按其性质不同区分为确定性变量和随机变量。确定性变量是指受确定性因素影响的变量,也即影响变量值变化的因素是明确的、可解释的或可人为控制的,因而变量的变化方向和变动程度是可以确定的。例如,企业职工工资总额受职工人数和平均工资两个因素的影响,它是确定性变量。随机变量是指受随机因素影响的变量,也即影响变量值变化的因素是不确定的、偶然的因素影响的变量。例如,农作物产量受土壤、水分、气温、光照、施肥、管理等多种因素的影响,而水分、气温、光照等变化是无法预知和控制的,因而农作物产量是随机变量。

1.2.5 统计指标与指标体系

统计指标是反映统计总体数量特征的概念和数值。例如,在2014年国民经济和社会发展统计公报中,2014年我国国内生产总值63.64万亿元,财政收入14.03万亿元,粮食产量60710万吨等,这些指标从某一侧面反映了我国国民经济的数量特征。由此可见,统计指标是由两项基本要素构成的,即指标名称和指标数值。指标名称是对总体数量特征的质的规定性。所以,确定统计指标必须有一定的理论依据,使之与社会经济或科学技术的范畴相吻合;同时,又必须对理论范畴加以具体化,以便达到量化的目的。指标数值反映所研究现象在具体时间、地点、条件下的规模和水平,不同时间、不同地点或不同条件下,指标的具体数值必然不同。所以,一个完整的统计指标不仅包括指标名称、指标数值,还应包括时间限制、空间限制、计算方法、计量单位。指标有两个重要特点:一是综合性,指标说明的不是总体单位的数量特征而是总体的数量特征,也即是构成总体的全部单位综合的结果;二是可量性,指标都是能用数值表示的,没有不能用数值表示的统计指标。

统计指标与标志既有区别,又有联系。

区别主要有两个方面:

(1)指标和标志说明的对象不同,指标说明总体的特征,标志则说明个体的特征。

(2)指标和标志的表现形式不同,指标是用数值来表现的,而标志既有能用文字来表现的品质标志,又有用数值来表现的数量标志。

联系也有两个方面:

(1)标志是计算统计指标的依据,即统计指标数值是根据个体的标志表现综合汇总而来的。

(2)由于总体与个体的确定是相对的、可以互换的,因而指标与标志的确定也是相对的、可以互换的。这样,指标与标志在许多场合并不需要严格区分,例如企业人数、企业总产量、企业总产值等,既是指标也是标志。因此,指标与标志同属于变量的范畴。

统计指标按其反映现象的内容不同,可以分为数量指标和质量指标两种。

数量指标是反映现象总规模、总水平、总工作量大小的统计指标。例如人口总数、企业数、职工人数、总产量、总产值、土地面积、投资额等,都属于数量指标,这些指标反映现象或过程的总规模和水平,所以,数量指标也称为总量指标,用绝对数来表示。数量指标的计量单位有实物单位、价值单位和时间单位三种,其中实物单位又有自然单位、度量衡单位、复合单位等。

质量指标是反映现象相对水平和工作质量的统计指标。例如,人口性别比例、职工平均工资、产品合格率、人均土地面积、产值增长速度、资金利润率等,都属于质量指标。质量指标是总量指标的派生指标,用相对数和平均数来表示,所以质量指标又可以分为相对指标和平均指标两种。

单个统计指标只反映总体的某一个数量特征,说明现象某一侧面的情况。客观现象是错综复杂的,要反映其全貌、描述现象发展的全过程,只靠单个统计指标是不够的,需要设立统计指标体系。统计指标体系是由一系列相互联系的统计指标所组成的有机整体,用以反映所研究现象各方面相互依存、相互制约的关系。指标体系的表达形式有两种:一种是通过数学形式来表达,例如,产品销售收入=产品的销售量×销售价格;另一种是表达成相互联系、相互补充的指标系列,例如,为了反映企业生产经营的全貌,需要设立产量、产值、品种、质量、职工人数、劳动生产率、工资总额、原材料、设备、财务成本等多项指标,来组成工业企业统计指标体系。指标体系的设置不但是客观现象的反映,而且也是人们客观认识的结果。随着客观形势的发展变化以及实践经验和理论研究的积累,指标体系也将不断改进更新、逐步完善。

1.2.6 统计数据

1.数据的计量尺度

统计数据是总体单位标志或统计指标的具体数量表现。统计数据是对客观现象进行计量的结果。由于不同事物性质不同,我们能够予以计量或测度的程度也不同,有些事物只能对其属性进行分类,比如,人口的性别和文化程度、产品的型号及质量等级等;有些则可以用比较精确的数字加以计算,比如产量、价值、利润和销售量等。根据计量学的一般分类方法,按照对事物计量的精确程度,可以将所采用的计量尺度由低级到高级、由粗略到精确分为四个层次,即定类尺度、定序尺度、定距尺度、定比尺度。采用不同计量尺度,可以得到不同类型的数据。

(1)定类尺度。它是最粗略、计量层次最低的计量尺度,它是按照事物的某种属性对其进行平行的分类或分组,分类或分组的结果是用文字表示的。例如,按照性别将人口分为男、女两类;按照经济性质将企业分为国有、集体、私营、混合制企业等。使用该尺度对事物所做的分类中,各类别之间是平等的并列关系,无法区分优劣或大小,各类之间的顺序是可以改变的。定类尺度计量的结果只是表现为某种类别,但为了便于统计处理,特别是为了便于计算机识别,我们可以对不同类别用不同的数字或编码来表示,比如用“1”表示男性人口,“0”表示女性人口;“1”表示国有企业,“2”表示集体企业,“3”表示私营企业等。这些数字只是给不同类别的一个代码,并不意味着这些数字可以区分大小或进行任何数学运算。

(2)定序尺度。它是对事物之间等级差别或顺序差别的一种测度,它也是按照事物属性对其进行分类,分类的结果也是用文字表示。该尺度不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。定序尺度的计算结果虽然也是表现为类别,但这些类别之间是可以比较顺序的。例如,产品等级就是对产品质量好坏的一种次序测度,它可以将产品分为一等品、二等品、三等品、次品;考试成绩可以分为优、良、中、及格、不及格等。很显然,定序尺度对事物的计量要比定类尺度精确一些,但它只是测度了类别之间的顺序,而未测量出类别之间的准确差值。因此,该尺度的计算结果只能比较大小,不能进行加、减、乘、除等数学运算。

(3)定距尺度。它不仅能将事物区分为不同类型并进行排序,分类的结果用数字表示,而且可以准确地指出类别之间的差距是多少。定距尺度是对事物类别或次序之间的间距的测度,该类尺度通常使用自然或物理单位作为计量尺度,如收入用人民币元来度量,温度用摄氏度来度量,长度用米来度量等。因此,定距尺度的计量结果表现为数值。由于这种尺度的每一间距都是相等的,只要给出一个度量单位,就可以准确地指出两个计数之间的差值。如,考试成绩70分与95分之间相差25分,一个地区的温度30℃与另一个地区的35℃相差5℃等。由于定距尺度的计量结果表现为数值,并可以计算差值,因而其结果可以进行加、减运算。

(4)定比尺度。它与定距尺度属于同一层次,其计量的结果也表示为数值。它除了具有上述三种计量尺度的全部特性外,还具有一个特性,那就是可以计算两个测度值之间的比值。这就要求定比尺度中必须有一个绝对固定的“零点”,这也是它与定距尺度的唯一差别。换言之,定距尺度中没有绝对的零点,即定距尺度的计量值可以为“0”。这里的“0”是表示一个数值,即“0”水平,而不表示“没有”或“不存在”。例如,一个学生的统计学考试成绩为“0”分,是表示他的统计学成绩水平为“0”,并不表示他没有考试成绩或没有任何统计学知识;一个地区的温度为0℃,它表示一种温度的水平,并不是没有温度。可见,定距尺度中的“0”是一个有意义的数值。定比尺度则不同,它有一个绝对“零点”。也就是说,在定比尺度中,“0”表示“没有”或“不存在”。比如,一个人的收入为“0”,表示这个人没有收入;一种产品的产量为“0”,则表示没有这种产品等。在现实生活中,大多数情况下我们使用的都是定比尺度。可见,定距尺度只能进行加、减运算,而定比尺度则可以进行加、减、乘、除运算。

2.数据的类型

统计数据时我们采用某种计量尺度对事物进行计量。但采用不同的计量尺度会得到不同类型的统计数据。从上述四种计量尺度计量的结果来看,我们可以将统计数据大体分为两种类型:定性数据和定量数据。定性数据也称品质数据,它说明的是事物的品质特征,是不能用数值表示的,其结果通常表现为类别,这类数据是由定类尺度和定序尺度计量形成的;定量数据也称为数量数据,它说明的是现象的数量特征,是能用数值来表示的,这类数据是由定距尺度和定比尺度计量形成的。对不同类型的数据,可以采用不同的统计方法来处理和分析。比如对品质数据通常可以计算出各组的频数或频率,而数量数据则可以用更多的统计方法进行处理。

本章小结

统计学的产生与发展大致经历了三个时期:古典统计学时期、近代统计学时期和现代统计学时期。在古典统计学时期有德国的国势学派与英国的政治算术学派之分,在近代统计学时期有德国的社会统计学派与比利时的数理统计学派之争,在现代统计学时期则以推断统计发展为主要特征。

统计学的研究对象是客观事物的数量方面具体包括数量特征和数量关系。研究对象具有三个方面的特征,即数量性、总体性、变异性。

统计一词包含三个含义:统计工作、统计数据、统计学。统计数据是统计工作的成果,统计学则是统计工作实践活动的经验总结和理论概括,而统计学形成的理论则对统计工作起着指导作用。统计工作一方面受统计理论指导,另一方面也检验着统计理论的正确与否,促进统计理论的不断发展。统计学与统计工作、统计数据之间的关系表明,理论来源于实践,又反过来为实践服务,被实践检验,体现着理论与实践辩证统一的关系。

统计学是研究如何收集数据、整理数据、分析数据的方法论性质的科学。经过三百多年的演变与发展,统计学已经发展成为由若干分支学科组成的学科体系。根据统计方法的构成,统计学分为描述统计学和推断统计学;根据统计方法研究和应用,统计学分为理论统计学和应用统计学。

统计学中的几个基本概念。统计总体是由客观存在的、具有某种共同性质的事物所组成的集合体,具有大量性、同质性和差异性的特征。构成总体的每个个别事物称为个体。总体有有限总体与无限总体、全及总体与抽样总体。统计总体与总体单位的关系不是一成不变的,根据研究的目的不同,可以相互转化。

统计标志是说明总体单位属性和特征的名称。标志有品质标志与数量标志、可变标志与不变标志之分。可变的数量标志也叫变量。变量有离散型变量与连续型变量、确定性变量与随机性变量之分。

统计指标是反映现象总体数量特征的概念及其数值,有指标名称、计算方法、空间限制、时间限制、具体数值和计量单位六个要素。指标与标志既有区别,又有联系。统计指标区分为数量指标与质量指标。统计指标体系是由一系列相互联系的统计指标所组成的有机整体。

统计数据是总体单位标志或统计指标的具体数量表现。数据的计量尺度分为四个层次,即定类尺度、定序尺度、定距尺度、定比尺度。采用不同计量尺度,可以得到不同类型的数据。定类尺度和定序尺度计量形成的数据是定性数据;定距尺度和定比尺度计量形成的数据是定量数据。