统计的数据来源

发表于 2019-05-11 更新于 2021-11-23

要想进行统计，首先要确定统计对象，也就是前面我们提到的总体。在这之后，就是从总体中把数据收集上来。

常用的数据来源有两种，第一种是间接来源，也就是由他人通过调查或实验的方式收集的数据，使用者只是找到它们并加以使用。第二种是直接来源，即通过自己的调查或实验，直接获取第一手数据。
间接来源的数据一般来说会有很多第三方渠道提供，例如政府统计部门、专业调查机构、专业期刊文献、学术会议资料库提供的数据等，也包括一些单位自己收集并整理的营业记录、消费记录等。只要不是统计分析的实施者亲自获取的数据，都应该算作间接来源的数据。
间接来源的数据一般来说获取成本比较低，不过局限性也比较大，主要存在的问题有统计口径不一致、时效性不强等，所以在使用前需要对这些数据进行评估，例如数据提供方的信誉度、数据的收集手段、数据的收集时间等，从而最终判定这样一份数据是否可以作为统计分析的对象。
直接来源的数据，其获取成本通常比较高。在很多情况下，当间接来源的数据无法解决我们要研究的问题时，也只能考虑使用直接来源的数据，就是通过调查方法获得数据，或者通过实验方法获得数据。前者获得的数据叫做调查数据，后者获得的数据叫做实验数据。不论是调查数据还是实验数据，想要获得它们，都需要设计一套严谨的实施流程，从调查、数据产生、数据收集到数据分析，都需要有严格且科学的解释作为保障。
调查通常以一定范围内的社会人群为总体，实验通常针对自然性的现象。基本可以这样认为：需要人对类似答卷作出主观性回答的形式（即使是选择题）都可以称为调查；实验则是对观测现象进行相对客观的记录（例如，读取温度计的读数，以及对实验中符合某种状态的对象进行数量记录等）。在互联网和物联网产品中，通过终端收集的数据通常可以算作实验数据。
不论数据来源是间接的还是直接的，都一定要建立在足够可信的基础上。如果对数据的信任程度不够，不建议盲目低开展分析，因为分析结果通常会变得不可靠。这里指的不是误差，误差是客观存在的，也无法避免。这里说的是数据来源、统计口径、记录方式等的可信度问题。数据来源就是我们所说的”认知”的第一步，是作为分析者观测的开始一环。对这一环中的数据进行可靠性判断是统计能够正常进行的基本保障。