大数据时代下统计数据质量的影响因素

2023-09-18 17:06:04

        统计工作是为政府提供国民经济运行信息的重要手段,将大数据应用于统计工作是社会发展饿必然趋势。

一、内涵

在数字化时代和数字经济的飞速发展,“数据”已经被认定为一种新的生产要素,并且发挥着重要作用。数据质量的高低直接影响数据价值的高低。数据质量,是指在业务环境下,数据符合数据消费者的使用者目的,能够满足业务场景具体需求的程度。一般来说,数据质量是数据本身所具有的属性满足使用者需求的程度,一般包括准确性、完整性、一致性、可比性、可解释性等。


准确性:统计数据应当准确反映所要描述和研究的现象、事实或变化情况,不存在明显的错误或误导性。

完整性:统计数据应覆盖全部或代表性的样本或总体,不应有遗漏或缺失的情况。缺乏完整性的数据会导致分析和结论的误差。

一致性:统计数据应在不同时间点、不同数据源或不同统计单位之间保持一致性。一致性表明数据的稳定性和可靠性。

可比性:统计数据应具有可比性,即在不同时间、地区或群体之间可以进行比较和分析。可比性有助于从数据中发现趋势、模式和相关性。

可解释性:统计数据应该具备一定的可解释性,即可以通过数据本身的描述和上下文信息进行理解和分析。用户能够理解数据所代表的含义。


对于不同业务、不同对象、不同领域,大家对数据质量的要求也会有所不同,存在一些差异。

二、影响因素

在数据的生命周期中,包括数据采集、处理、存储、应用和展现直至消亡的过程中,都存在多个因素和流程会对数据质量产生影响,在不同维度如数据处理、数据应用、数据表现和数据管理等方面都可能对数据质量产生影响。尤其在大数据环境下,数据全生命周期管理的具体内容发生了质的变化,数据质量的影响因素及其影响贡献率也发生了变化。统计大数据的质量影响因素主要包括以下几个方面:

1. 数据采集

在面对大数据环境下的统计数据采集中,数据来源和采集方式包括人工统计报表导入、应用系统数据交换、传感器采集、网络爬虫抓取数据等。人工统计报表导入是一种相对能够保证数据质量的大数据采集方式,但其效率较低;在报表导入过程中,由于原有表格规范性和导入系统程序接口兼容性方面的问题,可能会出现错误,尤其是对报表中的“空值”和“0值”的处理。传感器采集在统计数据质量检验、特定对象跟踪统计、动态交通流统计、国民经济核算经济流量和存量测算等方面取得了较好的应用效果,但传感器数据采集的准确性和数据安全性是当前传感器数据采集的主要制约因素。数据采集的时效性和质量会受到数据采集方式、工具的多样性和技术特点的影响。此外,由于数据来源更加广泛和多样,数据之间的矛盾和差异性也会影响大数据统计的效率。

2. 数据预处理

在大数据环境下,采集到的数据通常存在多个来源和格式不一致等情况。因此,一般来说,无论通过何种途径和方式采集而来的数据,都无法直接应用于大数据的统计和分析,需要经过一定的预处理来提高数据质量和可用性。通过数据清洗,可以采用技术手段和方法,按照一定规则和策略对采集到的数据中的错误、重复或者遗漏的数据进行规范化处理。对于数据格式不一致和字段数据匹配不正确等问题,需要通过数据转换来进行数据质量的管控。数据清洗和数据转换是最常见的预处理技术,数据预处理的规则直接影响数据质量。


我们平台目前收录3亿及以上企业数(含个体),其中:企业在营5千8百万以上,个体在营1.2亿以上;平台涵盖企业360°维度信息,例如基本信息(股东信息、注册变更、分支机构、历史股权轨迹、历史高管等),负面信息(行政处罚、裁判文书、被执行人、失信被执行人、开庭公告、法院公告、立案信息、终本案件、曝光台等),经营信息(标讯线索、中标线索、招聘信息、建筑工程信息、舆情信息、消防检查、抽查检查信息、双随机检查信息)、资产信息(专利、商标、软件著作权、作品著作权、管理体系认证、强制性产品认证等)众多企业全维度数据。


3. 数据存储

分布式存储是当前大数据主要的存储技术,与存储介质类型和数据的组织管理形式直接相关。根据大数据的不同特点,应选择适合的存储技术。不同的存储技术和存储介质对数据存储和访问的及时性、安全性和准确性有影响。

4. 数据处理

用于统计大数据的分布式处理技术与统计大数据的数据类型和存储形式相关。基于Java技术的Hadoop体系架构具有较强的批处理能力,适用于较大规模数据的批量化处理,但时效性较差,对超大规模数据难以实现集中快速处理。Storm技术基于拓扑结构实现数据流转换,更适用于实时处理的数据集群结构,具有更强的时效性和容错性,但其处理稳定性和灵活性有待提高。Spark基于直接面向用户的内存计算框架可以将数据流转化为超低量秒级的数据集,实现数据自动收集和批量计算,但该技术对系统软硬件有较高要求。

不同的大数据处理计算框架模型适用于不同的数据类型和数据规模,会影响大数据处理的质量和效率。在大数据分析的过程中,数据的聚类与分类、数据关联分析和数据深度学习等因素会影响统计大数据的可用性和准确性,决定大数据的价值。

5. 数据展现

大数据的可视化展示是前期处理和分析结果的输出,能够直观地向用户展示大数据统计分析的结果,并进行交互处理。数据展现的方式和维度反映了大数据的可用性和易于理解等质量特性。

6. 数据应用

经过数据预处理、处理和分析的数据可以应用于统计分析、战略规划和决策分析等领域。大数据应用是数据价值的体现,直接体现了统计大数据从采集、预处理到输出成果的可用性和准确性。

除了上述技术层面的因素,大数据背景下的管理制度、标准规范和统计人员队伍等管理层面的因素也会影响统计数据的质量。

如有侵权,联系删除。

更多推荐

浅谈电气防火保护器在地下商场的应用 安科瑞 缪阳扬

摘要:近年来,我国城市发展速度加速。很多城市大力建造地下建筑设施,比如地铁、地下停车场和地下商场等。地下商场属于人员密集型建筑,其防火设计一直令相关的专家头疼。由于人员密集,防火处理不好将酿成灾难性的后果。因此,防火十分重要。防火设计可以着重于疏散和火灾探查报警系统两个方面,而电气火灾监控系统在实际预警和报警过程中有着

vector的扩容机制—为何是1.5倍或者是2倍

文章目录前言一、Vector扩容过程二、为什么是1.5倍或者2倍?前言在C++编程中,Vector是一种常用的动态数组容器。其大小是可以动态调整的,而在扩容操作中,Vector通常会将容量增加为原来的两倍。本篇博客将详细介绍Vector扩容的原理、扩容过程,并解释为何选择两倍进行扩容。一、Vector扩容过程当向vec

QT用户登录注册,数据库实现

登录窗口头文件#ifndefLOGINUI_H#defineLOGINUI_H#include<QWidget>#include<QLineEdit>#include<QPushButton>#include<QLabel>#include<QMessageBox>#include<QSqlDatabase>//数据库

智能配电监控管理系统:高效、安全、绿色的电力管理

随着科技的快速发展,电力行业正在逐步实现智能化、数字化转型。其中,智能配电监控管理系统在优化电力资源配置、提升运营效率、保障用电安全等方面发挥着至关重要的作用。系统架构:力安科技电易云智能配电监控管理系统是在配电室(含高压柜、变压器、低压柜)、箱式变电站、配电箱及动力柜(箱)、智能终端箱实现智能化、网络化、数字化的基础

虹科CiA演讲回顾 | CAN(FD)总线协议转换原理及其在汽车行业的应用

2023年9月14日,CiA中国技术日直播活动在线上举行,该活动致力于开展与CAN总线相关领域的技术工作,演讲者都是CAN领域的专家。虹科首席工程师陈皓受邀参与活动,并带来以“CAN和CANFD总线协议转换”为主题的演讲。本次演讲内容主要分为三个部分:首先介绍了CAN和CANFD总线的区别,并以此为切入点讲解了两种总线

在已知的二维坐标里找到最接近的点

一、业务场景最近在研发的项目,在做可视化层,在全球地图上,对我们的国家的陆地地图经纬度按照步长为1的间隔做了二维处理。在得到一组整数的点位信息后,需要将我们已有的数据库数据(业务项目)按照地址的经纬度,映射到这些点位上,找到对应的id建立联系。简化后的处理逻辑如下:参考上图:纬度为y轴,跨度为35,间距为1经度为x轴,

李沐深度学习记录1:零碎知识记录、08线性回归

简要记录,以便查阅~一、零碎知识x.numel():看向量或矩阵里元素个数A.sum():向量或矩阵求和,axis参数可对某维度求和,keepdims参数设置是否保持维度不变A.cumsum:axis参数设置沿某一维度计算矩阵累计和x*y:向量的按元素乘法torch.dot(x,y):向量的点乘(点积or内积),结果是

【python绘图—colorbar操作学习】

文章目录Colorbar的作用Colorbar的操作截取cmap拼接cmap双刻度列colorbar引用Colorbar的作用Colorbar(颜色条)在绘图中的作用非常重要,它主要用于以下几个方面:表示数据范围:Colorbar可以显示图中的颜色映射范围,帮助理解图中不同颜色所代表的数据范围。例如,在热力图中,不同的

ReclerView的多种条目布局

一、效果图模仿QQ看点的布局:二、代码MoreTypeAdapter:packagecom.example.qq.ThirdFragment.Adapter;importandroid.content.Context;importandroid.view.View;importandroid.view.ViewGrou

肖sir__项目实战讲解__004

项目实战讲解一、项目的类型金融类:保险(健康险+理财险)、证券、基金(股票型基金、混合型基金、指数型基金、债券型基金、天天基金网(ETF基金、货币型基金、量化基金)、银行、贷款、信用卡、外汇、二元期权、期货原油、blockchain、数字货币、黄金白银、期货、理财P2P(平安陆金所)、比特币。金融类中贷款:平安普惠、3

MySQL 索引

文章目录1.什么是索引?2.为什么使用索引?3.创建索引4.查看索引5.修改索引6.删除索引参考文献数据库索引是MySQL中提高查询性能和数据检索速度的关键工具之一。本文将介绍MySQL索引的基本概念,如何创建索引,以及如何使用索引来优化数据库查询。1.什么是索引?数据库索引是一种数据结构,用于加速数据库查询操作。它是

热文推荐