焦点期刊
在线客服

著作编辑 著作编辑

咨询邮箱:568476783@qq.com

教育论文

提高高校数据价值密度的策略

时间:2023-12-24 21:18 所属分类:教育论文 点击次数:

大数据是指在可承受的时间范围内使用传统软件工具进行捕捉、管理和处理的数据集,需要采用新的处理模式来获取大量智能、深入、有价值的信息,以获得更强的决策能力、洞察力和过程优化能力的海量、高增长率和多样化的信息资源[1]。目前,大数据具有4V的特点:数据规模大,即数据量大,数量级从TB跃升到PB,很快就会产生EB级甚至ZB级数据;数据类型多,数据类型不仅包括传统的关系结构化类型,还包括半结构化和非结构化类型;处理速度快,数据生成和更新频率快,需要更快的数据处理速度;价值密度低,数据量增加,但获取有用信息更加困难[2]。
 
一所大学的大数据
 
大数据已经提升到国家战略水平。“十三五”规划明确提出大力发展大数据产业,加快数据强国建设,实现中国从数据强国向数据强国的转变。大数据正在推动各行业的发展。高校作为教育机构,不仅可以利用信息技术发展教育,还可以促进信息时代的发展[3]。高校也是大型数据生产商。从宏观角度看,高校的工作可以分为教学、科研和管理三类。从教学角度看,会产生学生作业数据、学生学习成绩数据、教师备课教案数据、教师备课数据等;从科研角度看,会产生教师科研数据;从管理角度看,会产生学生基本信息数据、教师基本信息数据等?员工基本信息数据、学校基本信息数据、学生评价数据等。这些高校生成的数据具有数量大、种类多、生成快、真实可信、分析价值高的特点,完全符合大数据的特点。研究这些数据对高校建设和发展具有重要意义。例如,大数据可以预测学生是否能顺利完成课业,纽约州波基普西玛丽斯特学院(MaristCollege)与运营数据分析公司Pentaho合作发起开源学术分析计划(TheOpenAcademicAnalyticsInitiative),预测哪些学生可能无法在新课程开始后两周内顺利完成课程。通过收集和分析学生的学习习惯―比如点击网上阅读材料,是否在网上论坛上发言,完成作业的时间――预测学生的学业情况,及时干预,帮助有问题的学生,从而提高毕业率。另一个例子是大数据可以找到被关注的学生。电子科技大学曾经做过一个主题―在校园里寻找最孤独的人。他们从3万名学生中收集了2亿多个行为数据,包括学生选课记录、进出图书馆、宿舍、食堂用餐、超市购物等。通过分析不同校园一卡通“一前一后刷卡”的记录,我们可以发现一个学生在学校有多少亲密的朋友,比如恋人和闺蜜。最后,他们在800多个校园里找到了最孤独的学生,平均在校两年半,没有知心朋友。这些人中有17%可能患有精神疾病,其余的可能会用意志力暂时克服症状。这些学生需要学校和家长的照顾。高校大数据应用广泛,但也存在一些问题,以后会重点分析。2数据可用性
 
随着大数据时代的到来,大数据的爆炸性增长,但数据集中的劣质数据也在增长,导致数据的整体质量下降,真正有用信息的利用率不是很高,这是上述大数据的主要特征之一——低价值密度。为了挖掘大数据更有用的价值,提高数据质量,对数据可用性的研究对有效发挥大数据的作用具有战略意义[4]。研究人员普遍认为,数据的可用性包括五个方面:数据的一致性、准确性、完整性、及时性和实体同一性。具体定义如下:
 
1)一致性:相关数据之间没有矛盾,逻辑关系要完整正确。
 
2)准确性:数据集中的每一个数据都表示了真实物体的准确性。
 
3)完整性:数据集中包含的数据完全满足数据操作的要求。
 
4)及时性:指数据在不同需求场景下的及时性和有效性。
 
5)同一性:指同一实体在各种数据源中的描述必须相同。
 
数据集合,满足上述五个性质的程度称为数据集合的可用性。
 
高校也存在数据可用性问题。数据一致性问题:高校管理职能往往重叠,导致信息重复采集。比如学生的基本信息,学院和教务处都有记录,同一个字段有差异。
 
数据完整性问题:例如,不同部门使用同一数据的习惯和方法不同,数据格式不统一,导致数据不完整。数据不及时、不完整的问题:由于收集到的信息不及时,所使用的数据可能不是最新的。数据同一性问题:例如,有些员工既担任行政职务,又担任教学职务,但系统中有两个实体记录,这是不正确的,应该属于同一个实体。
 
提高高校数据价值密度的策略
 
以下是关于如何提高高校数据的可用性的两个方面:数据的一致性和实体的一致性。
 
1)高校在不同系统中存在信息重叠和数据不一致的现象。笔者认为,很大一部分原因是各部门或系统之间的数据无法共享。为方便学校统一数据管理,可在校园内搭建数据管理应用平台,实现各部门数据的应用共享,各部门制定统一的存储标准。在设计数据库时,要充分考虑数据的安全性,避免数据冗余,快速实现数据的可视化分析,定期维护数据的一致性,如优化数据、建立多个副本、定期更新等。
 
2)目前,实体同一性研究是研究数据可用性最多的一个方面,主要涉及两种方法:第一种是从语义规则的角度进行同一性研究,主要通过经验知识描述实体的同一性;第二种是从相似性的角度进行同一性研究,主要通过相似性函数来判断实体的同一性。在这里,笔者认为,使用第一种方法来描述高校数据的实体同一性,首先要能够识别实体,进行正确的分析,即找出哪些数据实体描述的是同一个物理实体,给定的数据实体描述的是哪个物理实体。对于关系数据,如各信息系统的数据,应有实体统一错误检测机制,以确保实体的统一。目前,对半结构化和非结构化类型的识别方法研究很少,只能通过人工识别进行。
 
为了真正实现高校信息管理,在实施大数据的过程中会面临诸多挑战。例如,一些数据涉及个人隐私,因此在收集过程中存在一些困难。另一个例子是教育数据的动态变化。掌握动态变化规律,实现实时数据更新是一个很大的挑战。这些问题需要进一步研究。
 
4结语
 
大数据的兴起给教育行业带来了前所未有的机遇和挑战。如何利用大数据的理念将教学、科研和管理数据转化为高校的决策依据,更好地服务于高校的管理和建设,是高校的目标。大数据对高校的智能化管理具有重要意义。高校会产生大量的数据,但数据的价值密度很低。本文从数据一致性和实体一致性两个方面研究了数据价值密度的提高。当然,要更好地提高高校数据质量,还需要进一步探索。