新闻咨询

新闻中心

当前位置: 首页 > 新闻中心 > 行业资讯

基于中台技术的教育大数据应用研究

2023-09-04 14:06:02

在教育信息化的进程中,教育大数据是实现智慧教育、精准教学、数字治理的重要保障。教育部在《教育信息化2.0行动计划》中指出,要“全面提高利用大数据支撑保障教育管理、决策和公共服务的能力”。因此,教育大数据的理想形态应该驱动教育变革走向精准化、科学化、个性化与智慧化;然而,现实应用却面临教育数据缺乏标准分析机制、数据间关联度弱与挖掘深度不足等诸多限制,致使教育大数据的核心价值受到损毁。数据中台技术是提供数据采集、数据存储、数据处理与数据服务的全链路一体化面向业务应用的数据智能平台,通过构建全域数据共享,能够有效实现教育数据的快速流转与价值挖掘,以促成对教育大数据的最大化利用。徐望等指出,数据中台能够通过智能化构建数据、管理数据资产、提供多种数据服务等,来提升数据技术的应用能力;李子昕等认为,数据中台技术利用各种数据技术对全域数据进行采集和统一,并对复杂原始数据进行存储、管理与连通,可以提供高效的数据服务。基于此,本研究针对当前教育大数据存在的问题与挑战,从数据中台技术出发构建教育大数据中台技术架构,并提出教育大数据中台架构的应用策略,以解决当前教育大数据现实应用中存在的问题,促进教育大数据的有效应用。

 

教育大数据的应用瓶颈


教育大数据为智能时代的教与学赋予了新的思路和方法,通过对教育大数据的采集与分析,能够在实现资源共享、促进个性化学习、形成科学决策、保障教育公平等方面提升教育质量。但由于教育大数据自身的多元性与不确定性、采集与分析过程的复杂性,教育大数据的应用仍未突破“浅层应用”的瓶颈,其教育价值尚未完全彰显,具体表现在以下方面:

 

1 缺标准:标准分析机制欠缺

得益于人工智能、云计算与“互联网+”等技术的支持,教育大数据的采集过程更为高效与精细,因而教育大数据更加多元:既包括教学类数据、学习类数据与管理类数据等差异化数据内容,又涵盖过程性数据与结果性数据等不同环节产生的数据,还包括结构化数据、半结构化数据和非结构化数据的全量数据类型。因此,获取的数据无疑是混杂与冗余的,而当前关于教育大数据领域的分析标准和规范制定并未全面展开,在教育大数据的分析过程中难以形成统一的标准接口与高质量的分析结果。同时,教育本就是一个复杂系统,教育过程、教育对象与教育方式等产生的数据也需要特定的分析方式与处理格式,标准的缺失致使数据分析过程效率低下,分析结果片面、离散。如大数据技术标准不统一、系统顶层设计不完善等,将导致教育领域数据治理面临信息孤岛化、模式碎片化、组织机构功能裂解化等现实困境

 

2 弱关联:数据之间关联度弱

从教育过程的纵向学段来看,当前我国教育大数据研究集中于高等教育和职业教育阶段,而在基础教育领域涉及偏少,教育大数据的全阶段覆盖与连通机制并未形成,数据的一致性与相关性较低;从教育过程的横向学科来看,不同学科有其不同的教育大数据应用场景,其产生的教育数据具有一定的自我封闭性,表现为松散的碎片化特征,难以形成完整的数据应用价值链。对学习者而言,数据间的碎片化与孤立化尚未形成统一连贯的跟随性数据链,数据间的有效关联较弱,导致出现了“数据孤岛”现象,难以支撑学习者精准数字画像的刻画,同时也容易在数据清洗、转换、处理与分析过程中出现重复操作和资源浪费的现象。

 

3 浅挖掘:数据挖掘深度不足

教育大数据类型繁多且价值密度低,因此需要通过数据挖掘来提取有意义与高质量的信息,从而为教与学过程提供精准支持和决策。当前,各教育部门主要通过国家平台、企业平台与学校自建平台等进行数据挖掘,这些平台的用户对象或使用方式虽存在差异,但其数据挖掘实际过程却大同小异,即普遍采取“垂直式”“烟囱式”的架构来进行挖掘,造成当前基础功能架构的大量重复性开发,数据的一致性和可复用性较低,在挖掘数据价值、数据关系等方面捉襟见肘。这种架构的用户目标指向高效率的数据挖掘流程,各功能模块封装线性单一,其基础性功能无法进行模块化组合——模块间不能通过多元搭配、组合来丰富与深化应用,不利于应用功能的沉淀和持续发展,最终导致高质量的深度数据挖掘过程被忽视。

 

数据中台技术的内涵解析


数据中台技术早期出现于芬兰超级细胞(SuperCell)公司的管理模式中,该公司形成了一种“部落式聚集”的信息时代公司架构,即通过将核心通用能力抽离出来,形成一个精而深的独立中台,以更为灵活、高效地支撑业务发展。项阳[11]认为,数据中台是数据的“公共服务平台”,通过数据技术进行数据采集、计算、存储与加工后,汇集为统一标准与口径的标准数据,形成为客户需求提供高效服务的大数据资产层。Gartner在《分层应用策略》Pace-Layered Application Strategy报告中,将IT组织应用系统划分为前台、中台与后台等三个层次,并指出中台的关键作用在于为前台需求提供快速响应能力。李爱霞认为数据中台是一种组织战略,通过连接前、后台来促使前台更好地快速响应业务变化,让数据持续不断地用起来。张弛指出数据中台能够将前台与后台有机地连接起来,通过连通大数据来有效解决数据与业务脱节的问题。综上而言,数据中台技术是通过将核心技术与业务能力沉淀为一个综合性的通用平台,以支撑对前台各种业务需求与创新发展的快速响应,实现对数据的高效率与高质量应用。数据中台的运行机制以OneData为核心,设有OneID、OneModel与OneService等模块,来实现数据的萃取、处理、储存、共享与服务,并形成一套规范完整的数据资产体系,以支撑数据的高效应用。

 

1 OneData体系的核心方法论

数据中台的建设是为了让数据更好地利用起来,其关键之处在于数据标准的统一,以高效适应多元业务需求。OneData体系是数据公共层建设项目中的核心方法论,通过数据规范定义与数据模型设计,来达成业务开发与应用进程的一致,目的在于指导数据与管理数据的构建。通过统一开发规范与技术标准,规避建设过程中的重复、冗余工作,最终实现能够持续产生价值的数据资产化,以提高数据的应用效率、降低数据应用的成本。

 

OneData体系具有以下特性:①根基性,是指OneData体系在数据中台建设过程中的核心支撑作用,在设计、开发、搭建、应用与管理过程中均要遵循OneData的核心思想;②规范性,是指数据要形成统一标准规范,在数据命名、数据口径、数据处理与应用等过程中严格执行标准,确保数据业务过程的一致性;③扩展性,强调OneData体系支撑的数据应用能够满足不同业务需求的快速调用与响应,不论是对数据的价值分析还是基于数据的创新发展,都能够科学、有序、高效地进行。

 

2 OneID——融通个人数据

OneID是通过统一的数据萃取,来解决当前不同部门、业务之间产生的多样化数据而造成数据难以匹配与关联的“数据孤岛”现象。具体来说,是将用户或实体识别并映射生成统一的UID(如学校选择身份证号作为全局唯一ID),形成数据仓库中的全局唯一身份标识,以有效关联、融通不同领域和部门间的数据,实现数据的无缝连接,保障业务分析与用户画像的精准性、全面性。OneID的数据收集方法能够确保用户数据的一致性、完整性与相关性,实现数据的有效流通与智能管理。

 

3 OneModel——接通平台数据

数据中台旨在通过数据公共层建设来打通“烟囱”式信息连接链路,构建全域性的数据流通回路,而OneModel是其关键。OneModel的方法强调数据唯一性的数据域和业务过程,与其下的指标、实体属性等的结构化组装、命名与定义,以及保障数据模型复用与稳定的基础层、中间层与应用层的分层架构设计。通过该方法将数据的规范定义、模型设计与数据开发等操作形成一套“公共”体系,实现数据中台建设的产品化与资产化构建(如阿里巴巴Dataphin),从而满足不同平台、部门对大量数据的处理、应用与管理需求。

 

4 OneService——统一数据服务

OneService旨在实现统一的数据服务能力,以促进数据的共享与复用,为面向业务与面向应用提供服务。OneService体系基于逻辑模型的自动化、智能化数据建模来实现:首先,对每个数据指标进行数据规范定义,并将其对应到一个逻辑模型中,形成对数据指标进行智能计算和存储的“智能黑盒”;其次,当应用或业务需求调用某个API时,对该API数据调用解析出来的SQL语句将直接通过基于逻辑模型的智能黑盒进行查询请求与返回结果;最后,依据业务形成主题式数据服务、统一但多样化数据服务与跨源数据服务。因此,统一的数据服务实现了数据的开放与共享,同时也保障了数据隐私与数据安全。

 

数据中台是大数据时代的产物,其目的是实现对大数据的更好利用,即通过数据中台来突破当前数据“烟囱”“孤岛”的大数据管理与应用模式,经过统一标准化处理来形成数据开放共享的数据架构。对于教育大数据来说,现实应用中存在的缺标准、弱关联与浅挖掘等问题致使数据应用与服务效率低下,教育大数据的应有价值不能得到体现。数据中台致力于实现“让数据用起来”的核心目标,通过将海量数据转化为一套高效可靠的数据资产体系和数据服务能力,来有效地发挥教育大数据的价值。通过教育数据资产化与资产服务化,让成为资产的数据有效融入应用与业务中进行价值发现与创造,促使教育数据持续地用起来,以更好地提供数据服务。

 

教育大数据中台架构


基于数据中台技术构建教育大数据架构,是为了让数据产生持续价值,通过数据资产化的过程来促使教育业务与应用的标准化、规范化,形成高效的数据资产体系与数据服务能力,以更好地为教育教学提供服务。本研究以“教育大数据持续产生价值”为依据,使从基础工具中产生的数据源经过数据中台的数据采集、数据存储、数据处理与数据服务等板块,形成可以提供高效服务的数据资产体系,为发挥数据价值的教育应用提供支撑;同时,通过数据治理板块来保障数据中台的长久健康、持续地运作,维持数据中台的高效运营,由此构建了基于数据中台技术的教育大数据架构(下文简称“教育大数据中台架构”)


 

1 数据中台架构:数据采集—存储—处理—服务的核心体系

1)数据采集

智能时代的数据依附于互联网、5G网络、云平台、物联网以及本地机房等基础设施工具,数据产生于教与学过程中与基础工具的交互,并进一步汇聚形成数据源。依据数据源的特点,可以将其分为内部数据与外部数据、结构化数据与非结构化数据、可变性数据与不可变性数据等。为保障数据源的全面性与多样性,本研究将教育数据源分为内部数据与外部数据。其中,内部数据是指在教育内部系统中产生的教学或学习行为、学习成绩、效果评价、日常管理、智能设备或传感器与各种日志文件等数据;外部数据是指通过网络爬虫获取的互联网数据、第三方接口数据等教育系统之外产生的相关数据。对于上述教育数据,通过全过程的数据采集才能获取动态全面的数据,因此数据中台的采集过程主要从离线采集与实时采集两方面进行

 

①离线采集。离线采集针对时效性要求不高的数据,主要目标在于实现大批量数据的周期性迁移,首先通过全量、增量的方式进行数据读取,接着进行分布式批量数据同步过程,最后进行目标数据的存储。离线采集一般通过数据提取—转换—存储(Extract-Transform-Load,ETL)的方式进行,但ETL操作的适用对象为轻量级数据——对于大规模数据场景,则需要采用数据提取—存储—转换(Extract-Load-Transform,ELT)的方式进行,以避免大量数据在复杂清洗过程中出现数据传输效率低下、价值信息丢失的情况。数据离线采集的工具主要有Canal、Sqoop与DataX等:Canal的流程架构清晰简洁,能够通过模拟交互协议来产出解析的增量数据,实现数据同步;Sqoop是连接关系型数据库与Hadoop的桥梁,能够实现结构化数据与分布式文件系统(Hadoop Distributed File System,HDFS)之间的批量数据迁移;而DataX是一款开源的异构数据离线同步工具,具有插件式、高效数据转换与全链路监控等优点。

 

②实时采集。实时数据采集面向低时延、高时效的流数据应用场景,通过读取日志或消息通知的方式来实现对数据的实时处理,如网站或APP的日志数据、教与学中的实时行为、课堂中的即时评价与反馈等。因而,需要响应快与高并发的采集工具,如Flume、Kafka与Storm等。Flume是一个高可靠、实时的分布式日志采集、聚合与传输系统,支持日志系统中的数据定制与简单处理;Kafka是一个分布式发布订阅消息系统,具有高吞吐量、低延迟的优点,能够实时处理大量数据来满足不同的场景需求;Storm作为开源的分布式实时大数据处理框架,能够简易、高效地支撑流式计算,采集与汇聚在线学习、实时分析、监控与预警系统等方面产生的数据。

 

2)数据存储

为满足数据采集过程中获取海量教育数据的存储需求,需要采用差异化的存储方式,主要包括:①分布式文件系统HDFS,其基本组成为NameNode与DataNode,其中NameNode负责管理文件系统的元数据,DataNode则用于存储实际文件数据。HDFS能够将数据存储在多台通过计算机网络连接的分布式独立机器上,形成多个自主的处理单元,并对数据进行相应管理,即提供高容错性、高吞吐量、高可靠性的数据批量存储与处理,以有效支撑教育过程中产生的智能设备/传感器数据、选课数据、学籍信息与平台日志数据等。②非关系型数据库NoSQL,它是为了应对关系型数据库无法满足大数据的高并发与高扩展性需求而出现的产物,具有非关系型、分布式、大规模、易于横向扩展等优势,能够有效实现教育过程中文档、图形、视频与搜索等非关系型数据的存储,主要工具有开源列族数据库Hbase与文档型数据库MongoDB。③关系型数据库,通过采用一致的表结构来存储学生成绩、教学评价与一卡通等结构化数据,能够保证数据的完整性、准确性与一致性,具有支持SQL查询、格式标准、高规范性等特点,主要工具有MySQL、Oracle等。④云数据库,是以云计算技术为依托的一种共享基础架构方法,是将数据库在云计算环境中虚拟化,支持并确保教育应用实现软件即服务(SaaS)的数据库服务方式。云数据库可以直接通过Web页面进行配置与管理,拥有易扩展、可监控、可靠的数据备份与恢复等功能,能够有效存储学习日志、学习资源、教育管理与博客/讨论区等教育数据。

 

3)数据处理

数据处理是依据相应的数据标准与技术规范对数据进行清洗、变换,为教育数据挖掘与开发提供目标数据的过程。数据清洗具体包括消除噪声、缺失值处理、冗余消除与数据类型转换等,具体方法有统计学方法、基于聚类的方法、基于分类的方法、基于距离的方法、基于关联规则的方法,在实际处理过程中需要针对不同的特征数据选择恰当的方式来进行数据清洗;数据变换则在于消减数据集合与特征维数(降维),以提高处理效率,主要通过数据平滑、数据聚集、数据概化与数据规范化的方式进行。

 

数据挖掘是通过综合数学统计、机器学习与挖掘技术来处理并分析数据,以提取价值信息,并通过量化分析与数据建模,来揭示、预测教与学各变量间的相关关系,为教师、学生、家长与教育管理人员提供参考与服务。同时,数据中台以数据挖掘为基础进行数据开发,以形成有价值的数据资产与相应的教育模型。数据开发包括离线开发、实时开发与算法开发①离线开发针对离线数据的加工与管理,以及数据分析、在线查询与即席分析等;②实时开发主要面向数据的实时接入与处理,以及对流数据加工与处理过程的简化;③算法开发集成了以批计算为核心的离线模型训练功能与以流计算为核心的在线机器学习功能,拥有可视化建模与Notebook建模等方式。此外,数据挖掘与开发工作也将促进教育模型库的建立,依据不同的应用场景,可分为教学过程、学习资源、教学评价、教学预测与教育管理等类型,教育模型库为数据中台提供标准指标,促进了教育数据的封装与产品化,以更好地为数据服务提供支持。

 

4)数据服务

数据服务是教育数据向教育应用转变的关键支撑,通过数据中台对数据资产进行封装达成“数据资产化”到“资产服务化”的过程,来实现数据资产的价值,主要包括:

①API服务,是一种较为常见的数据服务方式,上层应用通过请求/响应过程来访问数据,实现数据与应用场景的对接,使得应用可以便捷、高效地使用与调用数据中台的数据资产,促进教育数据的应用与流转。

②标签服务,是基于数据标签来刻画与描述业务实体特征,以进行筛选、对比、分类、处理与决策等过程,从而丰富教育数据的应用场景与对象。通过建立恰当的标签体系,来确保教与学过程中的归因、预测、科学决策、智能管理等分析过程的真实性、科学性与全面性,尤其是教育中的不同分析对象(如学习者、教师、家长、教育管理人员等),需要足够丰富的标签数据才能确保分析的科学性与准确性。

③数据可视化,能够将教育数据通过图形或图形格式的方式进行呈现,以帮助用户快速理解并掌握有价值的信息,具体包括统计数据可视化、关系数据可视化、时间序列数据可视化与文本数据可视化等;其具备的直观化、关联化、动态化与交互化等特点,能为学习者呈现直观知识、进行动态评价与绘制成长曲线等,并更好地为学生成长、教学管理、教育发展等提供服务。

④数据查询/分析服务,是依据检索来获取条件数据或对数据进行关联分析获取数据特征值,并将结果返回为教育应用提供支撑。

⑤智能推送,是通过对不同对象的行为数据与访问日志数据等进行数据挖掘,来构建对象与对象、行为、资源间的程度关系,从而为教师、学习者、家长、教育管理者等推荐相应的服务、资源与信息等。

 

2 数据应用:教育大数据的价值实现

教育大数据的价值需要在具体的数据应用中体现,数据中台对教育大数据进行统一标准与口径的采集、存储与处理过程后,形成标准数据与数据资产,从而灵活、高效地为教育教学提供服务:

①数据中台技术能够支持精准刻画教师/学习者的数字画像,通过对教与学的对象、行为、过程与效果等教育关键要素进行建模与分析,形成师生的多模态智能画像,从而为教育过程中的决策、管理、服务等提供参考与支撑。对学习者而言,数字画像包括基本属性、知识背景、生活习惯、学习行为与学习风格;对教师而言,数字画像包括教师特征、教研心理、社会交互、教研行为与教研成果。随着新一代人工智能技术、5G与全息技术等的加持,数字画像也将逐步迈向数字孪生体。

②教育大数据能够为教与学过程提供科学、精准的决策,并通过对教育数据的全面采集、处理与分析,能够让研究者全方位地掌握教与学过程中的现状、问题及其原因,从而进行更为科学精准的教育诊断、全面归因与智能预测等,实现教育决策的“有据可依”“有据可循”,帮助教师、学习者、教育管理人员与利益相关者进行决策。

③教育大数据时代的教学与学习资源体量巨大、丰富全面,对于教学过程,教师能够依据对学习者的智能分析(数字画像、知识图谱、智能诊断等)结果来充分利用丰富的教学资源,实现教学资源的共建、共享与共用,并通过采取多元化的教学方法与策略,提高教学过程的有效性;对于学习过程,教育大数据能够有效支持学习者进行个性化自适应学习,通过数据挖掘与学习分析技术来构建学习者的特征模型或学习者画像,为学习者提供适应性的学习路径与学习对象等,实现学习过程中学习者控制学习、自我调节学习与教师适时干预指导

 

3 数据治理:数据资产的质量保障

数据资产的质量需要通过数据治理来得到保障,通过健全数据运行与管理体制,规范教育数据全生命周期过程,来实现数据的有效汇聚与融合、促进数据高效流转与合规利用,以有效提升数据的服务能力与质量,具体包括:

①数据安全,是综合运用多种技术手段来对数据流转过程进行监测、管控与维护,及时对过程中的风险或问题采取相应的主动保护措施,如为安全风险设置防线、对敏感数据进行脱敏处理、对隐私数据进行保护等,确保全局数据的安全运营;

②数据标准,是数据治理体系中的基础环节,通过提供统一的标准定义规范为大数据的管理与应用赋能,以全面保障数据治理的一致性与准确性

③数据质量,在于通过对数据的全生命周期过程进行质量监控与管理,来衡量与改进数据的质量,以提高教育大数据的服务与应用质量;

④元数据,是描述数据属性或结构的数据,元数据管理主要包括元数据模型构建、元数据关系管理和元数据应用管理;

⑤数据生命周期管理,是对数据从采集到销毁之整个生命周期内的流动过程进行管理与控制,进行数据健康监督、数据清理备份和数据维护等,以确保数据的平稳流转并挖掘更多的数据价值。

 

教育大数据中台架构的应用策略

构建基于数据中台技术的教育大数据架构能够赋能教育数据价值发掘、高效服务和智能服务,实现“让教育数据用起来”“让教育数据用得好”,促进教育大数据各环节的良性循环,提升教育大数据服务教育教学的质量与水平。教育大数据中台架构的落地,能够形成统一规范的数据标准,实现数据资产的全链路打通,建立统一的数据公共层,最终形成快速高效的数据服务能力,促使教育大数据的工作重心转向支撑应用、价值挖掘与价值创造等方面,突破当前教育大数据的应用瓶颈。同时,在教育大数据中台架构的建设与应用过程中,需要透过中台技术厘清教育大数据的本质价值,一是明晰数据中台的数据资产体系,产生从数据技术到数据思维的转变;二是基于数据中台的数据融通思想,实现从数据闭环到数据生态的打造。

 

1 数据资产:数据技术到数据思维的转变

大数据时代让我们意识到数据蕴含的巨大价值与服务潜力,因此,我们需要重新审思数据的本质价值。当前教育大数据的设施、机制、管理与应用仍大多基于数据技术层面,即仅将数据看作是一种技术平台的产物,旨在能够以简洁、可视化的形式来直观呈现信息。基于此,“数据技术”强调数据的基础设施建设、采集处理与描述性分析等,而非数据间的内在关联与模型构建等,造成当下教育大数据的研究与实践特征仍以技术思维、数据分析思维为主导。教育大数据中台的建构旨在形成统一的数据资产体系,让教育大数据持续产生价值,以高效服务教育教学过程,因而对教育大数据的认识需要从数据技术转为数据思维。数据思维强调对数据的深度处理与价值挖掘,以形成统一的数据资产体系与数据服务能力,来认识事物或现象的本质,从而进行科学决策、状态分析与未来预测等。

要实现从数据技术到数据思维的转变,一是需要强化“数据服务”的意识,推动数据与教育的有机融合,发掘数据蕴含的价值,让学习者、教师与管理者能够主动利用数据来实现自身需求,让数据为教育教学过程服务,做到“用数据说话、用数据决策、用数据管理、用数据赋能、用数据创新”;二是在数据服务的过程中提升数据素养,促使教师与管理者能够批判性地、有效地与符合伦理地获取、解释、理解、运用和管理教育数据,培养基于数据的问题发现与解决能力,以此提升教与学的效果与教学决策能力。

 

2 数据融通:数据闭环到数据生态的打造

教育大数据中台架构能够实现教育数据化、数据资产化、资产服务化、服务应用化、应用智能化,持续赋能教育数据应用闭环,提高教育数据的服务效果与质量。但在教育领域中,教与学过程是由学习者、教师、管理者、资源与设施等要素组成的复杂系统活动,教育数据的产生不仅来源于单个要素的作用,更多的是多个要素之间的全面协同调配、融通循环。因而,在教育大数据中台架构的深入应用过程中,要促进教育中各要素之间的数据融通,推动教育大数据与教育应用之间的深度耦合,打造教育数据驱动教育服务的数据生态系统,具体包括:

①要持续挖掘以数据融通为核心的教育服务应用,不断推进教育服务的个性化、高效化与精准化,实现教育服务的智能进化,以全对象、全方位、全过程地掌握教与学的状态和效果;

②数据融通的汇聚点在于人的发展,数据中台技术支持下的数据生态在不断维持并优化数据服务能力的同时,也要持续聚焦于教育对象的成长,从而促进学习者的全面成长、教师的专业发展与管理者信息化领导力的形成,真正实现数据生态环境下的智慧教育。


(本文来源:胡翰林、沈书生 《现代教育技术杂志》

本文网址:/news/112.html

近期浏览:

相关产品

相关新闻

image.png

   手机号码:181-6656-2464(咨询洽谈)

   邮箱地址:office@yunhuakeji.com

   公司地址:重庆市九龙坡区火炬大道69号 重庆启迪科技园13号楼2层

座机号码:

023-68529599 / 400-168-2779

Copyright © 新莆京app电子游戏(中国)有限公司 All rights reserved 备案号:渝ICP备19003819号-1

用户协议    隐私申明    法律声明