导图社区 教育大数据
这是一篇关于教育大数据的思维导图,主要内容有大数据时代、教育大数据、教育大数据实例(科大讯飞)、教育数据类型等。
编辑于2022-10-16 19:17:47 北京市一步步教你构建一个股票模糊搜索框,涉及JavaScript学习、前端设计与编程、股票数据处理、Django网站搭建等各个方面的知识。强烈推荐计算机编程初学者参考尝试,有助于快速提高编程能力。
来自名牌大学博士生的书单推荐。涉及计算机科学、数学、复杂性科学、心理学、社会心理、生物学等等各个学科,帮助大家拓宽眼界,开拓视野,积累知识,走向成功人生。
本模板介绍了计算机学科学术论文检索与阅读的方法,非常适合希望提高学术能力的本科生和研究生学习。模板介绍了论文的相关名词解释、搜索工具、基本结构、阅读方法和原则等内容,有助于提高学生的学术科研能力。
社区模板帮助中心,点此进入>>
一步步教你构建一个股票模糊搜索框,涉及JavaScript学习、前端设计与编程、股票数据处理、Django网站搭建等各个方面的知识。强烈推荐计算机编程初学者参考尝试,有助于快速提高编程能力。
来自名牌大学博士生的书单推荐。涉及计算机科学、数学、复杂性科学、心理学、社会心理、生物学等等各个学科,帮助大家拓宽眼界,开拓视野,积累知识,走向成功人生。
本模板介绍了计算机学科学术论文检索与阅读的方法,非常适合希望提高学术能力的本科生和研究生学习。模板介绍了论文的相关名词解释、搜索工具、基本结构、阅读方法和原则等内容,有助于提高学生的学术科研能力。
教育大数据
大数据时代
方面
移动通信
云计算
社交媒体
物联网
来源
信息技术革命与经济社会活动交融
大数据
数量巨大,种类繁多,增长极快,价值稀疏的复杂数据
科学观测,实验过程的记录,经济社会活动的碎片化再现
大价值
理想小世界与真实大世界
解读各自领域的大数据正成为各行各业的基本科学活动
人类基因组
解读DNA数据是生命医学的基本科学活动
概括
拥有大数据是时代特征
解读大数据是时代任务
应用大数据是时代机遇
师大信息网络中心数据
成绩好的同学打水次数多
随着时间推移,宿舍同学成绩差异越来越小
数据很有价值,但不能迷信数据
特点
Volume
数据量巨大
Variety
结构化半结构化非结构化-数据多样性
Value
沙里淘金,价值密度低
Velocity
实时获取需要的信息
重要性
大数据技术是解决众多国家重大现实需求问题的共性基础
大数据技术
如何收集整理存储解读应用大数据的理论和方法
例子
突发事件预测,关键人群监测
医疗诊断方案
环境治理
城市智慧管理
价值
大数据具有重大科学社会经济价值
提供社会科学的方法论
形成科学研究的新范式
开拓高新科技的新领域
助力社会进步的新引擎
大数据技术有用了的原因
数据量
计算能力
大数据技术的核心
分析与处理
需要多学科综合研究
数据获取与数据管理
资源管理与公共政策
数据存储与处理
大数据高效获取存储调用与处理的信息技术
数据分析与理解
大数据分析与处理的统计学与计算基础
结合领域的大数据应用
大数据工程
数据是基础,平台是支撑,分析是核心,服务是根本,效益是必然
教育大数据
特点
中等体量
非实时性
周期较长
非结构化
高复杂性
教育大数据需求的五个层次
学习层
个性化学习
教学层
因材施教
差的最远的是教育心理认知
研究层
学习规律
管理层
精细管理
政策层
机制设计
大数据能帮我们发现大量的相关,但难以告诉我们因果
发改委交给北师大的任务
基础教育大数据研发与应用
三类技术
教育系统化监测与评估
教与学过程行为分析
学生个性化成长综合建模分析
一个平台
教育大数据标准
建设一体化双中心大数据云平台
百万级以上用户在线并发访问和分组查询
三类服务
资源配置绩效监测和干预
教与学规律重构和质量改进
学生学习成长监测与服务
1万所学校,20万教师,500万学生
教育大数据实例(科大讯飞)
教育痛点
如何开展因材施教
如何解决课业负担过重
如何提高教学效果
区域如何实现科学管理
如何用大数据解决问题(做出一桌好菜)
原始数据(食材)
埋点
例如用户操作记录
业务库数据
例如作业提交
数据指标
对象
教师学生设备资源
教学单位
学校年级班组科
时间
分时日周月季学期年
大数据能力平台(厨房)
目录管理系统
数据接入平台
数据资产管理平台
数据治理平台
数据开发平台
可视化分析平台
数据共享平台
数据安全平台
数据处理(烹饪)
分析模型(烹饪秘方)
分析报告(满汉全席)
数据产品经理(厨师)
三维分析
知识点
能力素养
任务类型
教育数据类型
教育数据类型
kaggle网站
epsdata
微观数据:学习过程
中观数据:考试数据
中观数据:升学数据
相关概念
数据仓库
the data warehouse toolkit
维度
过程
数据的背后对应过程
缩写
ODS——操作性数据
DW——数据仓库
DM——数据集市
人工智能
50年代
机器学习
统计
特征工程
深度学习
多层网络
教育数据质量评估
GIGO
gabage in gabage out
CDO首先关注数据质量
漏斗法
利用统计学方法确定需要监控和改善的数据元素
识别阶段
业务专家提出候选核心数据元素
业务评价标准为数据元素评分
优选阶段
统计分析确定相关数据元素
信噪比分析确定最终元素
质量评估维度
完整
年份缺失
一致性
例如
外国人名
地址
单个数据库很棒,合在一起就完了
有效性
年龄-1
准确性
身高160,160.2
timeless
教育大数据中的机器学习
科学家
图灵
香农
会议
达特茅斯会议
参会人
香农
麦卡锡
闵斯基
统计学派
从经验学习
西蒙
纽厄尔
符号学派
制定复杂规则
主要议题
自动计算机
编程语言
神经网络
黑盒
计算机规模的理论
复杂度
自我改进
机器学习
抽象
随机性和创见性
人工智能的概念
没有公认的统一的概念
哲学上
人的智能在其他载体上的体现
数学上
一套数学的计算方法,是数论图论线代概率论等分支学科的融合
电子工程上
一套可嵌入的智能芯片组和软件系统
计算机科学上
算法与编程语言的集合
机器学习的概念
对于某给定的任务T,在合理的性能度量方案P的前提下,某计算机程序可以自主学习任务T的经验E;随着提供合适、优质、大量、的经验E,该程序对于任务T的性能逐步提高。
从数据中自动分析获得规律(模型),并利用规律对数据进行预测
人工智能
专家系统
其他
机器学习
传统方法
逻辑回归
SVM
XGboost
其他
深度学习
相关词汇
统计学习
近似于机器学习,与机器学习高度重合
区别
统计学习注重理论
机器学习注重实践
机器学习中多数算法来自统计学,统计学习的发展促进了机器学习的发展
数据挖掘
机器学习+数据库
分析数据的一种方式,在假设数据之间存在某种规律的前提下,通过各种机器学习算法从数据中挖出相应的规律和知识
不一定能挖到金子,不一定能挖到正确的规律
需要对业务场景深刻认识
计算机视觉
图像处理+机器学习
利用图片处理技术将图片处理为适用于机器学习模型的输入,由机器学习算法识别出相关规律
热门研究方向:百度识图,图谱预测,自动驾驶
随着深度学习发展,图片识别效果未来不可限量
自然语言处理
文本处理+机器学习
让计算机理解人类语言的技术
将人类的语言信息处理成机器学习能识别的数据,同时加入大量与编译原理相关的技术如语法分析
机器学习不断研究的方向
语音识别
语音处理+机器学习
结合自然语言处理使用
结构化数据
非结构化数据
机器学习开发的一般流程
数据收集
数据清洗
特征工程
模型构建
线上预测
数据类型
离散型变量
整数计算
连续型变量
一定区间内任意取值
机器学习算法分类
监督学习
分类
k近邻,决策树与随机森林,朴素贝叶斯,逻辑回归,GBDT,XGBoost,支持向量机
回归
线性回归,岭回归,lasso回归
非监督学习
k-means聚类
强化学习
Q-learning
特征工程
将原始数据转换成模型可训练数据的过程
旨在获取更好的训练特征,提高模型性能
最重要的环节之一
损失函数
平方损失函数
交叉熵损失
欠拟合与过拟合
交叉验证
训练集与测试集
网格搜索
超参数
手动指定的参数
预先不知道如何设置超参数,可提供几个选择分别构建模型,对每个模型交叉验证选择最优
回归模型评价指标
均方根误差
r²与调整r²
分类模型评价指标
混淆矩阵
精确率
预测为正例的样本中真为正的比例
召回率
真实为正例的样本中预测为正例的比例
伪阳率
F1-score
ROC与AUC曲线
以FPR为x轴,TPR为y轴,遍历不同阈值获得不同FPR和TPR值,构建ROC曲线,ROC曲线下的面积为AUC,AUC在0-1之间,越大越好
可解释的机器学习XAI
摆脱黑盒模型,构建人类与机器学习之间的信任
模型有关与模型无关
整体的可解释性
个体局部的可解释性
反事实解释
小样本学习FSL
机器学习领域中重要且有难度的课题
基于少量样本进行学习和泛化能力是区分人工智能与人类智能的重要分界线,因为人类基于少量样本建立对新事物的认知,机器学习需要数百数千监督样本来实现泛化。
联邦学习
新兴的人工智能基础技术,目标是保障大数据交换时的信息安全,保护终端数据和个人数据隐私,保证合法合规的前提下,在多参与方或多计算节点之间开展高效率的机器学习。
算法不局限于神经网络,包括随机森林等重要算法。
步骤
加密样本对齐
加密模型训练
效果激励
书
统计学习方法李航
西瓜书
数据密集型教育研究
科学范式的变革
远古时期
实验归纳
文艺复兴
理论推演
20世纪后半叶
仿真模拟
当下
数据驱动
数据科学的兴起给教育研究带来了新的机遇和挑战
之前的范式
教育无需怨杨柳,春风不度玉门关
数据驱动的范式
教育大数据的春风飘洋过海,教育迎来了改革春风
互联网+时代知识特点
海量
如何掌握
动态
如何更新
综合
如何交叉
境域化
如何评价
知识观的进化与发展
传统知识观
有限书本知识
静态客观知识
普遍抽象知识
分科系统知识
回归论知识观
海量网络信息
动态主观知识
境域操作知识
综合碎片知识
数据
有关学习者的数据
在线学习环境是大数据生成的地方
在线学习的教学设计
实证主义
建构主义
数据密集型研究
基于复杂网络的信息挖掘方法
基础
实际系统中的复杂网络
航班,因特网,关系网等
复杂网络的矩阵表示
有向无向
矩阵对称
加权不加权
1变为其他数字
结点类别
单顶点(mono-partite network)
二分网(bi-partite network)
两类节点
主要内容
链路预测
一.推荐算法
非个性化基于流行程度的推荐
基于历史的个性化推荐
特点
用户-商品:二分网
网络比较稀疏
基于网络扩散的推荐算法
物质扩散
结点值均分给所连结点
倾向于推荐热门产品,精度高
热传导
节点值等于所连结点的均值
更适合推荐冷门产品,多样性好
迭代算法
二.质量挖掘算法
user reputation and object quality
网络传播
四.网络上的传播过程
感染病传播
兴趣迁移
科学家兴趣迁移
基于大数据的学生模型与应用
引言
研究领域
教育知识图谱构建
教育数据挖掘
学习者建模
教育问答及对话系统
应用领域
学习者建模
对学习者在知识状态,认知能力,情感与学习专注度,体质健康等方面进行量化和抽象表征
两方面
对个体学习者进行定量和微观区分
个性化与自适应学习
大规模学习者定性和宏观刻画
教师教研人员科学依据,理论支持,决策参考
教学范式
教育范式的发展
经验模仿教学范式
农业时代,工业时代
计算辅助教学范式
信息时代
数据驱动教育范式
大数据时代
两个维度的变化
教育的科学性
技术的智能型
四个维度
学习者建模1:统计性分析与评价
课程目标
知识与技能
情感态度与价值观
过程与方法
从知识本位到学生发展本位
评价
从终结性评价到形成性评价
智慧学伴平台
学习者建模2:学习情绪与专注度
学习者建模3:能力模型
项目反应理论
测量被试的潜在特质
将学习者对测试题目的作答用题目难度和学习者能力共同构成的函数来表示
项目特征曲线
能力与答对题的概率
应用
计算机自适应测验CAT:包括GRE/SAT
自适应学习平台,基于学习者能力提供个性化学习内容
除教育外其他领域:心理,医学
学习者建模4:知识追踪模型
如何判断学生在多大程度上掌握了当前学习的知识点?
简单处理:要求学生连续对N个同知识点相关题目回答正确
贝叶斯知识追踪模型
datashop
LearnSphere
基于教育大数据的学习支持服务应用
什么是学习支持服务
概念与定义
学生(学习)支持服务是远程教育领域的重要概念
支持学生学习是现代远程教育最初实践的基本构成
概念提出
英国开放大学 西沃特提出
概念体系逐渐形成
学生支持与课程开发成为远程教育系统两大子系统
第一代远程教育:函授教育
信息技术
邮政系统
早期视听技术
教学理念
认知-行为主义
教学交互
学生与内容互动为主,学生与教师互动较少,延迟,学生与学生互动几乎没有
第二代远程教育:多媒体教学的远程教育
信息技术
单向传输为主的电子信息通信技术
大众媒体,个人媒体
远程电子通信
计算机辅助教学
教学理念
认知-行为主义
教学交互
大量学生与内容互动,有延迟
第三代远程教育:开放灵活的远程学习
信息技术
双向交互的电子信息通信技术
远程电子通信
计算机网络,移动通信
知识媒体,虚拟技术
教学理念
社会建构主义,联通主义
教学交互
大量学生与学生教师的人际互动,学生与内容互动在操作层面更加丰富,促进了概念层面的深层次交互
一、机构与学生的中介
在线环境下概念的重构
学习支持服务面临的挑战和机遇
互联网+时代的到来
强大的基础设施
云,网,端
新的生产要素
数据
产业升级,行业创新
互联网+传统行业
互联网与传统行业双向渗透与融合
挑战
服务对象变化:如何改善用户体验
服务需求变化:如何实现个性化定制
服务成本变化:如何实现规模经济
服务目标变化:如何满足市场长尾需求
服务模式变化:如何促进需求引导生产
教育大数据模型构建的途径与方法
数据迷思
教育:一个更复杂的系统
数据模型构建是一个系统化的过程
大数据应用的理想与现实
理想篇
教学评价公正合理
教学规律显而易见
管理决策简单易行
现实篇
数据不知从何而来
管理数据记录不全
行为数据数量稀少
数据格式杂乱不一
数据之间存在矛盾
对于数据应用的系统化思考
希望解决什么问题
需要什么前提条件
需要哪些方法技术
可以投入多少资源
解决之道
数据模型构建路线图
1.开展需求分析
需求分析的作用
发现问题,收集信息,设计方案,影响结果
2.梳理数据资产
问题
有哪些数据?
数据是怎么来的?
谁在管理这些数据?
解决
理顺各类数据源头
规范数据管理方式
建立跨部门合作机制
设计整体梳理方案
3.完成数据汇聚
数据分层汇聚
保障数据安全
4.构建指标体系
从部门职能出发
部门
从业务流程出发
业务
从在学周期出发
人
模型难以一蹴而就
5.模型构建流程
6.提供角色化支持
谁将使用数据和模型:角色需求分析与设计
不同使用者的关注点差异:围绕模型提供多视角应用
如何同时看到树木和森林:从指标层和事实层提供分析
以管理应用为例
综合评价教学水平
精细管理业务流程
面向市场调整办学
制定详细绩效目标
辅助机构管理决策
数据模型构建与应用的着力点
资产,监测,可视化,管理机制
工具,评价,预测,技术手段
应用案例
1.智慧线——在线教育管理应用
主题数据仓库
潜在变量提取
特征工程降维
指标维度计算
2.奥鹏学习者建模与推荐——个性化学习支持
数据资产评估
流程
业务理解
概况分析
评估体系
数据评估
指标体系
学习者模型
资源学习
成果质量
任务参与
推荐系统:协同过滤
3.数据京师
数据分析三重境界
见所未见
知所未知
决所未决
从大数据走向人工智能
智慧教育
以适应性教育服务为核心,以人机协同为基本理念,依托新一代信息技术所构建的新型教育形态和教育模式
虚拟现实教育应用、教育云计算、教育物联网、知识技术、信息化教学、教育大数据
智慧教育的核心:大数据+算法
基础
教育领域大数据
领域专家知识+机器学习算法
目标
测量、预测、评价
教育要素
人工智能的历史使命
工业革命
把人类从繁重的体力劳动解放出来
信息技术
把全世界联系在一起
人工智能
把人类从繁重的脑力劳动解放出来
最后一个需要靠人类自身智慧攻克的技术问题
人工智能的不同阶段
运算智能
能存会算
运动智能
能抓会握,能走会跑
感知智能
能听会说,能看会认
认知智能
能理解会思考
自然语言理解是人工智能皇冠上的明珠