理论教育 信息熵编码原理:教育技术研究与探索

信息熵编码原理:教育技术研究与探索

更新时间:2025-01-02 理论教育 版权反馈
【摘要】:香农信息论给出了信息熵是无失真编码原理的理论极限,给出了教学事务所逼近的最低极限,给出了对事物描述不走样的极限。

在数据传输系统中,存在着两个最基本的问题:一是应该传输什么信息,二是如何传输这些信息。这两个问题针对两个明显的目的,即只传输所需要的信息,而且以任意小的失真或零失真来接收这些信息。

信息的传输编码原理也可以适合于人工智能教育中的应用,在教育中也有同样的两个问题存在,一是在教育当中智能什么,二是如何让它智能。这是一个具有针对性的问题,也就是说,我们要实现教育智能化,实现智能替代教师工作,完成智力的引导,辅助提升学生的能力和教学质量等也存在效果不失真、过程不失真、思想内涵不失真的问题。如果教育智能后的内容不符合人的规律、学习的规律,不符合我们未来教育所要创新的规律,这就是一种失真的表现。如果其效果非常差,根本无法替代人的工作,这个教育智能工作就是失败的,就没有必要进行下去。

1.第一香农信息论

香农信息论认为,信源所含有的信息熵(熵)就是进行无失真编码的理论极限。换句话说,低于此极限的无失真编码方法是找不到的,而只要不低于此极限,那就总能找到某种适宜的编码方法任意的逼近熵。

教育智能化也是信息处理的过程,信息熵理论也非常适应此项问题的研究。熵作为信息的衡量尺度,仍然可以衡量教育智能信息化的工作,可以衡量教学过程、学习过程和学习质量评判过程。对教育智能熵的衡量和评价就像衡量含金量一样,比如说人们评价这个学校专业的含金量、办学类型的含金量等问题。

香农信息论给出了信息熵是无失真编码原理的理论极限,给出了教学事务所逼近的最低极限,给出了对事物描述不走样的极限。香农信息论同时也告诉我们在事物描述中,我们可以找出描述事物的方法,而且低于失真的描述方法是不存在的,任何事物都可以找到不低于此极限的任意逼近的方法,这给出了人工智能用于教育的底线设计,给出了教育智能化的信息熵的原理和方法。香农在多媒体当中描述有损压缩和无损压缩之间的基准线界定问题,在教育智能化的应用当中也存在。

我们要研究如何找出正确的教育智能对象,如何进行教育智能,如何找到智能后高于人或与人相当的处理方法和办学的方法,如何找到效果与人相当的、代替人复杂劳动的方法,如何提升学生获取知识的方法。

这些方法是建立在香农原理基础上的,是一种逼近式的推进寻找方式。教育应用多数情况下并不要求达到百分百的精准,所以教育智能化仿真方法的实现允许在相对准确、不失真、不走样的前提下进行。比如对机器训练问题的研究,只要能够满足大部分的情况的处理和识别就可以在边使用边学习中进行工作。教学管理是一个相对安全的工作,不具有即时性和应急性质,除了危险教学实验以外,智能教学运行和教学质量控制在进行的边学习、边获取、边工作的状态是可以满足教学需求的,并不一定要求教育智能训练结果与传统教学效果所有场景完全保持一致,只能通过训练逐步完善,逐步逼近熵,处于合理的容错状态,达到相对性的熵值指标。

2.第二香农信息论

香农信息论认为,信源中或多或少地含有自然冗余度,这些冗余度既来自信源本身的相关性,又来自信源概率分布的不均匀性。只要找到去除相关性或改变概率分布不均匀性的方法和手段,也就找到了信息熵编码的方法。例如,在图像中既存在着空间上的相关性,同时还存在着灰度概率分布的不均匀性,对运动图像而言还存在着帧与帧在时间上的相关性。因此如何利用信息熵理论减少数据在传输和存储时的冗余度,就是信息熵编码所要解决的问题。

第二香农信息论指出信息事物处理当中普遍存在的问题,即都存在着冗余度的问题,而教育智能的一大特性就是要通过训练、大数据的挖掘、大数据的过滤,去捕捉特性并除去冗余度、多余事件的干扰和无关信息的存在,找出有用信息以此来抽取和提炼有效的方法。

这种冗余度同样也存在于教学事件的信源、教学过程的信息、获取网上知识的信源和我们对事物进行识别的对象当中,这些冗余度有来自信源本身的相关性,也有来自事物与事物之间的相关性、处理过程的相关性、媒体与媒体之间的相关性、资源与资源之间的相关性,还有可能来自它们的内部。这些冗余度也可能会来自信源概率分布的不均匀性、事物产生的不均匀性等。

为此要找出教育智能的方法来去除信息源等相关性的问题和概率分布不均匀性的问题,去除教学的相关性的问题,去除重复劳动相关性和现象的相关性问题,去除多余的干扰性的信息,抓住特征性的信息问题,压缩掉与智能不相关的问题和方法,为人工智能的替代给出方法依据,找出能够逼近熵值的方法,找出模拟人的思想最好的方法。

利用信息熵的编码方法有多种,比较典型的如著名的哈夫曼编码方法(利用概率分布特性)、游程编码(RLE)方法(利用相关特性)和算术编码(利用概率分布)。我们将着重介绍哈夫曼编码。在教育智能化当中有大数据方法、机器训练方法、拟人训练方法等。(www.daowen.com)

3.香农-范诺编码算法及entropy的概念

(1)熵是信息量的度量方法,它表示某一事件出现的消息越多,事件发生的可能性就越小,也就是数学上所说的概率越小。

(2)某个事件的信息量用Ii=-log2 pi表示,其中pi为第i个事件的概率,0<pi<1。多个事件的信息量通过以下公式进行计算:

例如,要从64个数中选定某一个数,我们可以通过二分法来完成,即可以先提问“是否大于32?”,然后提问“是否大于16?”,不论回答是或否都消去了半数的可能事件,这样继续问下去,只要提问6次这类问题,就能从64个数中选定某一个数。这是因为每提问一次都会得到1比特的信息量。因此在64个数中选定某一个数所需要的信息量是log64=6 bits。

以上这个例子适合于我们在人工智能中启发问题,适合于在教育通过对话对问题进行定位问题时熵的计算。在学习的过程中,学生经常处于非常模糊的状态,表达不清楚自己想要问的问题,需要与教师或者智能机器人交互几次后方可确定自己的问题,这几次问题的逼近交互问话次数就是此次交互问题获得的熵值。

教育智能对话思想的核心就是理解人的意图、理解人的困境,进行语义判断和问题聚类,去辅助人进行相应的问题探索,通过知识图谱完成问题路径的探索,通过阶段性定位逐步地试探逼近,并将逼近效果好的和问话熵值比较小的方案和解答过程进行存储。

在教育智能化问题解答中直接给出答案是较为简单的一种专家智能形式。但大多数人和学习者是因为讲不出问题的所在而成为问题,帮助把问题梳理清楚就是教育智能的体现,在语义理解下构造最小搜索路径的方法是获得逼近问题答案最小熵值的有效手段。露西机器人的外语对话过程就是引用了这个机制。

交互问话逼近式的阈值可能反映出学生问题的深度,也可能反映出教学资源描述得不清晰造成学生对知识的理解不到位,也可能是学生需要通过交谈帮助来试探性地弄清楚自己的问题,也有可能反映出学生对这方面的前期知识掌握不到位,也可能是教师表达引起曲解,还有可能是解答当中的探索路径和双方误会造成的路径过于漫长等。总之这种交互对话定位问题不仅是问题熵值的计算,更是教与学过程问题的暴露,是教师素养、教学质量、教育资源知识点描述、学生建构能力、学生理解能力的写照,为逼近熵值教学资源知识图谱的设计精准化提供了思路。

交互定位对话路径熵可以进行两种分类,一种属于语义理解和语法表达类,一种属于知识定位类。对话如果通过大数据进行聚类、分析评测将会产生对学习个体、教学个体、教学过程、教学资源质量的评价。

给出问题的精准答案并不重要,而在其中获取对话过程结果或阶段性对话结果更为重要,对其优化搜索路径和评价路径更为重要。

例子:如果有问题的精准表达总共有40个分段进行路径的组合,分段路径分成了5类,分别用符号A、B、C、D和E表示,40个分段中出现分段A的类型数有15个,出现分段B的类型数有7个,出现分段度C的类型数有7个等。

按照香农理论,这个精准表达的熵为

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈