《终于有人把数据、信息、知识讲明白了.docx》由会员分享,可在线阅读,更多相关《终于有人把数据、信息、知识讲明白了.docx(8页珍藏版)》请在优知文库上搜索。
1、导读:我们把关于信息处理的理论称为信息论,它是20世纪40年代从通信实践中发展并总结出来的一门学科,专门研究有关信息处理和可靠传输的一般规律。这一理论对计算机技术的发展具有重要意义。为了更好地阐述这一理论,让我们先来讨论几个大家耳熟能详的词:数据、信息、知识。01数据是一组有意义的符号数据无处不在,只是它们没有实体。过去,人们习惯把数字的组合称为数据。但在今天,这样的理解显然不够全面。那么是否可以把数字、字符、字母的集合称为数据?也不准确。在今天大数据的语境中,数据是可以被记录和识别的一组有意义的符号,一般可通过原始的观察或度量得到。数据是对客观事物的逻辑归纳,可以用来表示一个事实、一种状态、
2、一个实体的特征,或一个观察的结果,有些是用于描述某个对象的事实性数据,有些则是通过观察、分析、归纳得到的总结性数据。数据可以是连续的,比如无线电通信时在空气中传输的电磁波,它们是模拟数据;数据也可以是离散的,比如在计算机中存储的文档和照片,它们是数字数据。承载数据的形式有很多,不仅包括文字、数字、符号、图像、语音、视频,也可以是对某个事物的属性、数量、位置、关系的抽象表示。大气的温湿度、汽车的行驶路线、学生的档案记录、商务的合同,这些都是数据。我们平时用电子设备看新闻、拍照片、买东西、打游戏,本质上都是在和数据打交道。在计算机中,它们是一连串包含有O和1的二进制数的组合。02信息是用来消除不确
3、定性的现在我们来明确一下什么是数据,什么是信息。当人们在研究甲骨文时,上面记录的符号仅仅是一些数据。要读懂这些数据,就必须了解数据背后要表达的含义。一旦对数据做出解释,我们就能得到甲骨文上的信息。数据与信息既有联系,又有区别。数据是信息的载体,信息则需要依托数据来表达。它们是形与质的关系,两者密不可分。信息由数据加工得来,它可以由数字和文字表达,也可以表现为其他具有意义的符号,其承载形式不重要,重要的是信息能让我们了解一些事情、鉴别一些真伪、佐证一些观点。也就是说,尽管数据存在的形式多种多样,但我们真正想要获得的是信息。信息”作为科学术语最早出现在哈特莱1928年撰写的论文信息传输中,在该论文
4、中他首次提出了将信息定量化处理的设想。1948年,信息论创始人、美国数学家香农发表了一篇有着深远影响的论文一关于通信的数学原理,他明确指出了信息是用来消除随机不确定性的东西。在香农看来,一旦我们想要对信息进行量化和比较,我们就不要去关注这些信息到底承载了什么内容,而是要看这条信息出现后,是否改变了某些不确定性事件的概率。今天这一定义已经被看作是对“信息”的经典定义,在各种场合不断被人引用。无论是数字、字符或它们的组合,如果我们无法解读,就不能称其为信息。有一个重要的判断标准是,看它是否承载了有用的内容。无论是石头上刻的画、纸上写的字、墙上的涂鸦还是电脑中的文件,只要它们能表达确切的含义,就能认
5、为是信息。一串11位数字的号码,如果它是随机数字,则谈不上是信息。如果我告诉你,这串数字是我的手机号,它就消除了不确定性,它便是一种信息。信息是把人们不清楚的给说清楚的那些内容,如果已经知道了,就不能算作新的信息。举例来说,今天任何一个小学生都知道地球是圆的,地球自转产生了白天和黑夜。这在今天看来是一个基本常识,但我们的祖先并不知道。如果我们把发明文字作为人类文明的起点,那么大约经过5000多年,也就是直到15世纪,人们才开始接受地球是一个大圆球的观点。虽然地球”对于今天的小学生来说不算是新的信息,但是对于古人来说,它不仅是信息,而且信息量巨大。你或许已经发现了,信息会因场景而定,因每个人的主
6、观认识而定。同一条信息,对一些人是有用的,对另一些人或许就没用了。03知识是对信息的总结和提炼随意给出3个数字:68、21、192。这3个数字仅仅是数据。现在给它们加上一些说明,比如:衣服的价格是68元,今天的气温是21摄氏度,小明爸爸的体重是192斤。这些数据有了明确表达的含义,它们就是信息。不仅如此,我们还能基于这些信息给出一些判断:衣服不是很贵,天气有点凉爽,男人该去减肥了。做出这些判断,需要依赖我们平时生活中积累的经验和常识,即知识。知识是对信息的提炼和概括,它是高度概括的信息。如果说信息可以解答一些简单的问题,比如谁在哪里做什么,那么知识可以回答一些更具深刻认知的问题,比如怎样为何。
7、日常生活中最基本的知识是常识。比如明火不能碰、热油不能遇水、人有生老病死、月有阴晴圆缺,它们大部分来自生活,是大家认为都该懂得、不言自明的知识。今天很多约定俗成的常识,是由我们的祖辈口相传、代代相承而来。人并不是天生就有常识,知道火为何物、火可伤人、火可熟食。很多道理都是从生活实践中总结而来的。现如今,对于人工智能来说,要解决的核心问题是让计算机具有常识。很多常识背后有着复杂的知识体系,机器必须真正理解知识,而不是记忆它们。举例来说,计算机或许能通过数据样本学习,知道人类有头、手、脚等身体部位,但它很难理解既然这些部位都长在人体上,为何只有头上有眼睛,手和脚上却没有?又比如,计算机学会并知道了
8、“人有2只眼睛,但它无法判断这个世界上是否存在“有1只眼睛的人和有3只眼睛的人如今的人工智能只能从数据中学习到数据之间的联系,它还不能很好地处理有关常识的问题,这方面人们还有很长的研究之路要走。以上讨论的“知识,指的都是人脑中的知识。它和计算机要处理的“知识”是不同的。从本质上讲,计算机只是模仿人类的知识,它们并没有真正掌握这些知识计算机只是通过一些特定方法把人类知识表达出来。而这个特定方法是基于图技术。图是一种表示知识的工具,是描述知识的状态、关系、路径距离等相关要素的最自然的数学表达。它擅长存储和处理复杂的网状关系,所以在知识图谱、社交网络、用户关系分析等领域有着广泛的应用。近年来,基于图
9、技术的知识图谱是十分热门的研究领域。比如大众熟知的维基百科就是一个知识图谱应用。知识图谱可以用来描述各种实体以及它们之间的关系。它是一个庞大的图形网络知识库。在这个网络中,每个节点是一个实体,比如人名、地名、事件、活动,任意两个节点之间的边表示它们之间存在关系,图3-1基于图形结构的知识图谱示意图知识图谱的基本组成是实体-关系-实体的三元组,它不仅能把与关键词有关的知识系统化地展示给用户,也可以基于知识进行推演。比方说,从东方明珠,坐落在,浦东和浦东,属于,上海这两个组合,就能推测得到东方明珠,位于,上海。知识图谱还会不断更新迭代,用户搜索的次数越多,范围越广,这个知识库就能获取越多的信息和内
10、容。知识并不是与生俱来的,获取知识通常有两种途径。途径一是亲身体验。比如,刚出生的婴儿什么都不懂,将一杯热水放到他面前,他会想要去拿杯子,结果喝水被烫到了。第二次他再看到杯子,有了上次被烫的经验,他会观察杯口是否冒烟,摸摸杯子的温度,再决定是否拿杯子喝水。在这个过程中,婴儿通过自己的亲身体验,逐渐掌握了有关“热水”的知识。南宋理学家、思想家朱熹曾说:所谓致知在格物者,言欲致吾之知,在即物而穷其理也。他要表达的意思是,获得知识的途径在于认识世间万物,并彻底研究它们的原理。就是说,要亲身体验这个世界来获得宝贵的知识。每个人有不同的人生和经历,这些会成为我们独有的知识。亲身体验得来的知识是最真实的,
11、所以它通常比较准确。不过,这样获取知识的时间周期长,效率也比较低。途径二是通过别人教授。比如通过父母、老师、书本、网络学习得来,但老师教的、书上印的可能出错,这样得来的知识未必准确。不过,它仍然是获取知识最主要的形式,毕竟我们没有那么多时间和精力,凡事都亲身经历一遍。站在前人和巨人的肩膀上,不断学习新的知识,是人类科技进步的根本原因。有趣的是,在互联网时代,任何人都能随时随地找到自己想要的信息,但我们的知识总量并不会立刻增加。学习是一种过程,需要时间积累,欲速则不达。比如很多人都听过区块链”,但大部分人并不清楚它是什么。有人认为它是钱,也有人认为它是一种身份认证技术。但这些理解都不准确。很多人
12、只是从网上找到了关于区块链的信息,并没有真正得到关于它的知识。从某种意义上讲,互联网虽然提高了人们找到碎片信息的效率,但降低了人们掌握完整知识的能力。当然,互联网对整个社会来说仍然利大于弊,它让全世界的知识能够快速传递和共享。每个人都可以在网络上自由地发表观点,这些内容也被其他人搜索、阅读、讨论。一个小学生能从互联网上学到知识,并在课堂上指出老师的错误,在家里纠正父母的观念。这让过去作为权威的老师和父母受到了挑战,这在以前是不可想象的。最后,让我们做个简答的总结数据、信息、知识三者密不可分。数据是一组有意义的符号,它是信息的载体,是知识的来源;信息赋予了数据含义,信息消除了不确定性;知识从实践、经验中得到,它由数据记录,从信息中提炼。