《大数据与我们的生活.pptx》由会员分享,可在线阅读,更多相关《大数据与我们的生活.pptx(14页珍藏版)》请在优知文库上搜索。
1、分布式处理Distributed Computing并行处理Parallel Computing网格计算Grid Computing云计算的基本原理是,通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。 何为大?数据度量1Byte = 8 Bit1KB = 1,024 Bytes1MB = 1,024 KB = 1,048,576 Bytes1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes1TB = 1,024 GB
2、= 1,048,576 MB = 1,099,511,627,776 Bytes1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes1EB = 1,024 PB = 1,152,921,504,606,846,976 Bytes1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes要全体不要抽样l 采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量的增加关系不
3、大。l 搜集的数据越来越多,分析和预测结果就会越来越准确,并发现一些细节和微乎其微的重要问题。l 大数据是指不用随机分析法这样的捷径,而是通过采用所有数据的方法。数据量不一定很大,但需要全部,包含了所有的信息。要效率不要绝对精确l 只有5%的数据是结构化的,可以适用于传统数据库,如果不接受混乱,剩下95%的非结构化数据都无法被利用。l 少量数据下运行最佳的算法,可能在大数据下可能会表现差强人意,在少量数据下表现差的算法,可能在大数据下惊呆小伙伴们。l 大数据的简单算法比小数据的复杂算法更有效,混杂是关键。l 谷歌翻译之所以好,除了数据量庞大以外,还接受了有错误的数据,即来自互联网的废弃内容。要相关不要因果l 通过数据推荐产品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢海明威作品的客户会购买菲茨吉拉德的书,但是他只要通过算法统计分析,得知这个结果就可以了。l 沃尔玛领导了零售链的革命,让供应商监控销售速率、数量、以及存货情况。这个数据库不仅包含了每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当天的天气。l 在大数据时代,通过建立在人的偏见上的关联物检测法已经不再可行,因为数据库太大而且需要考虑的领域太复杂。搜狗拼音输入法搜狗拼音输入法各类猜你喜欢各类猜你喜欢SiriSiri语音识别语音识别