【摘要】:(一)大数据的离线分析由于大数据的数据规模已经远超出当今单个计算机的存储和处理能力,当前的离线数据分析通常构建在云计算平台之上,并且应用离线分析,如开源的Hadoop的HDFS文件系统和MapReduce运算框架。许多在线数据分析系统构建在以关系数据库为核心的数据仓库之上,不少新兴的在线数据分析系统构建在云计算平台之上的NoSQL系统,例如Hadoop上的HBase。
(一)大数据的离线分析
由于大数据的数据规模已经远超出当今单个计算机的存储和处理能力,当前的离线数据分析通常构建在云计算平台之上,并且应用离线分析,如开源的Hadoop的HDFS文件系统和MapReduce运算框架。Hadoop机群包含数百台乃至数千台服务器,存储了数PB乃至数十倍的PB数据,每天运行着成千上万的离线数据分析作业,即MapReduce任务。每个作业处理几百MB到几百TB的数据甚至更多的数据,作业运行时间从几分钟到几个小时、几天甚至更长的时间。
大数据的离线分析首先是将大数据存入分布系统的磁盘,然后再进行分析处理。例如批量处理就是典型的离线分析。而流式大数据分析就不是离线分析,而是在线分析。(www.daowen.com)
(二)大数据的在线分析
当前的在线分析系统已经能够实时地处理数千万甚至数亿条记录。许多在线数据分析系统构建在以关系数据库为核心的数据仓库之上,不少新兴的在线数据分析系统构建在云计算平台之上的NoSQL系统,例如Hadoop上的HBase。因为后者开源、易于扩展和管理,而且成本更低。如果没有大数据的分析和处理,则无法存储和索引数量庞大的互联网网页,就不会有当今的搜索引擎。大数据的分析处理还在其他方面发挥着作用,与许多市场调研公司通过电话、邮件、信函等方式进行抽样调查和分析,不同的是这些数据都是通过对实际访问、交易的大量真实数据进行统计分析得到的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
有关大数据概论的文章