加入收藏 | 设为首页 | 会员中心 | 我要投稿 牡丹江站长网 (https://www.0453zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

互联网发展促进大数据浪潮

发布时间:2021-06-26 18:45:33 所属栏目:大数据 来源:互联网
导读:很多公司发现,他们手中掌握着大量的数据,而这些数据可帮助实现利润的最大化,并提高效率。在许多方面,谷歌、亚马逊、雅虎、Facebook和推特等在线服务巨头处于如何充分利用这些庞 大数据 集的最前沿。谷歌和雅虎等公司大力支持发展Hadoop.Facebook的工程师
 很多公司发现,他们手中掌握着大量的数据,而这些数据可帮助实现利润的最大化,并提高效率。在许多方面,谷歌、亚马逊、雅虎、Facebook和推特等在线服务巨头处于如何充分利用这些庞大数据集的最前沿。谷歌和雅虎等公司大力支持发展Hadoop.Facebook的工程师们则大力发展同样是开源的Apache Cassandra分布式数据库。

  2004年的谷歌白皮书为Hadoop的发展拉开了帷幕。这份白皮书详细地阐述了谷歌将通过一个名为BigTable的索引系统,创建能够在众多不同服务器中分析数据的基础设施。谷歌一直在内部使用BigTable,但是曾经创建过Lucene/Solr开源搜索引擎的开发者Doug Cutting为其创建了一个开源版本,并以儿子的玩具象命名了该项技术。

  雅虎是Hadoop技术的早期部署者。该公司在2006年雇用了Cutting并开始将大量的工程工作,以改良这种技术。目前已跳槽为Hadoop软件和服务提供商Cloudera工作的Cutting说:"雅虎有着大量以不同形式相互关联的重要数据,但是它们存在于相互独立的系统之中。"

  雅虎目前是Hadoop最大的用户之一,其在40000多台服务器中部署了该技术。同时雅虎正在以多种方式使用该技术。Hadoop的集群掌握了大量事件的日志文件和用户点击区域的日志文件,广告活动也被存储在Hadoop集群中。Monash说:"在将数据存入关系型数据库前,Hadoop是一个组织和压缩海量数据的重要工具。该技术非常适合跨大量文本集的搜索。"

  另一款被互联网服务商使用的大数据技术是Cassandra数据库。Cassandra在单一行上能够存储200万个列,这便于在现有用户账户上附加更多的数据,而无需提前获知数据被格式化的方式。使用Cassandra数据库的另一个好处在于,它能够在多个服务器中扩展,帮助企业更为容易地在单一服务器或小型服务器集群中扩展其数据库。

  Apache Cassandra项目主席、DataStax公司联合创始人Jonathan Ellis称,Cassandra由社交网络巨头Facebook开发,因为该公司需要一个大型分布式数据库,以支持收件箱内搜索。

  雅虎、Facebook等公司希望使用谷歌的BigTable架构,因为它能够提供一个定向于行与列的数据库结构,并且能够在大量节点中扩展。BigTable的局限性在于其为定向于主节点的设计。整体运作依赖于单一节点协调其他所有节点中的读写活动。换句话说,如果主要节点故障,那么整个系统将瘫痪。 Ellis说:"这不是一个最佳设计。我们希望一台机器故障后,其他的机器依然能够正常运行。"

  因此,Ellis和他的同行使用由亚马逊开发的分布式架构Dynamo创建了Cassandra.关于Dynamo,亚马逊工程师曾经在2007年的报告中进行了详细的阐述。亚马逊最初开发Dynamo是为了追踪在线用户将哪些东西放在了他们的网络购物车中。Dynamo的设计并不依赖于任何一个主节点。任何节点都能够为整个系统接收数据和查询。数据将在多个主机中被复制。 

(编辑:牡丹江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!