27
18911184380
当前位置:首页 > 资讯 > 建站知识

知名网站的技术发展历程以及实力怎么样

2012-05-31 酷站科技
知名网站的技术性发展史
Google现阶段Alexa排行第一。它问世于一九九七年,那时候是一个探究性新项目,每个月build一次数据库索引,build出去的数据库索引根据sharding(shard by doc)的方法分散化到几台网络服务器(Index Server)上,实际的网页页面数据信息一样根据sharding的方法分散化到几台网络服务器(Doc Server)上,当客户递交要求时,根据前端开发的一台网络服务器将要求递交给Index Server得到打过分的倒排索引,随后从Doc Server获取实际的网页页面信息内容(比如网页页面题目、关键词搜索配对的精彩片段信息内容等),最后呈现给客户。

伴随着数据库索引的北京市网站制作(www.bjkuzhan.com)提升,这一构造可根据提升Index Server及其Doc Server来储存数据库索引及其网页页面的数据信息,但依然会遭遇别的许多层面的难题,因此在这里以后的十多年的時间里,Google干了许多事儿来改善上边的构造。

1998年,Google提升了一个Cache Cluster,用于Cache查寻的数据库索引結果和文本文档精彩片段信息内容,另外将Index Server和Doc Server根据Replicate的方法变成了Cluster。这两个更新改造产生的益处是网址的响应时间、可支撑点的浏览量及其易用性(Availability)获得了提高。这一转变导致了成本费的提升,Google在硬件配置层面的设计风格自始至终是无需价格昂贵的高档硬件配置,只是在手机软件方面来为了确保的可信性及性能卓越,因此同一年,Google刚开始选用设计制作的网络服务器来控制成本。2001年,Google刚开始设计制作DataCenter,选用了各种各样方式 (比如选用别的的致冷方式 来取代中央空调)来优化PUE(电力能源使用率),另外对设计制作的网络服务器也干了许多化。二零零一年,Google对Index的文件格式开展了改动,将全部的Index放进运行内存, 此次更新改造产生的益处是网址的响应时间及其可支撑点的浏览量获得了巨大的提高。二零零三年,Google发布了文章内容Google Cluster Architecture,其Cluster构造构成为硬件配置LB Index Cluster Doc Cluster 很多便宜网络服务器(比如IDE电脑硬盘、高性价比的CPU等),根据并行计算 sharding来确保在减少对硬件配置规定的另外,响应时间依然迅速。同一年Google发布了有关Google系统文件的毕业论文(GFS在2001年就早已发布),这篇毕业论文非常大水平也最能体现Google无需价格昂贵硬件配置的设计风格,根据GFS 很多便宜的网络服务器就可以储存很多的数据信息。04年,Google再度对Index的文件格式开展了改动,促使网址的响应时间再次提高。同一年Google发布有关MapReduce的毕业论文,根据MapReduce 很多便宜的网络服务器就可以迅速进行之前要应用价格昂贵小型服务器、中型机乃至是中型机才可以进行的测算每日任务,而这显而易见针对Google迅速地搭建数据库索引出示了非常大的协助。二零零六年,Google发布了有关BigTable的毕业论文(二零零三年刚开始发布),促使大量数据的分析可以做到在线系统的规定了,这针对Google提高网址的响应时间具有了非常大的协助。

之上3篇毕业论文改变了业内针对海量信息的储存、剖析和查找的方式 (传闻:Google內部完成了GFS、MapReduce、BigTable的更换),也确立了Google在业内的技术性领导干部影响力。

在一些情景中,Google也选用MySQL来储存数据信息。一样,Google对MySQL也干了许多改动,它应用的MySQL信息内容能够 从https://code.google.com/p/google-mysql/掌握。

二零零七年,Google将build数据库索引的時间减少到分鐘级,当新网页页面出現后,数分钟后就可以在Google检索到,另外将Index Cluster根据Protocol Buffers对外开放出示Service,以供Google各种各样检索(比如网页页面、照片、新闻报道、书本等)应用,除开Index Cluster出示的Service外,也有许多别的的Service,比如广告宣传、词法查验等。Google的一次检索大约必须启用內部50个之上的Service,Service关键用C 或Java来撰写。二零零九年,Google的一篇《How Google uses Linux》文章内容,表明了Google在提高设备使用率层面也干了许多的勤奋,比如将不一样資源耗费种类的运用布署在同一台设备上。

在以后,Google又产品研发了Colossus(下一代类GFS系统文件)、Spanner(下一代类BigTable海量存储和测算构架)、即时检索(根据Colossus完成),关键全是为了更好地提高检索的实用性及其储存大量数据信息。除开在海量信息有关技术性上的创新外,Google也持续对业内的传统式技术性开展自主创新,比如提升TCP的原始时延对话框值、改善HTTP的SPDY协议书、新的图片的格式WebP等。

在Google的发展趋势全过程中,其技术性的更新改造关键紧紧围绕在可伸缩性、特性、成本费和易用性4个层面,Google不选用价格昂贵硬件配置的设计风格及其领跑别的网址的信息量决策了其技改项目基础全是对传统式的硬件软件技术性的创新。

Facebook现阶段Alexa排行第二。它选用LAMP搭建,伴随着业务流程的发展趋势,它也从技术上干了许多更新改造。
做为更新改造的第一步,Facebook最先在LAMP构造中提升了Memcached,用于缓存文件各种各样数据信息,进而大幅提高系统软件的响应速度及其可支撑点的浏览量,以后又提升了Services层,将News Feed、Search等较通用性的作用做为Service出示给前端开发的PHP系统软件应用,前端开发的系统软件根据Thrift浏览这种Service。Facebook选用了多语种来撰写各种各样不一样的Service,主要是对于不一样的情景挑选适合的語言,比如C 、Java、Erlang。

很多应用Memcached及其浏览量的持续增涨,造成浏览Memcached的数据流量很大,网络交换机没法支撑点,Facebook根据更新改造选用UDP的方法来浏览Memcached,以减少单联接上的数据流量。此外,也有别的一些更新改造,实际信息内容能够 查询http://on.fb.me/8R0C。

PHP做为开发语言,优点是开发设计简易、易入门,缺点是必须耗费较多的CPU和运行内存。当Facebook的浏览量提高来到一定经营规模后,这一缺点就非常明显了,因此从二零零七年起,Facebook就试着多种多样方式 来处理这个问题,最终问世于Facebook Hackathon的HipHop商品取得成功地出类拔萃。

HipHop能够 全自动将PHP转换为C 编码,Facebook在应用HipHop后,同样配备的设备,可支撑点的要求量是以前的6倍,CPU的利用率均值降低了50%,进而为Facebook节约了很多服务器。未来Facebook还会继续对HipHop开展再度改善,根据HipHop将PHP编译程序为bytecode,放进HipHop VM中实行,再由HipHop VM来编译程序为设备编码,方法与JIT相近。

二零零九年,Facebook产品研发了BigPipe,依靠此系统软件,Facebook取得成功让网址的速率提高了二倍。伴随着Facebook浏览量的增涨,搜集诸多网络服务器上的实行系统日志也刚开始遭遇挑戰,因此Facebook产品研发了Scribe来处理此难题。针对储存在MySQL中的数据信息,Facebook选用竖直分拆库和水准分拆表的方法来支撑点持续提高的信息量。做为Facebook技术性管理体系中关键的一环,Facebook也对MySQL开展了许多优化和改善,比如Online Schema Change等,其他信息由此可见http://www.facebook.com/MySQLAtFacebook。

发展趋势之初的Facebook选用了高档的储存设备(比如NetApp、Akamai)来存照片,伴随着照片持续提升,成本费也大幅度提高,因此二零零九年Facebook开发设计了Haystack来储存照片。Haystack可选用便宜的PC Server开展储存,大幅度减少了成本费。

Facebook除开应用MySQL储存数据信息外,近些年也刚开始探索选用新的方法。在2008年Facebook开发设计了Cassandra,在Message Inbox Search中做为新的储存方法。但是在二零一零年,Facebook又放弃了Cassandra,变为选用HBase做为其Messages的储存,并在二零一一年将HBase运用在了Facebook大量的新项目上(比如Puma、ODS)。听说,如今Facebook也是在试着将其客户及其关系数据从MySQL转移到HBase。
从二零零九年刚开始,Facebook试着设计制作DataCenter及其网络服务器,以减少其运作成本费,并扩大开放了其搭建的PUE仅1.07的DataCenter的有关技术性。Facebook在技术性层面的基本准则是:“在可用开源系统商品的状况下就用开源系统,依据状况对其开展优化并意见反馈给小区”。从Facebook的技术性发展史上能够 见到这一标准 狠下功夫,Facebook的技改项目也主要是紧紧围绕在可伸缩式、特性、成本费和易用性4个层面。

Twitter现阶段Alexa排行第八。在二零零六年问世之际是选用Ruby On Rails MySQL搭建的,二零零七年提升了Memcached做为Cache层,以提高响应时间。根据Ruby on Rails让Twitter享有来到迅速的开发设计工作能力,但伴随着浏览量的提高,其对CPU和运行内存的耗费也让Twitter苦不堪言,因此Twitter干了许多更新改造和勤奋,比如撰写了一个优化版的Ruby GC。

2008年Twitter决策逐渐往Java转移,挑选了Scala做为主要的编程语言(原因是“无法向一房间的Ruby程序猿推销产品Java”),选用Thrift做为其关键的通讯架构,开发设计了Finagle做为其Service Framework,可将后端开发各种各样作用曝露为Service出示给前端开发系统软件应用,促使前端开发系统软件不用关注各种各样不一样的通讯协议(比如针对使用人可以用一样的启用服务项目的方法去浏览Memcache、Redis、Thrift服务器端),开发设计了Kestrel做为其消息中间件(取代以前用Ruby写的Starling)。

Twitter的数据储存一直选用MySQL,发展趋势全过程中出現的小插曲是,当Facebook开源系统了Cassandra时,Twitter本方案应用,但最后還是舍弃,依然维持了应用MySQL,Twitter的MySQL版本号已开源系统(https://github.com/twitter/mysql)。Twitter也是选用分库分表的方法来支撑点大信息量,应用Memcached来Cache tweet,timeline的信息内容则转移为用Redis来Cache。
二零一零年,Twitter在圣何塞有着了第一个建造的DataCenter,主要是为了更好地提升可操控性。从Twitter的发展趋势全过程看,六年来它的技改项目关键紧紧围绕可伸缩式及其易用性。

做为一家电商网址的职工,请允许我在这里详细介绍这一Alexa排行21的知名电商网址的技术性演化。
1996年,eBay问世,那时候选用CGI撰写,数据库查询选用的是GDBM,数最多只有支撑点五万件线上产品。一九九七年,eBay将电脑操作系统从FreeBSD转移到Windows NT,此外将数据库查询从GDBM转移为Oracle。1998年,eBay将前端开发系统软件更新改造为Cluster(以前仅有一台服务器),选用Resonate做为三层交换机,后端Oracle设备升級为Sun E1000小型服务器,同一年给数据库查询提升了一台设备做为备库,提高易用性。前端开发设备伴随着浏览量持续提升还能够应对,但数据库查询设备在1998年十一月时早已做到了短板(早已不可以再加CPU和运行内存了),因此在十一月刚开始将数据库查询按业务流程拆分成好几个库。2001-二零零二年,eBay将数据分析表开展了水准分拆,比如按品类储存产品,另外布署Oracle的小型服务器改成Sun A3500。二零零二年,将全部网址转移为用Java搭建,在这个环节,干了DAL架构来屏蔽掉数据库查询分库分表产生的危害,另外还设计方案了一个开发框架以供开发者更强地面上手开展作用开发设计。从eBay的全部发展趋势全过程看来,技改项目关键紧紧围绕在可伸缩性和易用性二点。

腾讯官方现阶段Alexa排行第9。最开始QQ IM选用的是每台接入服务器来解决客户的登陆和情况维持,但在发展趋势到一百万客户线上PK时,这台网络服务器早已没法支撑点。因此QQ IM将全部每台网络服务器更新改造为了更好地群集,并提升了情况同歩网络服务器,由其进行群集内情况的同歩,客户的信息内容储存在MySQL中,干了分库分表,朋友关联储存在自主完成的文档存储中。为了更好地提高进程间通信的高效率,腾讯官方自主完成了客户态IPC。以后腾讯官方将情况同歩网络服务器也更新改造为同歩群集,以支撑点愈来愈多的线上客户。在经历了前边几回更新改造后,已基础能支撑点干万级別的客户线上PK,但易用性较为差,因此腾讯官方对QQ IM再度开展更新改造,完成了同城网跨IDC的容灾备份,提升了监管和运维系统的基本建设。自此腾讯官方决策对QQ IM构架彻底重新写过(大约是二零零九年不断到现在),主要是为了更好地提高协调能力、适用跨大城市的IDC、支撑点上千万的朋友。在此次大的技改项目全过程中,腾讯官方的数据信息都已不储存于MySQL中,只是所有储存在了自身设计方案的系统软件里。
从QQ IM的技术性演化看来,其技改项目主要是紧紧围绕在可伸缩性和易用性上。

二零零三年,淘宝网问世,立即选购了一个商业服务的phpAuction的手机软件,在这个基础上更新改造造成了淘宝网。04年,将系统软件由PHP转移到Java,MySQL转移为Oracle(小型服务器、高档储存设备),网站服务器选用了WebLogic。2005-二零零七年的发展趋势全过程中,用JBoss取代了WebLogic,对数据库查询开展了分库,根据BDB干了分布式缓存,自主开发设计了分布式存储TFS以适用小文档的储存,并基本建设了自身的CDN。2007-二零零九年对软件系统开展竖直分拆,分拆后的系统软件都以Service的方法对外开放出示作用,对数据信息选用了竖直和水准分拆。
在开展了数据信息的竖直和水准分拆后,Oracle造成的成本费愈来愈高,因此在以后的两年,淘宝网又刚开始将数据信息慢慢从Oracle转移到MySQL,另外刚开始试着新式的数据储存计划方案,比如选用HBase来支撑点历史时间买卖订单信息的储存和查找等。近些年淘宝网刚开始开展Linux核心、JVM、Nginx等手机软件的改动订制工作中,另外也设计制作了节能型网络服务器,另外在硬件软件上开展优化,以能够更好地控制成本。
从淘宝网的全部发展趋势全过程看来,技改项目关键紧紧围绕在可伸缩性和易用性二点,如今也刚开始慢慢将活力资金投入在了特性和成本费上。现阶段淘宝网的Alexa排行为第14。
小结
从上边这种Alexa排行靠前网址的技术性发展趋势全过程看来,各家网址因为其所担负的业务流程不一样、精英团队工作人员构成不一样、办事设计风格不同,在技术性的不一样发展趋势环节中会选用不一样的方式 来支撑点业务流程的发展趋势,但基础都是会紧紧围绕在可伸缩性、易用性、特性及其成本费这4点上,在发展趋势到较为规模性后,各网址在技术性构造上拥有许多的类似点,而且这种构造还将再次开展演化。
著作人林昊,任职于淘宝网,2007-二零一零年承担设计方案和完成淘宝网的服务项目架构,此服务项目架构在淘宝网大规模应用,每日担负了150亿 的要求;二零一一年刚开始承担HBase在淘宝网的落地式,现阶段淘宝网现有20个之上的线上新项目在应用HBase。
其他: Cassandra
设计方案Cassandra储存的情况下,书里提议要紧紧围绕着查寻模型,而不是最开始对数据信息开展模型。有些人抵制这一,觉得查寻的种类转变太快。作者是那样辩驳的:查寻种类和数据信息自身都是有转变的。Cassandra最压根的实体模型是简易的kv,因此,還是得尽量的紧紧围绕查寻模型。这儿如何更强的融洽,是一个有挑戰的事儿。
Cassandra的column family如同一个表结构,改动了要重新启动,一个cf独立一个文档,一行数据信息能够 有好几个column family。user是一个family, user_ext一个family, row key 为uid, 觉得cassandra用起來会更像db,

Youtube的社交媒体发展趋势主管Kevin Allocca表述最红的youtube视頻的三个相同点。1、Tastemakers - 大咖的强烈推荐。 2、Community - 斗志投缘的人群。 3、Surprise - 出乎意料的惊讶。
Cassandra在360的运用,客户网址收藏夹、图片外链、垂直搜索等线上业务流程有很多储存要求,充分考虑MySQL不可以满足需求,可是HBase有Availabilty的缺陷,因此挑选了Cassandra,现阶段经营规模是600~700台,年末预估1500上下,现阶段沒有有过大的常见故障。估算是世界最大经营规模Cassandra群集

Key-Value,Column oriented,Document oriented三个定义的差别和联络谁可以给我表述清晰。看过图上的区划,我完全糊里糊涂了。我一直以为三者是一回事儿
:息序列传送:kafka,timetunnel,kestrel,scribe;列储存数据库查询行业hbase;kv型数据库查询:cassandra,riak,voldemort,tair;文本文档数据库查询:mongodb,couchdb;图型数据库查询:neo4j,pregel,flockdb;流式计算:storm,iprocess;即时测算:prom;图型测算:pregel,apache hama;线下测算:hive,spark。

facebook 部分kv到期用繁杂的内层处理
mysql上沒有join查寻,并选用价格昂贵的Fusion IO。nginx好于lighttpd。scribe是个好产品
文中公布于北京市网站制作企业酷站科技http://www.bjkuzhan.com">来源于申明:以上内容一部分(包括照片、文本)来自互联网,若有侵权行为,请立即与本网站联络(010-57218159)。
如没特殊注明,文章均为酷站科技原创,转载请注明来自http://www.bjkuzhan.com/jianzhanzhishi/3812.html
联系专业的商务顾问,制定方案,专业设计,一对一咨询及其报价详情
服务热线服务热线 18911184380
联系我们 contact us
18911184380
0531-88903031 — 济南分部

+

酷站科技为你提供上门/网站策略方案

留下联系方式,我们将会在一个工作日内与你联系

隐私条款信息保护中,请放心填写