比如视频网站、音乐网站,只是存储的成本都是巨额的,还有版权成本,如今星空集团的利润虽然不菲,但是投入在这些吞金兽中,也是要仔细计算的……
目前杨伊正在考虑是不是进军搜索引擎市场,目前市面上,搜索引擎排名是谷歌、百度、雅虎、搜狗,虽然都是处于第四代的技术,但是因为算法、技术和投入等方面的原因,目前搜索引擎是谷歌一家独大,自己一家就占据目前百分之七十的市场份额,剩余的才是其他家的。
搜索引擎技术核心是借助网络蜘蛛程序自动下载网络上的各种网页内容,并为其建立索引和排序,用户输入关键字进行检索时,搜索引擎就从自己服务器的索引中搜索结果。
所以没有任何一家搜索引擎可以真正搜索全网,它们实际上只是搜索自家网络蜘蛛“爬”过的内容,天然具有一定的滞后和不完整,所以越是大公司的搜索引擎越是好用,因为它们的索引数据库更加全面。
所以作为全球搜索引擎巨头,谷歌也拥有全世界最多的服务器,数量应该已经超过了百万台,为全球超过百亿的网页建立了索引,当然这些数字都是保密的,除非是谷歌负责技术的高层才能知道确切数字。
谷歌的百万台服务器中的大多数都是自己使用配件组装起来的个人电脑级别的廉价服务器,并没有使用性能更稳定,价格更高昂的服务器专用主板和硬盘,而是大量使用个人电脑配件,因此被人戏称是全球电脑最大消费者,也是民间用电大户。
当然普通个人电脑配件的稳定性自然没有更加昂贵的服务器配件效果好,因此谷歌使用大量备份镜像,系统会根据各台服务器的负载情况自动分配任务,保证每台可用服务器的负载都在安全范围内,并且及时排除死机出错设备的影响。
谷歌自己设计了专用架构在这三个架构在ux之上的平台,将这些廉价组装成的服务器通过算法和专用的系统巧妙的组织起来,这些廉价服务器构成了目前这个星球上最强力的超级计算机集群之一。
<开发的编程工具,用于大规模数据集的并行运算,它会安排多个计算机同时计算一个任务,一旦一台计算机有了结果,其它计算机就停止该任务,而进入下一任务,因为同时用多台计算机进行一个工作,个别计算机偶尔的宕机出错也就不会影响整体任务的执行了。
至于,这是一个用来处理大数据量的系统,适合处理半结构化的数据。
内容未完,下一页继续阅读