QCon Beijing 2013 day 2

Posted on Fri 26 April 2013 in it

今天上午听了自动化运维专题,新浪、腾讯、百度、淘宝4场的水准都很高,绝对的物有所值。

新浪CDN自动化运维 http://vdisk.weibo.com/s/z0eoy CDN平台规模:300G带宽,1000+台服务器,覆盖全国7个ISP 40多个IDC 自动化运营经验: 1、基于puppet/Zabbix开源系统的自动化运维系统:提升运维效率,加快故障处理速度; 2、规范主机名:ISP.IDC.City.Group.Role.Product.ip4.domain.com 3、 建立SRE角色(site reliability engineer),保护多数工程师不被打扰 可以顺便参考一下这篇文章:http://wenku.baidu.com/view/6c26cb27bcd126fff7050bab.html 腾讯海量SNS社区网站高效运维 http://vdisk.weibo.com/s/z0fjF 不得不说,这个slide的立意要更高一筹,工具有效的前提条件是要有一个清爽的工作环境,也就是尽可能的减少运维对象:所以我们要为程序统一打包,规范RD的技术架构。 另外一条方法论方面的建议就是要形成更多的工作闭环,尽可能的降低沟通协调成本。

百度的运维客户端技术 http://vdisk.weibo.com/s/z0fC- 这个小伙儿好有个性啊,用一个摧毁百度推广平台的示意代码讲解运维客户端产生的由来:

scp destroy.sh www.baidu.com:/root

OK

ssh www.baidu.com 'sh /root/destroy.sh'

Baidu destroyed successfully. 当有百十来台服务器的时候,写个循环时间还可以忍受,上规模以后还要排队ssh就等得花儿也谢了。 给出了一些设计原则,也很有参考价值: 1、能不写客户端就不写!用搭积木的方法利用现有Linux工具完成工作; 2、能不写守护进程就不写!原因是其实昨天的思维和编程风格里已经提到了,因为daemon需要非常精准的控制,而人类做事很难完美。 3、单机重试可靠性无敌,集群重试就是DDoS,要Fail Fast。

淘宝双11购物狂欢节运维剖析 http://vdisk.weibo.com/s/z0cvf 淘宝从11年8月开始计划11.11购物狂欢节,提前规划,进行能力建设、预案设计并进行多次实战演练。 运维能力的建设要做好系统度量、资源调配(淘宝统一机型要求、统一OS为redhat 2个版本、划分服务单元)、业务伸缩和快速响应。

下午听了大数据与NoSQL专题。

eBay的大数据平台 提出了Data As A Service的概念,定义unified metadata,实现了Data shift service。

人人游戏的大数据与移动互联网 首先介绍了移动互联网和大数据的关系,然后是移动互联网与大数据有关的商机,移动广告平台和移动分析平台都不错。 接下来介绍了他们自己的移动广告平台架构,后面讲解解决问题方法的时候还介绍了很多算法:用Stripe算法优化IO吞吐量/Greed算法切分负载/Mirror Mark消除热点。 还有一点收获,总结了实时统计分析的特征:count/sum/unique visit,貌似我做snapshot的时候也就是统计这些了。

阿里数据平台 基于Hadoop的内部海量数据平台 云梯系统支持了阿里集团95%的数据统计业务,但新兴的阿里云是另外一套,这个比较有意思。 阿里的云技术积累非常深厚,要学的东西非常多。

新蛋科技 基于Solr的Cassandra二级索引设计 Cassandra的技术特性的确很吸引人:跨数据中心/没有点单失败/横向扩展性; 遇到的坑也很有参考意义,尤其是运维人员把MTU从1500改成9000后引发的故障,当丢包率太高的时候要降低最大传输单元。