QCon Beijing 2013 day 2

Posted on Fri 26 April 2013 in it

今天上午听了自动化运维专题，新浪、腾讯、百度、淘宝4场的水准都很高，绝对的物有所值。

新浪CDN自动化运维 http://vdisk.weibo.com/s/z0eoy CDN平台规模：300G带宽，1000+台服务器，覆盖全国7个ISP 40多个IDC 自动化运营经验： 1、基于puppet/Zabbix开源系统的自动化运维系统：提升运维效率，加快故障处理速度； 2、规范主机名：ISP.IDC.City.Group.Role.Product.ip4.domain.com 3、建立SRE角色（site reliability engineer），保护多数工程师不被打扰可以顺便参考一下这篇文章：http://wenku.baidu.com/view/6c26cb27bcd126fff7050bab.html 腾讯海量SNS社区网站高效运维 http://vdisk.weibo.com/s/z0fjF 不得不说，这个slide的立意要更高一筹，工具有效的前提条件是要有一个清爽的工作环境，也就是尽可能的减少运维对象：所以我们要为程序统一打包，规范RD的技术架构。另外一条方法论方面的建议就是要形成更多的工作闭环，尽可能的降低沟通协调成本。

百度的运维客户端技术 http://vdisk.weibo.com/s/z0fC- 这个小伙儿好有个性啊，用一个摧毁百度推广平台的示意代码讲解运维客户端产生的由来：


scp destroy.sh www.baidu.com:/root
OK
ssh www.baidu.com 'sh /root/destroy.sh'

Baidu destroyed successfully. 当有百十来台服务器的时候，写个循环时间还可以忍受，上规模以后还要排队ssh就等得花儿也谢了。给出了一些设计原则，也很有参考价值： 1、能不写客户端就不写！用搭积木的方法利用现有Linux工具完成工作； 2、能不写守护进程就不写！原因是其实昨天的思维和编程风格里已经提到了，因为daemon需要非常精准的控制，而人类做事很难完美。 3、单机重试可靠性无敌，集群重试就是DDoS，要Fail Fast。

淘宝双11购物狂欢节运维剖析 http://vdisk.weibo.com/s/z0cvf 淘宝从11年8月开始计划11.11购物狂欢节，提前规划，进行能力建设、预案设计并进行多次实战演练。运维能力的建设要做好系统度量、资源调配（淘宝统一机型要求、统一OS为redhat 2个版本、划分服务单元）、业务伸缩和快速响应。

下午听了大数据与NoSQL专题。

eBay的大数据平台 提出了Data As A Service的概念，定义unified metadata，实现了Data shift service。

人人游戏的大数据与移动互联网 首先介绍了移动互联网和大数据的关系，然后是移动互联网与大数据有关的商机，移动广告平台和移动分析平台都不错。接下来介绍了他们自己的移动广告平台架构，后面讲解解决问题方法的时候还介绍了很多算法：用Stripe算法优化IO吞吐量/Greed算法切分负载/Mirror Mark消除热点。还有一点收获，总结了实时统计分析的特征：count/sum/unique visit，貌似我做snapshot的时候也就是统计这些了。

阿里数据平台基于Hadoop的内部海量数据平台 云梯系统支持了阿里集团95%的数据统计业务，但新兴的阿里云是另外一套，这个比较有意思。阿里的云技术积累非常深厚，要学的东西非常多。

新蛋科技基于Solr的Cassandra二级索引设计 Cassandra的技术特性的确很吸引人：跨数据中心/没有点单失败/横向扩展性；遇到的坑也很有参考意义，尤其是运维人员把MTU从1500改成9000后引发的故障，当丢包率太高的时候要降低最大传输单元。