Linux Socket连接上限的查看及配置

Posted on Fri 10 June 2011 in 我用(IT) • Tagged with linux, 系统监控

查看Socket连接上限

有测试工具,叫ttcp。不过对于线上的服务器,靠实测实在是过于狼虎的方法了。 http://renoir.csc.ncsu.edu/ttcp/

除了实测,还可以通过观察监控日志来找到这个上限值,不过往往已经损失惨重了。 拿Cacti来说,观察"Open Sockets"图表,不同负载情况的total socke 的 maxinum如果是一个定值的话,显然已经达到上限了。 http://docs.cacti.net/ Cacti的这个监控就是调用了sar的监控结果,其实就是把sar -n SOCK(sysstat)进行了汇总并生成了图像查询界面

5秒钟采样一次,一共统计2次的输出结果如下

$ sar -n SOCK 5 2 Linux 2.6.18-164.el5 (baiqi) 06/10/2011 ...


Continue reading

【头脑风暴】说说监控

Posted on Fri 09 July 2010 in 我思 • Tagged with 头脑风暴, 研发管理, 管理, 系统监控

主持人发言

结合工作,从一下三个方面挑 选一、二发言:

  1. 目的: 监控应该提供怎样的功能
  2. 内容: 哪些地方需要监控
  3. 怎样做:结合工作谈谈怎样监 控系统设计、开发的思路

监控提供的功能

  1. 确认故障点:目前计费报警不是 特别方便定位【葛旭】
  2. 评估服务情况: 给出财务损失报告【李焱】
  3. 服务能力预警: 分析历史数据,根据趋势为服务能力告警【李焱】

内容

  1. 在数据库层面,对统计查询的监 控力度还不够;监控系统的可用性也需要监控【苑琦】
  2. 系 统角度: 网络和硬件的有效性;服务请求总量;服务请求相应时间分布【李焱】
  3. 业 务角度: 计费成功情况、用户成果推送情况【李焱】
  4. 用 户行为角度: 用户行为分析【李焱】

怎样做

  1. 监控报警不够准确,需要加强; 监控系统的可用性需要有保障 ...


Continue reading

【提纲】- 关于“监控”的头脑风暴

Posted on Thu 08 July 2010 in 我思 • Tagged with 头脑风暴, 研发管理, 管理, 系统监控

监控的目的 确认故障点 分析历史数据,预判故障

- 监控具体的工作内容: 按照对目前工作的认识,监控由下往上分为系统监控、业务监控、用户监控 系统监控包括: 网络和硬件的有效性监控;服务请求相应时间、服务请求总量等 业务监控:包括基础业务数据信息获取 用户监控:从基础数据中基于用户标志进行关联组合,获得用户行为

监控还包括阈值判断、触发报警判断等功能

- 怎样来做: 目前的监控系统建设交给运营支撑线去做,有些过于纠结于运营部门提出的业务逻辑。最好从基础业务信息获取入手,好好分析一下目前到底能够拿到哪些基础业务数据; 然后可以继续深入,提高基础信息的关联性,把基础业务信息和一个用户使用我们产品的行为关联起来; 基于以上的工作,再来和运营讨论业务监控逻辑。

也要思考怎样做服务可用性的监控。


Continue reading

性能故障的处理方法

Posted on Sat 22 May 2010 in 我思 • Tagged with 系统监控

公司的一个主营业务,从5月1日开始就不正常工作了,表面的现象就是DBCP的连接池耗尽,代码提示Cannot get a connection, pool exhausted,开始最严重的时候得靠人工启动,才能恢复服务。

后来问题逐渐往下定位,在代码级:修改了竞争性的SQL更新操作,降低了特定请求处理中的IO消耗;在配置级:禁止了Apache错误恢复的重试机制,调整了A和T之间的超时设置,优化了DBCP中的设置。好像都没解决问题,忽然有一天,系统部的人说问题解决了,原因是他们换了一台Apache分发服务器。

觉得有些不知所谓,正好这时候搞清故障原因的事情又落到我头上了,那就分析分析吧。

对于线上的性能故障,从观察现象,分析定位出关键问题,然后提出解决方案;再观察改进后的系统,定位新的问题,提出新的解决方案,可以形成一个闭环。

在每个问题处理的周期内,要尽量全面的思考问题,尽量不要遗漏重要的环节;在看到现象时,首先要做的是想办法拿到相关数据(系统参数、线上的配置、当时时间段的用户请求数),而不是轻易下结论;条件允许的情况下,逐步进行改进,比对改进前后的监控数据,用数据说明改进的效果。

上面罗嗦的两段话是我憋了半天才写出来的,舍不得删了 ...


Continue reading