谈SOA管控功能改进(3.23)

这篇文章点滴记录下SOA管控平台在实际使用和运维监控过程中的一些功能改进点，对于SOA管控平台而言，分为SOA前生命周期和后生命周期两个阶段。在前生命周期重点是服务定义，设计，封装接入，测试和部署上线过程。而在后生命周期重点则是服务运行监控，预警，流量控制，自服务流程，运维自动化，性能调优等方面。

监控是平台发现问题，分析和解决问题，并促进平台持续改进和优化的重点。同时监控本身又在这个过程中完成自动化和智能化。即从人工的分析监控和判断转到系统自动化的基于规则策略的分析和判断过程。

再谈企业内信息化建设和业务系统构建的时候，我们一般会谈到类似的BI的商业智能分析平台，但是要注意的是对于每一个业务系统都应该具备智能特征，即智慧应用。而智慧应用本的特点就是要具备自我发现，自我修复，自我改进和优化的自动化能力。

在这个过程中一开始可能是我们输入规则，并不调调整和优化规则，而到了后期则应该是智慧应用自己去学习规则，调优规则，而不再需要太多的人为干预。

因此，具备自我学习能力，自我优化改进能力的应用才能够叫做智慧应用，否则只能叫自动化应用。

转为正题，谈下对于我们SOA管控和治理平台后续可能需要进行持续改进和优化的点。

1. 业务系统停机运维将导致该系统提供的接口服务全部调用异常。因此对于SOA最好能够维护各个业务系统的停机运维时间，在该运维时间里面业务系统处于不可用状态，SOA直接返回停机运维信息给消费方系统。这样可以减少大量接口服务的异常调用。同时也将系统真实异常和停机运维类异常真正区分开来。

2. 对于服务总线，最容易出问题的就是大数据大并发调用下出现的JVM内存溢出，因此需要增加对JVM内存使用实时监控的能力，同时在超过某个阈值，同时持续增长的情况下做到实时预警，方便启动人工干预。而这里最智能的就是，真正能够定位到具体是哪个服务大数据量调用导致了JVM内存溢出问题，同时系统自动将定位到的服务进行取消授权访问或控制访问流量。

3. 对于大集团多个子公司，子组织的实施项目，一方面是提供按系统维度的服务运行次数，时间，并发，数据量等周报，月报等报表。其次就是真正从租户的角度提供组织维度的报表信息，使得单个组织能够完全查看到自己组织的服务运行统计信息，同时占在整体角度又能够看到所有组织的运行状态情况，以方便进行对比分析。

4. 在单个维度的服务监控运行指标做来差不多后，接下来的重点实际上就是在服务实际运行监控过程中多个采集指标数据之间的勾稽关系和相互影响。比如服务运行次数，时长，数据量，内存利用率，CPU利用率，数据流量间的勾稽关系。这些勾稽关系的分析方便我们进一步准确定位到服务运行故障或性能问题。