作者:韦凤梅
来源:《中国新通信》 2017年第24期
一、引言
VoLTE 是基于IMS 的语音业务,由于语音业务本身具有的敏感性,对VoLTE 网络设备容灾备份的可靠性能要求就比较高。网元节点失败检测机制是当今通信面临的主要挑战。针对于此, SIP OPTIONS 主动检测机制在VoLTE 核心网得以广泛推出。
OPTIONS 是SIP 信令的一种方法,该方法可以实现语音VOLTE 网络在出现故障时候业务的无缝接续。由于SIPOPTIONS 检测机制的兼容与开放性,该技术可以应用于任何运营商,如移动、联通、电信等。
二、SIP OPTIONS 故障检测实现
2.1 SIP OPTIONS 故障检测原理
SIP 规范规定了 6 种主要方法:REGISTER 、INVITE、ACK、CANCEL、BYE、OPTIONS ,其中OPTIONS 用于查询服务器负载,它是用来检测 UA(User Agent) 的处理能力。SIP 中的 OPTIONS 方法具有允许一个 UA 来查询另外一个 UA 或者 proxy 服务器的能力,也就是说该方法允许客户端UA 直接查询服务端UAS 的运行状态。客户端发出OPTIONS 请求后,通过服务端的响应,发起方就能判断对方是否可达。该方法要求双方都要有支持的选项,通过检查OPTIONS 返回的 Supported 头域,就可以知道对方是否支持这个选项。
OPTIONS 请求的目标是用 Request-URI 指明的,这个既可以是一个 UA 也可以是一个 SIP 服务器。如果 OPTIONS 指向一个 proxy 服务器,就类似 REGISTER 请求中的 Request-URI 一样;如果一台服务器收到一个OPTIONS 请求并且Max-Forwards 头域值是 0 的时候,它就需要响应这个请求而不需要关心 Request-URI 的内容。这个机制可以用来实现类似“traceroute”功能来通过发出 一系列的有着增量 Max-Forwards 头域的 OPTIONS 请求来检查每一个途径节点是否在线的能力。如果OPTIONS 没有应答,transaction 层能够返回一个超时错误,这个可以标志着对方无法到达因此无响应。
SIP OPTIONS 故障检测就是把指向服务器Max-Forwards头域值设为 0,服务器仅仅需要响应这个请求,发起方就能判断对方是否可达,由此来确定目的地的故障。
2.2 SIP OPTIONS 故障检测实现流程
SIP OPTIONS 故障检测技术的特点是:SIP OPTIONS 检测属于主动检测,可以主动监控下一跳目的地是否可达,更快的检测出相连网元实体的失败,并且迅速启用恢复流程,重新选择正常的下一跳,这样就减少了网络时延并提高了网络的运行效率。
而传统的故障切换是被动检测方式,一般要在网元故障发生以后,往往通过告警(譬如IP 不可达等告警)产生后才进行IP 切换等方式来实现故障切换,响应速度比主动检测来得慢。IMS 域故障检测具体实现的流程如图1。
1. 源节点网元发送至目的节点网元的REGISTER、INVITE、MESSAGE 等SIP 消息。
2. 在t1 时间内未收到响应,源节点网元启动向目的节点网元的OPTIONS 检测(检测周期和次数可配置)。
3. 检测后,未收到目的节点网元任何响应,则判断目的节点网元故障,移入黑名单,在检测到故障恢复之前,任何消息均不发送至此网元。如果检测后,在t2 期间,对方有一次收到200OK 响应,则判定目的节点网元工作正常,继续向目的节点重试此请求,直到SIP 协议底层状态机超时。
4. 节点网元故障加入黑名单后,源节点网元可选等待t3时间,启动OPTIONS 检测(检测周期和次数可配置),确定目的节点网元故障是否已恢复。
5. 源节点网元收到目的节点网元的200 OK 响应。6. 源节点网元判断目的节点网元故障恢复,将其移出黑名单。
2.3 SIP OPTIONS 故障检测实现案例
IMS 域中使用SIP 协议通信的网元的故障检测基于SIP协议的OPTIONS 消息, 适用于Mw、ISC、Mg、Mj、Mi 及Gm 等接口网元。这些网元包括S-CSCF、AS、BGCF、I-CSCF P-CSCF、MGCF 等网元。
以现网VoLTE AS 的例子来说明。在UE 始发/ 终结业务始中(如主叫、注册/ 被叫等业务),SIP OPTIONS 机制是如何实现故障的倒换恢复。如图2:
步骤1:S-CSCF 接收到业务如呼叫或注册请求(REGISTER/INVITE)。
步骤2:如果用户在首次注册时,S-CSCF 查询ENUM/DNS 获取到AS 的POOL,例如这里有2 个AS:AS1 和AS2(该流程为重注册或呼叫时,可以省略)。
步骤3:S-CSCF 将请求转发至AS1 后,AS1 突然发生了故障,S-CSCF 在t1 时间内没有收到AS1 返回的任何响应,则启动SIP OPTIONS 故障检测机制,确认AS1 故障。此时AS1 被加到黑名单中,状态由Active 变为Inactive,详见如下记录1。
步骤4:若SIP 底层定时器未超时,则S-CSCF 选择可用的AS2 转发业务请求。
步骤5-6:TAS2 发现此用户数据不存在,向HSS 发送UDR 消息请求下载用户信息,并根据标准流程接续。
以上是AS1 的故障倒换,如果AS1 故障恢复,OPTIONS机制可以进行故障恢复,把业务顺利恢复到AS1 上,下面介绍一下故障恢复的机制。
源节点网元等待t3 时间后,启动OPTIONS 检测,确定目的节点网元故障是否已恢复。在检测过程中,若连续N 次OPTIONS 消息收到200OK 响应,则判定目的节点网元工作正常,将其移出黑名单,状态恢复成Active。以上的检测时间周期和次数可以根据实际需求灵活配置。记录2 是黑名单的状态,其中,Active 表示已经移出黑名单。
移出黑名单后,SCSCF 就把业务转发到原先的AS1,故障恢复到原来的网元节点。网络中原先从AS1 迁到AS2 上的用户就可以快速迁回到AS1 上。
三、结束语
通过SIP OPTIONS 检测技术,不仅可以将业务平滑的从故障网元过渡到备用网元,而且还可以在故障网元恢复的时候,把业务快速的迁回到原来的设备。这样就可以实现网络设备的负载均衡,提升网络工作效率,并且在容灾倒换期间保证了整体网络的安全稳定运行。这对
VoLTE 现网在出现故障时,在不影响业务情况下网元节点失败的倒换与恢复具有推广应用价值。
因篇幅问题不能全部显示,请点此查看更多更全内容