4.1事件经过:
2001年8月3日,C电厂2号机组负荷200MW,#1至#9控制器处于控制方式,#51至#59控制器处于备用方式。8时23分,各控制器依次发NTP报警,历史站报警窗口显示如下:
Aug308:23:50drop7<7>NTP:toomanyrecvbufsallocated(30)
Aug308:23:50drop4<7>NTP:toomanyrecvbufsallocated(30)
………
8时26分,#2控制器脱网,#52控制器切为主控;11时05分,#52控制器脱网;13时39分,#7控制器脱网,#57控制器切为主控,在#7控制器向#57控制器切换瞬间,由该控制器控制的A、B磨煤机跳闸;15时11分,#9控制器脱网,#59控制器切为主控,在#9控制器向#59控制器切换瞬间,由该控制器控制的E磨煤机跳闸;15时51分,#1控制器脱网,#51控制器切为主控,在#1控制器向#51控制器切换瞬间,由该控制器控制的A引风机动叶被强制关闭。
15时22分,重启操作员站drop213(备用时钟站),NTP报警未消失;15时35分,重启历史站,NTP报警未消失;15时59分,重启工程师站(主时钟站),NTP报警基本消失;16时09分,重启历史站,16时30分,系统恢复正常。
4.2原因分析
NTP软件的作用就是维持网络时钟的统一,主时钟设置在工程师站上,备用时钟设置在操作员站上。控制器脱网原因为主时钟与备用时钟不同步造成系统时钟紊乱,从而造成NTP报警导致控制器脱网。
NTP故障的原因有两种可能,一种是主频为400MHz工作站,不同于1号机组的270MHz(SUN公司在400MHz工作站上对操作系统有较大改进)工作站,2号机组所用的1.1版本软件在400MHz工作站上未测试过,不能确保1.1版本软件在此配置上不出问题。另一种是主时钟与备用时钟不同步,在8月3日控制器脱网后,曾发现Drop214的时钟比其它站快了2秒,当时Drop214的画面调用速度较慢,经重启后正常,并且NTP时钟报警是在系统运行73-75天左右才出现的,估计是系统时钟偏差积累到一定程度后导致主、备时钟不同步,而引起系统时钟紊乱,最终导致控制器脱网。
NTP时钟故障使控制器脱网,处理不及时会使报警的控制器依次脱网,从而导致整个控制系统瘫痪。
4.3防范措施
4.3.1根据本次故障现象,制造商将软件由1.1版本升级为1.2版本。
4.3.2为确保控制系统可靠运行,定期重启主时钟和备用时钟站。
4.4D电厂5号机组在2002年试运期间曾发生DCS时钟与GPS时钟不同步,引发DCS操作员站失灵事件。由于网上传送的数据均带时间标签,时钟紊乱后会给运行机组带来严重后果,基本情况与C电厂2号机组类似。采取的措施是暂时断开GPS时钟,待软件升级和问题得到根本解决后,再恢复GPS时钟。
楼主最近还看过