2019-06-20
摘要:本文主要从场强测量、天线因子测量、电磁兼容等角度对无线电监测数据质量进行深入研究,对采集的数据进行质量分析,并且提出了数据清洗技术,制定相应的清洗规则,从而实现问题数据的识别和剔除处理,使得最终的数据质量可靠。
关键词:数据质量清洗技术 清洗规则
0引言
无线电监测和管理的关注和处理的目标对象为空中的电磁信号,电磁环境的复杂性和多样性,使得电磁信号的有效接收、分析和处理成为一项极具挑战性的工作。无线电监测设备的信号和信息数据处理的准确性直接影响到各项无线电监测和管理业务的有效性和可信度,错误的数据进入到数据处理端,会带来错误的分析结果,进而影响到对管理的决策,因此监测信号和信息数据的有效处理和质量保证也因此成为一项具有重要意义的基础性工作和关键处理流程。
本文第一节对数据的测量要求做了规定,第二节提出并分析数据主要存在的数据重复、天线因子不统一等问题。第三节针对问题数据提出数据清洗规则,将问题数据进行删除处理,并展示数据清洗后的效果,第四节对数据清洗进行小结。
1 质量分析依据
ITU-R SM.1708-1建议书《具有地理坐标登记的路径的场强测量》中对移动场强的计算、测量天线高度、接收机设置、车速、数据处理等项做了规定。
(1)场强的计算
场强值可通过以下公式计算:
其中,e 为电场强度分量(dBuV/m);v0 为天线输出电压(dBuV);k 为天线系数(dB(m-1));ac 为天线信号路径的衰减(dB);
对于特定的测试接收机,可将关于天线系数与信号路径衰减的综合信息(天线因子)事先写入接收机内存,直接读得以dBuV/m为单位的场强结果。
(2)测量天线高度
测量天线的选定高度为1.5~3米。
接收机设置:动态范围:测量接收机的动态工作范围应≥60dB;检波方式:根据测试信号的特点和调制模式设定。公众移动通信信号可采用均方根检波。
测试车的速度:测试车的速度需适合同时测量但频率不同的测试信号个数的波长以及测试接收机的可用最短测量时间。
其中,tr为接收机规范中规定的重返单频的最短时间。
(3)数据处理
由于不同的衰落与反射效应,一次测试结果不可重复,故无法直接代表一个测试点的场强值。原始数据可视需要做进一步处理。
平均值:每一间隔至少需包含100个值。
根据超概率场强对结果进行分类:在测量期内根据1-99%的超概率对结果进行分类。
常用的测量天线校准方法:标准场法、间接校准法、标准天线法、标准距离或者标准地点法[1]。业内通常采用校准天线法(又称为置换法)获得天线因子,即采用一副精确已知天线因子的天线来测量未知场强的平面波,然后用要校准的天线替换该天线。标准增益天线本身的天线因子是由其尺寸和测得的适配单元特性计算得到的,或者采用精确的校准程序确定的。
对于频率扫描方式的噪声测量,应进行天线因子修正、设备噪声修正与滤波器形状/带宽修正。
(1)天线因子修正
每个频率的测量都应经过合适的天线因子的修正。
(2)设备噪声修正
修正步骤如下:首先不接源(无源天线)测量一小段时间,此时要接低噪声放大器,并且设备参数设置保持与测量一致。然后使用和测量时相同测量方法以及百分比测量最小值,最后用测量平均值线性减去该最小值。
(3)滤波器形状/带宽修正
噪声表示为单位带宽内的功率值,这种表述需要综合考虑滤波器带宽,一般滤波器形状都被看做矩形。
为减小不必要的无线电发射,需遵循下列建议:
(1)在给插头送电之前的供电输出端应安装高性能的EMI电源滤波器。
(2)网络布线(RS232、以太网、IEEE488)需屏蔽(或使用光纤)。
(3)必须确保所有的金属元件接地。
(4)必须保护设备(发电机组、逆变器、电池充电器、警报车辆……)免受电磁干扰。
在实施移动监测中,必须要考虑无线电频率环境[1],强信号能在监测或测量系统中产生互调失真,使得难以获得准确信号。使用低噪声放大器或有源(放大)天线的监测系统,对由于强信号而在自身内部产生的互调更为敏感。
2 数据的质量问题及原因分析
在实施移动监测中,未充分考虑无线电频率环境,强信号能在监测或测量系统中产生互调失真,造成频谱使用评估数据中存在失真的监测数据。针对此问题,我们在实验室环境下进行了验证,当输入信号功率超过接收机能接受的功率范围时,出现失真,表现为频域上的底噪抬升或大量虚假信号。
监测数据失真是固定站和移动车的共性问题。固定站出现此问题可能的原因:一是站址选择问题,临近发射源或者建站后有新的发射源在附近出现,二是参数设置问题,全频段扫描时衰减相关参数设置不合理。而移动站在移动监测过程中不可避免会经过发射源,基本无法通过衰减相关参数设置来避免问题,须在后端进行数据处理。
采集频谱使用评估数据的监测车未严格满足设备的电磁兼容性要求,电磁兼容(屏蔽)设计不合理易造成低端电磁干扰,表现为底噪不平稳,产生周期性干扰信号、倍频信号泄露等,通常在300M以下较为严重,对调频广播、航空导航等重要频段的监测造成恶劣影响,监测数据可用性不高。
该问题主要存在于移动车,主要分为两个方面:一是监测设备和配套设备产生的电磁干扰信号经过天馈进入到了系统中,移动车和部分挂杆站天线和设备距离非常近,电磁干扰较强;二是电源等的传导干扰,线缆本身没有做屏蔽处理,干扰信号通过线缆直接进入系统。
(1)未进行天线因子校正
部分监测数据可能是电平数据,未叠加天线因子。
(2)天线因子校正标准不同
监测设备一般采用标准天线法获得天线因子,但是不同的监测设备,天线因子的参照标准不同(标准天线增益不同),造成天线因子校正标准不同,不同厂家的监测数据不建议同时分析。
天线因子问题是所有站的共性问题,在测试场地进行待测天线的因子测量除了其参照标准不同以外,测试场地的不相同,使得测试环境带来了不同的误差。
2.4电平大范围波动
数据电平上下跳动,无法确定真实的电平值,它是个别站点问题,是系统本身的问题,此问题出现于一台监测车,初步判断该问题为接口松动,在运行过程中接口接触不良导致的。同时,也暴露出验证软件的不足。
虽然本次分析的固定站未出现这类现象,但是为了保证监测设备工作在线性区域通常会根据每个频段的信号情况进行衰减设置,这样就会出现不同的频段采用的是不同的衰减,频谱上看起来就会出现“台阶”。由于现在的数据结构不能够把带来“台阶”的衰减参数存储下来,后续分析时就会出现问题。
图1 衰减带来的“台阶”
数据清洗是通过相关技术如数理统计、数据挖掘或预定义的清理规则将问题数据转化为满足数据质量要求的数据,是保证数据质量的重要技术手段[2][3]。频谱使用评估数据清洗主要是实现问题数据的识别,然后进行剔除。根据频谱使用评估数据存在的质量问题及其特征,定义其清洗规则,主要规则如下:
(1)存储错误
邻近时间的数据进行统计,根据统计值的离散度进行判别;以及对于单频长时间的时域分析,利用波动率进行判别。
(2)监测数据失真
利用阶跃检测与边缘处理算法以及数值统计与置信度分析算法进行统计和识别。
(3)电磁兼容问题
针对300M以下频段进行识别,利用底噪中心·散度判别法和分段交叉判别法识别是否存在电磁干扰。
(4)电平大范围波动
针对全频段数据进行识别,采用基于统计的数值离群判定法实现问题数据识别。
4 验证效果示例
按照清洗策略对某车2017年7月4日的一个数据文件进行清洗,并且对该数据文件进行信道占用度分析,在清洗前,无信号的频段如1790 MHz~1805MHz、1875 MHz~1885MHz的占用度均不为0,清洗后这种现象得到明显改善,如图2和图3所示。
图2 1790MHz~1930MHz数据清洗前的信道占用度
图3 1790MHz~1930MHz数据清洗后的信道占用度
分析中发现部分数据帧的经纬度只有整数部分,无小数,真实环境下不太容易出现此类现象,且经纬度与文件中的其他数据相差较大,导致轨迹图绘制时出现偏离。图4为某车的数据文件,文件前5帧的经纬度错误,与真实位置相差甚远,图5为清洗后的轨迹图。
图4 错误的经纬度导致轨迹图偏离
图5错误经纬度清洗后的轨迹图
5 小结
本文针对无线电监测数据质量问题、产生原因进行了分析研究,通过边缘检测、数理统计等技术对问题数据标记与清洗,同时验证了清洗效果。结果表明,数据清洗技术能够识别与剔除问题数据,保证了监测数据的正确性和可用性。数据清洗技术是保证数据挖掘与分析有效可靠的屏障,可为频谱管理任务、频谱评估、数据中心建设等提供数据质量保障和有效支撑。
参考文献:
[1] 频谱监测手册(2011版)
[2] 谭晖,廖振松,周小翠,贺凡. 大数据的数据清洗方法研究[J]. 信息通信. 2017(01)
[3] 郭志懋,周傲英. 数据质量和数据清洗研究综述[J]. 软件学报. 2002(11)