《武汉工程大学学报》  2024年03期 299-303   出版日期:2024-06-30   ISSN:1674-2869   CN:42-1779/TQ
开源文本中军事目标动向事件抽取方法研究


在当前网络大数据时代下,能够从网站、博客、社交平台和其他公共数字空间中搜集大量开源情报辅助军事情报分析工作[1]。在军事情报分析中,军事目标的动向信息较为重要,分析人员通过分析军事目标的运动轨迹来了解其可能的行动意图和目的地,从而更好地预测和防范潜在的威胁。
为了自动化获取军事目标的动向情报以挖掘战场动态信息,需对开源军事新闻文本中军事目标动向事件进行抽取。事件抽取的目标是从文本中获取用户感兴趣的信息,组成事件的元素包括事件类型、触发词、事件论元和论元角色。事件抽取任务一般可分为事件检测、论元识别与角色分类2个子任务。目前,事件抽取研究从领域上大致可分为开放域和限定域。本文主要对限定域中的事件抽取进行研究。事件抽取的研究大致分为3类[2]:基于规则匹配的方法、基于特征构造的机器学习方法和基于深度学习的方法。其中基于规则匹配的方法一般是由领域专家设计规范的抽取规则模式来完成事件抽取,其核心在于模式的构建。例如,贾美英等[3]使用基于规则匹配的方法抽取军事演习情报中演习代号、演习时间、演习地点、演习类别、参演国家、参演武器、参演部队7种元素。但是,使用基于规则匹配的方法通常需要大量规范的抽取规则,构建成本较高而且不具有通用性。基于特征构造的机器学习方法通过构建特征工程搭建神经网络实现自动学习特征,完成事件抽取。侯立斌等[4]使用字级、词级、句法、实体、位置等多种特征,通过序列标注的方法,使用条件随机场(conditional random field,CRF)控制事件类型标签的输出。由于基于特征构造的机器学习方法往往需要构建复杂的特征工程,使得其迁移性较差,在跨领域应用时需要重新构建特征工程。近年来,研究人员开始使用深度学习方法,通过构建深层神经网络自动提取特征,完成事件抽取。季忠祥等[5]使用卷积神经网络(convolutional neural network,CNN)和双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)构建中文事件抽取模型,取得了与机器学习方法相近的性能;王学锋等[6]提出双向长短时网络-条件随机场模型用于作战文本的事件抽取,主要抽取攻击、机动、部署、防御、保障、伤亡6类军事事件。
在事件抽取中,一词多义问题一直影响触发词的识别与分类的准确性(即触发词歧义问题)导致事件检测的准确度不高,从而影响事件抽取的整体性能。随着预训练语言模型的出现,该问题得到很好的解决。如预训练语言模型基于转换器的双向编码表征(bidirectional encoder represen-tation from transformers,BERT[7])能够根据单词的上下文动态捕获单词具体的语义信息,解决了一词多义问题。基于此,李旭晖等[8]将BERT模型应用到金融领域,提出融合BERT和多层CNN的事件抽取模型,在中文金融事件数据集上取得了高达82.20%的F1分数值,证明了在特定领域上使用预训练语言模型能够大幅提升事件抽取任务的性能。王炳乾等[9]使用BERT作为文本的编码器,增强了模型的语义理解能力,并通过构建多标签指针网络缓解了事件抽取中的角色重叠和元素重叠问题。
然而,在军事目标动向事件抽取中,不仅需要进行事件抽取,还要对抽取的地点论元进行空间关系的识别,从而实现对动向文本中最关键的运动轨迹的抽取。目前的事件抽取研究工作中,仅抽取地理实体作为地点论元,忽略了地点论元之间的空间关系。下面以例1具体说明在军事目标动向文本中不识别地理实体空间关系的弊端。
例1:9月4日凌晨,美军一架RC-135S从冲绳嘉手纳基地起飞,一路北上穿过东海防空识别区,径直前往青岛以南的黄海海域,对中国进行抵近侦察,最近距离中国领海基线约30海里(55 560 m)。(来源:观察者网[10])
对例1的句子进行事件抽取,通过触发词“起飞”识别出移动事件类型,可抽取出地点论元“冲绳嘉手纳基地”、“东海防空区”、“青岛”、“黄海海域”和“中国领海基线”。然而根据这些孤立的地点论元,无法获知动向文本中军事目标的运动轨迹信息。究其原因,主要是抽取的事件中缺失了描述地点论元之间空间关系的信息。
关于空间关系识别,国内外相关研究较少。空间关系识别主要包括空间元素抽取和空间关系识别。例如,仇培元等[11]通过CRF对交通事件角色标注,利用支持向量机对角色关系和要素关系标注,完成对交通事件信息空间要素关系的识别。于辛[12]提出基于依赖识别的空间关系识别方法,先通过依赖识别模型识别出文本中空间元素间的语义依赖,再根据空间关系组合方法得到完整的空间关系。
本文针对开源军事新闻动向文本的特点,提出一种划分细粒度空间关系标签的方法以识别地点论元空间关系;采用序列标注的方法,构建联合动向事件抽取模型(joint motion event extraction model,JMEEM),使用优化加强的BERT预训练方法(robustly optimized BERT pre-training approach,RoBERTa[13])进行底层编码,使用BiLSTM进行深层次特征提取,并提供双向语义依赖,使用CRF进行标签分类,以完成事件抽取;提出运动轨迹抽取算法对事件抽取结果进行后处理,进一步提升地点论元之间的空间关系信息的完整性。
1 动向事件抽取
军事目标动向事件抽取旨在从军事动向文本中识别出移动主体(即军事目标)、移动事件发生的时间、经过的地点以及地点间的空间关系。通过军事目标动向事件抽取,获取动向文本中关键的运动轨迹信息。然而传统的事件抽取中不区分地点论元之间的空间关系,导致无法获取移动目标准确的轨迹信息。为了解决该问题,提出一种划分细粒度空间关系标签的方法,通过为地点论元分配蕴含空间关系的角色标签来识别空间关系,并使用序列标注的方法抽取相应空间关系角色标签对应的地点论元。
根据军事目标动向追踪应用场景的具体需求,结合领域专家的意见,本文对飞行器和水面舰船2类常见的军事目标进行动向事件抽取的研究。仅研究单移动目标情况下的句子级的事件抽取,不涉及单个句子中出现多个移动目标的情况。对开源军事新闻动向文本进行单事件抽取,采用序列标注的方法完成事件抽取任务,为了避免级联错误传播,采用联合学习方法同时识别事件类型并抽取事件论元及角色。
1.1 基于RoBERTa的事件抽取模型
考虑到预训练模型RoBERTa移除了BERT在预训练阶段中的下一个句子预测任务,使得RoBERTa更适合单句子的事件抽取任务。构建基于RoBERTa的联合事件抽取模型JMEEM,该模型由RoBERTa编码层、BiLSTM层、线性层和CRF组成,其网络结构如图1所示。
在数据输入端,将输入句子按字符切分,得到字符序列[x=x1, ?, xi, ?, xn],其中[xi]表示句子中第[i]个字符,[n]表示句子长度。RoBERTa模型期望的输入向量是字向量和位置向量相加向量,因此,需对字符序列进行相应的转换,从而得到输入字符向量序列[e=e1,?, ei, ?, en]。通过BiLSTM层提取深层次的语义特征,获取输入句子的双向语义依赖,即隐藏状态向量序列[h=h1, …, hi, …, hn]。隐藏状态向量序列[h]通过线性层,得到标签向量序列[t=t1, …, ti, …, tn]。为了避免输出标签序列产生基本的逻辑错误,在线性层后添加CRF来约束输出标签序列中相邻标签的依赖关系,最终得到标签序列[y=(y1, ?, yi, ?, yn)]。上述过程涉及的计算公式如式(1)~式(4)所示:
[ei=f(xi)] (1)
[hi=o→i⊙tanhc→i+o←i⊙tanhc←i] (2)
[ti=W12hi+b2] (3)
[g(y, t)=iPyi-1, yi+iWti, yi] (4)
其中, 函数[f(·)]表示RoBERTa模型对输入字符进行编码处理;[o→i]、[c→i]分别是前向长短期记忆(long short-term memory,LSTM)中输出门的输出向量和记忆单元存储的向量,[o←i]、[c←i]是后向LSTM对应的向量,[⊙]表示点积运算,将前向LSTM和后向LSTM的隐藏状态向量相加,得到BiLSTM层的隐藏状态向量[hi];[W12]是BiLSTM层到线性层的权重矩阵,[b2]是偏置向量,[ti]是输出的标签向量,[ti∈RN],[R]表示向量空间,[N]表示维度,[N=21]为事件类型和角色类型组成的BIO(begin,inside,other)标签的总数;[g(y,t)]表示输出标签序列的分数,[Pyi-1,yi]表示转移分数矩阵,其值为0或1,[Wti, yi]表示发射分数矩阵,其值为0或1。
本文采用序列标注的方法,使用JMEEM模型识别输入句子所对应的输出标签序列中的事件类型标签或事件角色标签,通过识别事件触发词对应的事件类型标签,实现事件类型的检测;通过识别事件论元对应的角色标签,实现事件论元及对应角色的抽取,进而完成事件抽取任务。表1所示事件模板中定义了多种细粒度空间关系标签,通过标签名有效识别地点论元之间的空间关系。
表1 细粒度空间关系的事件模板
Tab. 1 Fine-grained spatial relationship event template
[事件类型 事件角色 MotionEvent miltary target, organization,time,
orgin, via, destination, orientation,
distance ]
1.2 动向事件抽取后处理
为了进一步加强动向事件抽取结果中各地点论元之间的空间关系,使用运动轨迹抽取算法对事件抽取结果进行后处理,将蕴含空间关系的地点论元进行组合,便于充分获知军事目标的行动意图。其中,将蕴含空间方位信息的两个相邻地理实体论元进行组合,形成方位三元组,例如(青岛,南,黄海海域);将蕴含距离信息的两个相邻地理实体论元进行组合,形成距离三元组,例如(黄海海域,30海里,中国领海基线)。表2展示了对例1进行动向事件抽取得到的最终抽取结果。
表2 例1的动向事件抽取结果
Tab. 2 The motion event extraction result of example 1
[动向事件抽取结果 {“eventType”:“MotionEvent”,“trigger”:“起飞”,“startIndex”:26,
“arguments”:[{“argument”:“9月4日”,“role”:“time”,“startIndex”:0},{“argument”:“美军”,“role”: “organization”,“startIndex”:7},
{“argument”:“Rc-135S”,“role”:“MiltartTarget”,“startIndex”:11},
{“argument”:“冲绳嘉手纳基地”,“role”:“orgin”,“startIndex”:19},
{“argument”:“北”,“role”:“orientation”,“startIndex”:31},
{“argument”:“东海防空识别区”,“role”:“via”,“startIndex”:35},
{“argument”:“青岛”,“role”:“via”,“startIndex”:47},
{“argument”:“南”,“role”:“orientation”,“startIndex”:50},
{“argument”:“黄海海域”,“role”:“via”,“startIndex”:52},
{“argument”:“中国领海基线”,“role”:“destination”,“startIndex”:71,
{“argument”:“30海里”,“role”:“distance”,“startIndex”:78}]},
“trajectory”:{“origin”:“冲绳嘉手纳基地”,“via”:[“东海防空识别区”,“黄海海域”],“destination”:“中国领海基线”,“orientation”:[(“冲绳嘉手纳基地”,“北”,“东海防空识别区”), (“青岛”,“南”,“黄海海域”)],“distance”:[(“黄海海域”,“30海里”,“中国领海基线”)]}} ]
2 实验与分析
2.1 数据来源
由于没有公开的军事新闻动向事件数据集,本文自建了一个真实的开源军事新闻文本动向数据集,搜集观察者网和南海战略感知平台公布的2019—2023年有关军事目标动向事件的文本数据,总计700条。按照BIO标注法分别对事件触发词和事件论元进行标注,标注完成的语料总计为637条,按照8∶1∶1的比例分别构建训练集、验证集和测试集数据。
2.2 评价指标
为了验证本文事件抽取方法的有效性,采用准确率(P)、召回率(R)以及[F1]分数([F1])进行结果评估,具体方法如式(5)~式(7)所示,其中[N1]表示正确抽取的论元数量,[N2]表示抽取的论元总数量,[N3]表示实际的论元数量。
[P=(N1/N2)×100%] (5)
[R=(N1/N3)×100%] (6)
[F1=2×P×RP+R×100%] (7)
2.3 基准模型对比
为了验证本文模型的有效性,将其与以下基准模型进行对比实验。
(1)BiLSTM-CRF[14]:用于解决序列标注任务的经典模型,使用BiLSTM提取双向语义特征,使用CRF控制相邻标签的依赖关系,得到输出标签序列。
(2)ERNIE-CRF[15]:使用信息实体增强语言表示(enhanced language representation with informative entities,ERNIE)进行实体级编码并提取语言特征,使用CRF得到输出标签序列。
(3)BERT-CRF:使用BERT进行字符级编码并提取语言特征,使用CRF得到输出标签序列。
从表3对比实验的结果可知:①使用预训练语言模型作为底层的编码器,能够较大幅度提升事件抽取任务的性能,[F1]至少提高了5.7%;②通过比较JMEEM、ERNIE-CRF和BERT-CRF发现在预训练语言模型基础上添加BiLSTM进行深层次特征提取,能够使准确率和召回率提高3.3%和0.7%。该对比实验说明了使用JMEEM模型能够有效提取动向事件。
2.4 动向事件抽取难点讨论
在对大量动向事件的抽取结果进行分析后发现,当句子为例2这类包含地理实体数量少、空间关系简单的句子时,使用JMEEM模型能够准确抽取出各个事件论元。但是,当句子为例3这类包含复杂空间关系(如多个方位词、距离)的句子时,准确抽取各个事件论元的能力开始明显下降,原因主要是模型不能准确地识别出部分地理实体论元之间的空间关系标签,导致事件角色标签分配错误,使得整个事件抽取结果错误。
例2:美国海军派出P-3C反潜机通过巴士海峡进入南海巡航,后返回冲绳嘉手纳基地。
例3:一架RC-135U电子侦察机从冲绳嘉手纳基地前往南海抵近侦察,由南向北飞行,最近距离中国领海基线25.33海里(46 911.16 m)。
3 结论
本文提出一种划分细粒度空间关系标签以识别地点论元空间关系的方法,并构建了一个联合事件抽取模型JMEEM,通过识别输出标签序列中的事件类型标签或事件论元对应的角色标签,完成动向事件抽取,解决了事件抽取中忽略地点论元空间关系信息从而导致无法抽取移动目标运动轨迹的问题。目前本文提出的军事目标动向事件抽取方法适用于单目标的单事件抽取,在更复杂的领域应用场景中,存在着对句子中出现多个军事目标的多事件抽取需求,这是后续工作中探索的方向。