ĪÄÕĀ

�¶Īäŗŗ¹¤³Ģ´óŃ§Ń§±Ø�· 2020Äź06ĘŚ 688-692 ³ö°ęČÕĘŚ£ŗ2021-01-30 ISSN:1674-2869 CN:42-1779/TQ

»łÓŚBERTµÄø´ŗĻĶųĀēÄ£ŠĶµÄÖŠĪÄĪÄ±¾·ÖĄą

ĪÄ±¾·ÖĄą£Ū1£ŻŹĒ×ŌČ»ÓļŃŌ´¦Ąķ£Ønatural language process£¬NLP£©ČĪĪńµÄ»ł´�¹¤×÷Ņ²ŹĒĘäŃŠ¾æĮģÓņµÄČČµćÖ®Ņ»£¬Ö÷ŅŖÄæµÄŹĒÕė¶ŌĪÄ±¾½ųŠŠ¹éĄą£¬±ćÓŚ¶ŌĪÄ±¾½ųŠŠøßŠ§¹ÜĄķÅäÖĆÓė¼ģĖ÷²¢½ā¾öŠÅĻ¢¹żŌŲµÄĪŹĢā�£ÓÉÓŚĶųĀēÉĻ²śÉśµÄĆ½ĢåŠĀĪÅ�¢æĘ¼¼�¢±Øøę�¢µē×ÓÓŹ¼ž�¢ĶųŅ³�¢Źé¼®�¢Ī¢²©µČĪÄ±¾ÄŚČŻ³ŹĻÖÖøŹżŌö³¤£¬ŠčŅŖ¶ŌÕāŠ©ĪÄ±¾½ųŠŠ¹éĄą¼ÓŅŌ×éÖÆ¹ÜĄķ£¬Ņ²æÉøł¾ŻÓĆ»§µÄĘ«ŗĆ£¬½ųŠŠŠÅĻ¢¹żĀĖ»ņ¾«Č·ÓÅĻČĶĘ¼ö£¬ŌöĒæÓĆ»§š¤ŠŌ£¬Ņņ´Ė¾ßÓŠŅ»¶ØµÄÓ¦ÓĆŃŠ¾æ¼ŪÖµ�£transformers µÄ Ė« Ļņ ±ą Āė Ę÷£Øbidirectional encoder representations from transformer£¬BERT£©ŌŚĪÄ±¾·ÖĄąÉĻµÄ³É¹¦Ó¦ÓĆ£¬ÓŠŠ§µŲ´Ł½ųĮĖĪÄ±¾·ÖĄąµÄŃŠ¾æÓė·¢Õ¹£Ū2£Ż�£µ«»łÓŚBERTµÄĪÄ±¾Ö÷Ģā·ÖĄą´ó¶ąŹż¶¼ŹĒŅŌÓ¢ĪÄŹż¾Ż¼ÆĪŖ¶ŌĻó£¬Õė¶ŌÖŠĪÄĶųĀēŠĀĪÅĪÄ±¾µÄŃŠ¾æ¶ąŹż¶¼ŹĒŌŚ´ŹÓļ¼¶´ŹĻņĮæµÄ»ł´�ÉĻĢį³öĶųĀēÄ£ŠĶ½į¹¹�£±¾ĪÄĶØ¹żŃ§Ļ°BERTÄ£ŠĶ�¢Ė«ĻņĆÅæŲŃ»·Éń¾ĶųĀē£Øbi-directional gated recurrent unit£¬BiGRU£©Ä£ŠĶ£¬ĪŖĢįøßĪÄ±¾Ö÷Ģā·ÖĄąµÄ×¼Č·ĀŹ£¬Ģį³ö»łÓŚBERTµÄø´ŗĻĶųĀēÄ£ŠĶ£ØBiGRU+BERT»ģŗĻÄ£ŠĶ£¬bG-BERT£©µÄĪÄ±¾Ö÷Ģā·ÖĄą·½·Ø£¬ŌŚŹµŃéĖłÓĆÖŠĪÄŠĀĪÅŹż¾Ż¼ÆÉĻŹ¹ÓĆNLPµÄ×ŪŗĻĘĄ¼ŪÖø±źAccuracyÖµ�¢F1Öµ£¬Ö¤Ć÷ĮĖbG-BERTÄ£ŠĶŌŚĪÄ±¾·ÖĄą·½ĆęµÄÓŠŠ§ŠŌ�£1��Ļą¹ŲŃŠ¾æĪÄ±¾Ö÷Ģā·ÖĄą·½·ØÖ÷ŅŖÓŠ´ŹĘ�Åä·Ø�¢Ķ³¼ĘŃ§Ļ°·½·ØŗĶ»łÓŚÉī¶ČŃ§Ļ°µÄ·½·Ø£Ū3£Ż�£´ŹĘ�Åä·ØŹĒøł¾Ż²éŃÆĪÄµµÖŠµÄ´ŹÓļŹĒ·ń³öĻÖŌŚŠčŅŖ·ÖĄąµÄĪÄµµÄŚČŻÖŠ£¬ÕāÖÖ·½·ØĆ»ÓŠæ¼ĀĒÉĻĻĀĪÄĮŖĻµ£¬·½·Ø¹żÓŚ¼ņµ�»śŠµ�£Ķ³¼ĘŗĶ»śĘ÷Ń§Ļ°µÄ·½·Ø£Ū4-5£Ż£¬ŹĒĶØ¹żĢŲÕ÷¹¤³ĢČ»ŗóŌŁ½įŗĻ»śĘ÷Ń§Ļ°µÄ·½·Ø£¬Ź×ĻČ½«±ź×¢µÄŃµĮ·¼ÆµÄÄŚČŻ²æ·Ö×Ŗ»»ĪŖĢŲÕ÷£¬ŌŁŹ¹ÓĆĢŲÕ÷ĢįČ�·ÖĄąĢŲÕ÷£¬×īŗóŹ¹ÓĆĘÓĖŲ±´Ņ¶Ė¹�¢»Ų¹éÄ£ŠĶ�¢Ö§³ÖĻņĮæ»śµČĪÄ±¾·ÖĄąĘ÷½ųŠŠ·ÖĄą�£ÓÉÓŚ·ÖĄąĘ÷ŠŌÄÜµÄŗĆ»µÖ÷ŅŖŅĄĄµ²éŃÆ´ŹµäÉč¼ĘÓŠŠ§µÄĢŲÕ÷£¬ŠčŅŖ×ØŅµÖŖŹ¶·įø»µÄµÄ×Ø¼ŅĄ´Éč¼Ę·ÖĄąĢŲÕ÷£¬ČĖĪŖÓ°ĻģŅņĖŲ´ó�£Ņņ´ĖŌēĘŚµÄĪÄ±¾·ÖĄą·½·ØÄŃŅŌŹ¤ČĪø´ŌÓµÄĘŖÕĀ¼¶±šŠĀĪÅĪÄ±¾Ö÷Ģā·ÖĄąČĪĪń�£ŗóĘŚ³öĻÖµÄ»łÓŚÉī¶ČŃ§Ļ°µÄ·½·ØŹĒ´«Ķ³»śĘ÷Ń§Ļ°µÄÖŲŅŖ·ÖÖ§�£ĪÄ±¾±ķŹ¾·½Ćę£¬ZhangµČ£Ū6£ŻÓ¦ÓĆµÄword2vecÄ£ŠĶ£¬ĘäŗĖŠÄĖ¼ĻėŹĒĶØ¹żÉĻĻĀĪÄµĆµ½×Ö´ŹµÄĻņĮæ»Æ±ķŹ¾£¬Ņ»ÖÖøł¾ŻĒ°ŗóµÄ×Ö´ŹŌ¤²āÖŠ¼ä×Ö´ŹµÄCBOWÄ£ŠĶŗĶĮķŅ»ÖÖĄūÓĆÖŠ¼ä×Ö´ŹČ�Ō¤²āĒ°ŗóµÄ×Ö´ŹµÄSkip-gramÄ£ŠĶ£¬½ā¾öĮĖøßŠ§±ķ´ļŅ»ĘŖĪÄµµµÄÄŃµć�£Ö£ŃĒÄĻµČ£Ū7£ŻŹ¹ÓĆgloveÄ£ŠĶ½ųŠŠĢŲÕ÷ĢįČ�£¬ŌŁŹ¹ÓĆSVM½ųŠŠ·ÖĄą�£ÕŌŃĒÅ·µČ£Ū8£ŻŹ¹ÓĆELMoÄ£ŠĶ£¬¶ÆĢ¬µ÷Õūword emdedding£¬½ā¾öĮĖ´ŹÓļÓĆ·ØµÄø´ŌÓŠŌŅŌ¼°ÕāŠ©ø´ŌÓÓĆ·ØŌŚ²»Ķ¬ÉĻĻĀĪÄÖŠµÄ±ä»Æ�£ŗś´ŗĢĪµČ£Ū9£ŻŹ¹ÓĆBERTÄ£ŠĶ£¬²ÉÓĆĖ«ĻņTransformer½ųŠŠ¾ä×ÓĘŖÕĀ¼¶±šµÄĢįČ�ĢŲÕ÷£¬ĆÖ²¹ĮĖword2vecĪŽ·ØĄķ½ā²»Ķ¬×Ö´ŹŌŚ²»Ķ¬Ī»ÖĆÓļŅå²»Ķ¬µÄ²»×ć£¬Ļą¶ŌELMoµÄµ�ĻņTransformer£¬BERT×ŪŗĻæ¼ĀĒĒ°ŗóĮ½øö·½ĻņµÄŠÅĻ¢£¬¾ßÓŠøüÓÅµÄ²¢ŠŠŠŌ�£¹¹½ØÓļŃŌÄ£ŠĶ·½Ćę£¬³ĀĒÉŗģµČ£Ū10£Ż½«¾ķ»żÉń¾ĶųĀē£Øconvolutional neural networks£¬CNN£©Ó¦ÓĆÓŚĪÄ±¾·ÖĄą£¬½«¾¹żĻņĮæ»ÆµÄĪÄ±¾×÷ĪŖŹäČė£¬×ī´ó³Ģ¶ČĢįČ�Éī²ć¾Ö²æĢŲÕ÷£¬µ«Č±ÉŁŃ§Ļ°ŠņĮŠĻą¹ŲŠŌµÄÄÜĮ¦�£ĖļĆōµČ£Ū11£Ż°Ń³¤¶ĢŹ±¼ĒŅäĶųĀē£Ølong short-term memory£¬LSTM£©Ó¦ÓĆÓŚĒéøŠ·ÖĪö£¬ÓÉČōøÉŅÅĶü¼ĒŅäÄ£æé×é³Éø´ŌÓĶųĀē½į¹¹£¬ÄÜøüŗĆ»ńČ�ÉĻĻĀĪÄĢŲÕ÷£¬ÓŠŠ§½ā¾öĢŻ¶ČĻūŹ§ĪŹĢā�£Ā¬½�µČ£Ū12£ŻĢįµ½ĆÅæŲŃ»·Éń¾ĶųĀē£Øgated recurrent unit£¬GRU£©£¬ŹĒÓÉLSTM¶ųĄ´£¬Ęä½į¹¹øü¼ņµ�£¬ŹÕĮ²ĖŁĀŹøüæģ�£ĪāŠ�»ŖµČ£Ū13£Ż½«Ė«Ļņ³¤¶ĢŹ±¼ĒŅäĶųĀē£Øbi-directional long short-term memory£¬BiLSTM£©ÓĆÓŚĒéøŠ·ÖĪö£¬BiLSTMÓÉĖ«ĻņµÄLSTMĶųĀē×é³É£¬æÉøüŗĆ»ńČ�ĪÄ±¾¾ä·ØŠÅĻ¢�£ĶõĄöŃĒµČ£Ū14£ŻµČ½«Ė«ĻņĆÅæŲŃ»·Éń¾ĶųĀēµÄĖ«ĶØµĄÄ£ŠĶÓĆÓŚĪÄ±¾·ÖĄą£¬BiGRUŹĒÓÉÕżĻņµÄ�¢·½ĻņĻą·´µÄ£¬ĒŅŹä³öÓÉÕāĮ½øö GRU µÄ×´Ģ¬¹²Ķ¬¾ö¶ØµÄ GRU ×é³ÉµÄÉń¾ĶųĀēÄ£ŠĶ£¬²¢ĒŅÄÜÓŠŠ§ĆÖ²¹LSTMŃµĮ·Ź±¼ä³¤£¬GRU²»ÄÜĶ¬Ź±²¶»ńĒ°ŗó´ŹµÄĢŲÕ÷µÄ²»×ć�£±¾ĪÄÕė¶ŌÖŠĪÄŠĀĪÅĪÄ±¾£¬×ŪŗĻæ¼ĀĒBERTÄ£ŠĶŌŚĪÄ±¾±ķŹ¾·½Ćę£¬BiGRUŌŚÓļŃŌÄ£ŠĶ¹¹½ØµÄĢŲÕ÷ÓÅ»Æ·½ĆęµÄÓÅµć£¬Ģį³öĮĖ»łÓŚBERTµÄø´ŗĻĶųĀēÄ£ŠĶ£ØbG-BERT£©�£³ä·ÖĄūÓĆBERTÄ£ŠĶĒæ´óµÄÓļŅåŠÅĻ¢»ńČ�ÄÜĮ¦£¬ĢįČ�Óļ¾äĢŲÕ÷£¬Č»ŗóŹ¹ÓĆBiGRUĶųĀēĒæ»ÆŌŚ²»Ķ¬Ź±¼ä¶ĪøüŠĀŗóµÄÉĻĻĀĪÄĢŲÕ÷£¬¼õÉŁĢŲÕ÷ŌŚ´«µŻ¹ż³ĢÖŠµÄŠÅĻ¢ĖšŹ§£¬ÉøŃ�³ö·įø»°üŗ¬Č«¾ÖĢŲÕ÷£¬Éī»ÆÄ£ŠĶµÄĢŲÕ÷Ń§Ļ°ÄÜĮ¦£¬´Ó¶ųĢįøßŠĀĪÅĪÄ±¾·ÖĄąµÄ×¼Č·ĀŹŗĶøßŠ§ŠŌ£¬¼õÉŁŃµĮ·Ź±³¤£¬ŹµŃé×īŗóŃéÖ¤ĮĖÄ£ŠĶµÄŹµ¼ŹÓ¦ÓĆÄÜĮ¦�£2��»łÓŚBERTµÄø´ŗĻĶųĀēÄ£ŠĶ»łÓŚBERTµÄø´ŗĻĶųĀēÄ£ŠĶ£ØbG-BERT£©£¬Ö÷ŅŖĪ§ČĘŅŌĻĀČż²æ·ÖÕ¹æŖ£ŗµŚŅ»²æ·ÖĪŖBERTÄ£ŠĶŹäČėŗĶŌ¤ŃµĮ·£¬µŚ¶ž²æ·ÖĪŖbG-BERTÄ£ŠĶĶųĀē½į¹¹µÄ½ØĮ¢£¬µŚČż²æ·ÖĪŖbG-BERTÄ£ŠĶŃµĮ·�£2.1��BERTÄ£ŠĶŹäČė±ķÕ÷¼°Ō¤ŃµĮ·Óė´«Ķ³µÄword2vecŗĶgloveÄ£ŠĶĻą±Č½Ļ£¬´«Ķ³Ä£ŠĶµÄĒ¶ČėĪŖĪÄ±¾ÄŚµÄĆæøö×Ö´ŹĢį¹©Ņ»øöÖ»ŗ¬ÓŠ¾Ö²æŠÅĻ¢±ķŹ¾µÄ±ķŹ¾�£BERTÄ£ŠĶ£¬ÄæµÄŹĒĄūÓĆĪŽ±ź×¢Ō¤ĮĻ½ųŠŠŃµĮ·£¬»ńµĆ°üŗ¬·įø»ÓļŅåŠÅĻ¢µÄ±ķŹ¾�£BERTÄ£ŠĶµÄŹäČėæÉŅŌŹĒŅ»øö¾ä×Ó»ņ¾ä×Ó¶Ōc=£Ū[w1]£¬[w2]£¬[�]£¬[wn]£Ż£¬£Ū[s1]£Ż£¬£Ū[s2]£Ż£¬�£¬£Ū[sn]£Ż£Ż£Ø[wn]ĪŖµŚŅ»¾ä»°ĄļĆęµÄµŚnøöµ�´Ź£¬[sn]±ķŹ¾Ņ»¶Ī»°ĄļµÄµŚnøö¾ä×Ó£©£¬Źµ¼ŹµÄŹäČėÖµŹĒ¾¹żWord PiecetokenµÄÖŠĪÄ×ÖĻņĮæ£ØToken Embedding£©£¬[Etoken=][{ECLS£¬EW1£¬�£¬EWn}]£¬ÅŠ¶ĻĒ°ŗó¾äµÄSegment Embedding£¬[Esegment={EA1, EA2, � EAn, EB1, EB2�£¬][EBn}]£Ø[An]±ķŹ¾¾ä×Ó¶ŌÖŠµÄĒ°Ņ»¾ä»°µÄµŚnøöµ�´Ź£¬[Bn]±ķŹ¾¶Ō×Ó¶ŌŗóĆęŅ»¾ä»°µÄµŚnøöµ�´Ź£©ŗĶĒų·Ö²»Ķ¬Ī»ÖĆ×Ö´ŹĖłŠÆ´ųŠÅĻ¢´ęŌŚ²īŅģµÄPosition Embedding£¬[Eposition={E0£¬E1£¬�£¬En}]£¬ČżÕßµÄŠÅĻ¢µÄ×ÜŗĶ�£BERTÄ£ŠĶŌ¤ŃµĮ··Ö³ÉĮ½øö½×¶Ī£¬µŚŅ»øö½×¶ĪŹĒMasked LM£¬ĪŖŃµĮ·Ė«Ļņtransformer£Ū15£Ż±ķŹ¾£¬²ÉÓĆĖę»śŃŚøĒĆæøöŠņĮŠÖŠµÄ15%µÄŹäČė´Ź£¬Č»ŗó»łÓŚÉĻĻĀĪÄĄ´Ō¤²ā±»ŃŚøĒµÄ´ŹÓļ�£µŚ¶žøö½×¶ĪŹĒNext Sentence Prediction£¬ÕāŅ»ČĪĪńÖŠÖ÷ŅŖŃ§Ļ°ÅŠ¶ĻĮ½øö¾ä×ÓÖ®¼äµÄ¹ŲĮŖŠŌ£¬Ź¹Ä£ŠĶ¾ß±øĄķ½ā³¤ŠņĮŠÉĻĻĀĪÄµÄĮŖĻµÄÜĮ¦�£2.2��bG-BERTÄ£ŠĶ½į¹¹ĢŲÕ÷øĆ»ģŗĻÄ£ŠĶÓÉ3²æ·Ö×é³É£ŗŹ×ĻČBERTĢįČ�ĪÄ±¾µÄÓļŅå±ķŹ¾ĢŲÕ÷£¬Ö÷ŅŖŹ¹ÓĆBERTµÄŗĖŠÄÄ£æéTransformer»ńČ�Č«¾ÖµÄÓļŅåŠÅĻ¢£»Ęä´ĪŹ¹Ė«ĻņGRU¼ÓĒæÉī²ćĢŲÕ÷±ķŹ¾£¬×īŗóŅżČė·ÖĄąĘ÷£¬Ö÷ŅŖÓÉdropout·ĄÖ¹»ģŗĻĶųĀē¹żÄāŗĻ£¬Ź¹ÓĆsoftmaxŗÆŹżŌ¤²āŠĀĪÅĪÄ±¾ĖłŹōĄą±š�£Ä£ŠĶČēĶ¼1ĖłŹ¾�£Ķ¼1��bG-BERTÄ£ŠĶFig. 1��bG-BERT model1£©»ńČ�ŹäČė±ķÕ÷ŗó£¬Ź×ĻČŹ¹ÓĆ¾ßÓŠ12øöTransformerĢŲÕ÷³éČ�Ę÷£¬Öš²ć´«µŻ²¢Ļø»ÆĢŲÕ÷±ķŹ¾£¬¼ĘĖćČē¹«Ź½1ĖłŹ¾£ŗ[Rl=Transformerl(Rl-1)] £Ø1£©Ź½ÖŠ£¬l±ķŹ¾¶ŌÓ¦µÄ²ćŹż£¬[Rl]ĪŖ¾¹ż¶ŌÓ¦²ćµÄĢŲÕ÷µÄÉĻĻĀĪÄ±ķŹ¾�£Self-Attention»śÖĘŹĒTransformerÖŠµÄ¹Ų¼ü²æ·Ö£¬ Self-Attention»śÖĘÖ÷ŅŖ·ÖĪŖ4øö²½Öč£ŗŹ×ĻČŹäČėĪŖÄæ±ź×Ö´Ź�¢ÉĻĻĀĪÄø÷øö×Ö´ŹµÄÓļŅåĻņĮæ±ķŹ¾£¬ĶØ¹żĻßŠŌ±ä»»»ńČ�Äæ±ź×Ö´ŹµÄQueryĻņĮæ±ķŹ¾�¢ÉĻĻĀĪÄø÷øö×Ö´ŹµÄKeyĻņĮæ±ķŹ¾ŗĶÄæ±ź×Ö´ŹÓėÉĻĻĀĪÄø÷øö×Ö´ŹµÄŌŹ¼ValueĻņĮæ±ķŹ¾£»Ęä´Ī¼ĘĖćQueryĻņĮæŗĶø÷øöKeyĻņĮæµÄĻąĖĘ¶ČµĆµ½ČØÖŲ£¬³£ÓĆµÄĻąĖĘ¶ČŗÆŹżÓŠµć»ż�¢Ę´½Ó�¢øŠÖŖ»śµČ£»Č»ŗóŹ¹ÓĆsoftmaxŗÆŹż¶ŌÕāŠ©ČØÖŲ½ųŠŠ¹éŅ»»Æ´¦Ąķ£»×īŗó½«ČØÖŲŗĶÄæ±ź´ŹµÄŌŹ¼ValueŗĶø÷ÉĻĻĀĪÄ×ÖµÄValueĻņĮæ½ųŠŠĒóŗĶ£¬µĆµ½×īŗóµÄŌöĒæÓļŅåĻņĮæ±ķŹ¾£»×÷ĪŖAttentionµÄŹä³ö£¬¼ĘĖć¹ż³ĢČēĻĀ£ŗ[Q,K,V=linerQ,K,V] £Ø2£©[fQ,Ki=QTKi dotQTW¦ĮKi generalW¦Į[Q;Ki] concat] £Ø3£©[Wi=softmaxfQ,Ki=exp[f(Q,Ki)]j=1Jexp[f(Q,Ki)]] £Ø4£©Self-Attention£ØQ£¬K£¬V£©=[j=1JWiVi] £Ø5£©Ź½ÖŠ£¬QĪŖĪÄ±¾ÖŠµÄ×Ö´Ź£¬KĪŖÉĻĻĀĪÄµÄø÷øö×Ö£¬VĪŖÄæ±ź×Ö¼°ĘäÉĻĻĀĪÄµÄ×Ö¶¼ÓŠø÷×ŌµÄŌŹ¼Value£¬[Ki]ĪŖµŚiøö×ÖµÄKeyÖµ£¬[Wi]ĪŖµŚiøö×ÖŹ±µÄČØÖµĻņĮæ£¬[fQ,Ki]ĪŖĻąĖĘ¶Č£¬Self-AttentionĪŖ×¢ŅāĮ¦øÅĀŹ·Ö²¼£¬j±ķŹ¾Ī¬Źż£¬J±ķŹ¾Ī¬ŹżÉĻ½ē�£ĶØ¹żEmbeddingµÄĻņĮæŹäČėµ½BERTÄ£ŠĶµÄTransformer µÄ±ąĀėĘ÷ŗĶ½āĀėĘ÷Ö®ŗó£¬¶ŌÓŚµ�ĪÄ±¾·ÖĄąĄ´Ėµ£¬BERTÄ£ŠĶŌŚĪÄ±¾Ē°²åČėŅ»øö£ŪCLS£Ż·ūŗÅ£¬ÓėĘäĖūĪÄ±¾ÖŠŅŃÓŠµÄ×Ö´ŹĻą±Č£¬øĆ·ūŗÅĪŽĆ÷ĻŌÓļŅåŠÅĻ¢»įøü¹«Ę½µŲČŚŗĻĪÄ±¾ÖŠø÷øö×Ö´ŹµÄĻą¹ŲŠÅĻ¢£¬øĆ·ūŗÅ¶ŌÓ¦µÄŹä³öĻņĮæ×÷ĪŖÕūĘŖĪÄµµµÄÓļŅå±ķŹ¾£¬æÉ×÷ĪŖŹäČėµ½ŗóŠųÄ£ŠĶ½ųŠŠĢŲÕ÷¼ÓĒæ»ņ·ÖĄą�£2£©½«BERTÄ£ŠĶŹä³öµÄČŚČėÓļŅåĘŖÕĀŠÅĻ¢µÄĢŲÕ÷ĻņĮæ£¬ŹäČėµ½BiGRUÄ£ŠĶ�£ĘäÖŠøüŠĀĆÅŗĶÖŲÖĆĆÅŹĒĘäŗĖŠÄ×é¼ž�£øüŠĀĆÅ[Ut]ÓĆÓŚæŲÖĘĒ°Ņ»Ź±æĢµÄ×´Ģ¬ŠÅĻ¢´«Čėµ½µ±Ē°×´Ģ¬µÄ³Ģ¶Č£¬ÖŲÖĆĆÅ[Ft]ÓĆÓŚŅÅĶüĒ°Ņ»Ź±æĢ×´Ģ¬ŠÅĻ¢µÄ³Ģ¶Č�£½«ÖŲŅŖĢŲÕ÷±£Įō£¬±£Ö¤ĘäŌŚlong-term ´«²�µÄŹ±ŗņŅ²²»»į±»¶ŖŹ§�£Ęä¼ĘĖć¹ż³ĢČē¹«Ź½6~9ĖłŹ¾�£[Ut=¦Ņ[Wu?(ht-1,xt)]] £Ø6£©[Ft=¦Ņ[Wf?(ht-1,xt)]] £Ø7£©[ht=tanh[W?(Ft�Įht-1,xt)]] £Ø8£©[ht=1-Ut�Įht-1+Ut�Įht] £Ø9£©Ź½ÖŠ£¬Ut±ķŹ¾tŹ±æĢµÄøüŠĀĆÅ£¬Ft±ķŹ¾tŹ±æĢµÄÖŲÖĆĆÅ£¬[ht]±ķŹ¾tŹ±æĢµÄŗņŃ�¼¤»ī×´Ģ¬£¬[ht]±ķŹ¾tŹ±æĢµÄ¼¤»ī×´Ģ¬£¬[Wt]ĪŖČØÖµ¾ŲÕó£¬[xt]ĪŖtŹ±æĢGRUµÄŹäČė�£3£©»ńČ�ÓļŅåĘŖÕĀŠÅĻ¢£¬¼ÓĒæĢŲÕ÷µÄ±ķŹ¾ĻņĮæ£¬´«øųsoftmaxŗÆŹż½ųŠŠŌ¤²ā·ÖĄą½į¹ūb=£ū[y1]£¬[y2]£¬�£¬[yn]£ż£¬¶ŌÓ¦ĻąÓ¦µÄŠĀĪÅÖ÷Ģā�£2.3��bG-BERTÄ£ŠĶŃµĮ·ŃµĮ·Ä£ŠĶŹĒĪŖĮĖ×īŠ�»ÆĖšŹ§ŗÆŹż�£±¾ĪÄŃ�Č�µÄĖšŹ§ŗÆŹżĪŖ½»²ęģŲĖšŹ§ŗÆŹż£¬ÓÅ»ÆĘ÷Ń�Č�Adam�£Ėć·Ø£ŗbG-BERTÄ£ŠĶµÄŠĀĪÅĪÄ±¾·ÖĄąĖć·ØŹäČė£ŗŃµĮ·Źż¾Ż¼Æx =£Ū[x1]£¬[x2]£¬�£¬[xn]£Ż£¬¶ŌÓ¦±źĒ©y =£Ū[y1]£¬[y2]£¬�£¬[yn]£ŻŹä³ö£ŗŹäČėŃł±¾ŹōÓŚĆæøöĄą±šµÄøÅĀŹ[pi=(0,0,0,1,0,0,0,0,0,0)]³õŹ¼»ÆÄ£ŠĶÖŠµÄ²ĪŹż�£Źż¾ŻŌ¤´¦Ąķ£ŗ½«·ÖĄąµÄĪÄ±¾×Ŗ»ÆĪŖ×ÖĻņĮæ�¢¾ä×ÓĻņĮæŗĶĪ»ÖĆĻņĮæČżÕßµÄ×ŪŗĻe= £Ū[e1]£¬[e2]£¬�£¬[en]£Ż�£Č»ŗó×÷ĪŖbG-BERTÄ£ŠĶµÄŹäČė�£For each text£ŗ[¦Įi]=M£Ø[ei]£©ÓĆsoftmax½ųŠŠ·ÖĄą£ŗ[y(¦Įi)]=[ezjk=1Kezk]ĘäÖŠkĪŖĪ¬Źż£¬zĪŖŹµĻņĮæ�£yŹĒ10Ī¬ĻņĮæ±ķŹ¾Ō¤²āŹōÓŚøĆĄąµÄøÅĀŹ�£3��½į¹ūÓėĢÖĀŪ3.1��ŹµŃéŹż¾Ż�¢»·¾³Óė²ĪŹżŹµŃé²ÉÓĆµÄŹż¾Ż¼ÆŹĒTHUCNews£¬Źż¾ŻĄ´×ŌŠĀĄĖŠĀĪÅRSS¶©ŌÄĘµµĄ2005-2011ÄźµÄĄśŹ·Źż¾ŻÉøŃ�¹żĀĖÉś³É£¬°üŗ¬74ĶņĘŖŠĀĪÅĪÄµµ�£´ÓŌŹ¼Źż¾Ż¼ÆÉĻŃ�Č�10øö·ÖĄą±źĒ©£ØĢåÓż�¢ÓéĄÖ�¢¼Ņ¾Ó�¢·æ²ś�¢½ĢÓż�¢Ź±ÉŠ�¢Ź±Õž�¢ÓĪĻ·�¢æĘ¼¼�¢²Ę¾£©�£ŃµĮ·¼Æ�¢ŃéÖ¤¼ÆŗĶ²āŹŌ¼Æ·Ö±šĪŖ5 000�Į10£¬500�Į10£¬1 000�Į10£¬×Ü¹²6.5ĶņĢõ�£¶Ō±¾ĪÄĢį³öµÄbG-BERTÄ£ŠĶŠĀĪÅĪÄ±¾·ÖĄą·½·Ø½ųŠŠŃéÖ¤ŗĶ·ÖĪö�£ŹµŃé»·¾³ÅäÖĆČēĻĀ£¬ÓļŃŌ£ŗPython3.7£¬¹¤¾ß£ŗGoogle Colaboratory£¬æņ¼Ü£ŗKeras2.2.5£¬´¦ĄķĘ÷£ŗTesla K80 GPU�£±¾ĪÄÄ£ŠĶ²ĪŹż¾ßĢåÉčÖĆČēĻĀ£ŗĒ¶ČėĻņĮæĪ¬¶ČVECµÄĪ¬¶ČĪŖ128£¬BERTµÄĪ¬¶ČĪŖ768£¬BiGRUµÄĪ¬¶ČĪŖ10£¬BERTµÄŃ§Ļ°ĀŹĪŖ0.000 01£¬VECµÄŃ§Ļ°ĀŹĪŖ0.001�£3.2��¶Ō±ČŹµŃéÉčÖĆĪŖ²āŹŌÄ£ŠĶµÄÓŠŠ§ŠŌ£¬Ń�ŌńĮĖ¶ąøö¶Ō±ČÄ£ŠĶ½ųŠŠ±Č½Ļ£¬Ö÷ŅŖ°üĄØŅŌĻĀ5øö£ŗ1£©Word2Vec-BiGRU£ØW2V-bG£©£ŗµ�Ņ»µÄBiGRUĶųĀē£¬ĄūÓĆword2vecŃµĮ·µĆµ½µÄ´ŹĻņĮæ×÷ĪŖŹäČė�£2£©CNN-BiLSTM-Attention£ØCNN-bL-Att£©£ŗCNN-bL- Att×éŗĻµÄø´ŗĻĶųĀēÄ£ŠĶ�£3£©BERT£ŗµ�Ņ»µÄbertÄ£ŠĶ�£4£©BERT-BiLSTM£ØbL-BERT£©£ŗµ�Ņ»µÄBiLSTMĶųĀē£¬ĄūÓĆBERTŃµĮ·µĆµ½µÄ´ŹĻņĮæ×÷ĪŖŹäČė�£5£©bG-BERT£ŗµ�Ņ»µÄBiGRUĶųĀē£¬ĄūÓĆBERTŃµĮ·µĆµ½µÄ´ŹĻņĮæ×÷ĪŖŹäČė�£1�¢5¶ŌÕÕĪŖÖ¤Ć÷BERTĢŲÕ÷³éČ�ÄÜĮ¦øßÓŚword2vecÄ£ŠĶ�£3�¢4�¢5¶ŌÕÕĪŖÖ¤Ć÷BiGRUÄ£ŠĶµÄÄÜŹ¹ĢŲÕ÷øü¼ÓÓÅ»Æ�£2�¢5±Č½ĻÖ¤Ć÷±ČĻÖŅŃĢį³öµÄ¹ś¼Ź×īŠĀµÄŠĀĪÅĪÄ±¾·ÖĄąµÄŠ§¹ūøü¼ÓÓÅ»Æ�£3.3��ŹµŃé½į¹ū·ÖĪöÓÉÓŚÓĆ²āŹŌ¼ÆĖłµĆµÄĘĄ²āÖø±ź·ÖŹż±ČÓĆŃµĮ·¼ÆĖłµĆµÄ·ÖŹżøüÄÜ·´Ó³Ņ»øöÄ£ŠĶµÄÓÅĮÓ�£ŹµŃéŃ�ŌńŌŚ²āŹŌ¼ÆÉĻµÄ¾ßĢåŃéÖ¤¶Ō±Č½į¹ūČē±ķ1ĖłŹ¾�£±ķ1��Ä£ŠĶ¶Ō±Č½į¹ū Tab. 1��Results of model comparison %[Ä£ŠĶ\&×¼Č·ĀŹ\&¾«Č·ĀŹ\&ÕŁ»ŲĀŹ\&F1\&W2V-bG\&92.38\&92.56\&92.38\&92.34\&CNN-bL-Att\&95.43\&95.43\&95.43\&95.43\&BERT\&96.31\&96.39\&96.31\&96.29\&bL-BERT\&96.58\&96.61\&96.58\&96.57\&bG-BERT\&97.22\&97.24\&97.22\&97.21\&]´Ó±ķ1æÉŅŌæ´³ö£¬bG-BERTÄ£ŠĶµÄ×¼Č·ĀŹŗĶF1Öµ¾łøßÓŚµŚ3×éŗĶµŚ4×é£¬æÉŅŌÖ¤Ć÷BiGRU¶ŌÓŚŠņĮŠ»ÆµÄÓļŅåĢŲÕ÷¾ßÓŠøüŗĆµÄøüŠĀĒæ»Æ×÷ÓĆ�£ŌŚÓėµŚ1�¢2×éŹµŃé¶Ō±Č½į¹ūæÉŅŌæ´³ö£¬BERTÄÜÓŠŠ§ĢįÉż×¼Č·ĀŹŗĶF1Öµ£¬Ö¤Ć÷BERT¶ŌÓŚŌ¤ŃµĮ·Ź±ÄÜ×¼Č·øßŠ§µŲĢįČ�ĪÄ±¾ÖŠµÄĢŲÕ÷£¬ÓŠĄūÓŚĻĀÓĪČĪĪń½ųŠŠ·ÖĄą�£ÕūĢåĄ´æ´£¬±¾ĪÄĢį³öµÄbG-BERTÄ£ŠĶµÄ·ÖĄąŠ§¹ūøüŗĆ£¬³ä·Ö·¢»ÓĮĖBERT¶ŌÓŚÓļŅå±ķŹ¾ĢŲÕ÷µÄÄÜĮ¦£¬²¢ĒØŅĘµ½ĻĀÓĪ·ÖĄąČĪĪńĢįÉżÄ£ŠĶÕūĢåµÄŠŌÄÜ£¬BiGRU¶ŌÓŚŌ¤´¦ĄķµÄĢŲÕ÷±ķŹ¾µÄĢŲÕ÷³éČ�ŅŌ¼°Éī²ć´ĪĢŲÕ÷Ń§Ļ°µÄÄÜĮ¦�£²¢ĒŅÓėĻÖŅŃĢį³öµÄ¹ś¼Ź×īŠĀµÄCNN-BiLSTM-Attention ø´ŗĻĶųĀēÄ£ŠĶŠĀĪÅĪÄ±¾·ÖĄąµÄµÄF1Öµøß³ö1.78øö°Ł·Öµć�£ĘäÖŠbG-BERTŌŚAccuracy�¢F1ÉĻČ�µĆ×īøßÖµĪŖ97.22%�¢97.21%�£ĪŖĒåĪśµŲ·´Ó³5×éÄ£ŠĶµÄÓÅĮÓ£¬·Ö±š»ęÖĘĮĖø÷Ä£ŠĶµÄ×¼Č·ĀŹaŗĶĖšŹ§ĀŹlŌŚŃéÖ¤¼ÆÉĻµÄ±ä»ÆĒśĻß£¬ČēĶ¼2ĖłŹ¾�£×¢£ŗĶ¼2��ŃéÖ¤¼ÆĘĄ²āĶ¼£ŗ£Øa£©×¼Č·ĀŹ±ä»Æ£¬£Øb£©ĖšŹ§ĀŹ±ä»ÆFig. 2��Validation set evaluation diagrams£ŗ £Øa£© accuracy rate variation£¬£Øb£© loss rate variation±¾´ĪŹµŃéŃµĮ·µü´ś´ĪŹżĪŖ5´Ī£ØW2V-bG£¬CNN-bL-AttµÄEpochĪŖ10£¬Ķ¼2ÖŠµÄW2V-bG£¬CNN-bL-AttµÄČ�ÖµĪŖŃµĮ·10´ĪÖŠµÄŗóĆę5´ĪµÄŹż¾Ż£©£¬´ÓĶ¼2µÄ×¼Č·ĀŹŗĶĖšŹ§ĀŹ±ä»ÆæÉŅŌæ´³ö£¬Ź¹ÓĆBERT½ųŠŠĢŲÕ÷³éČ�£¬Ć÷ĻŌŅŖÓÅÓŚ´«Ķ³µÄWord2VecÄ£ŠĶ�£¶ųŹ¹ÓĆBERTµÄ3×éÄ£ŠĶĖäČ»ŗÜ½Ó½ü£¬µ«ŹĒ½į¹ūĻą±ČBERTÄ£ŠĶ�¢bL-BERTÄ£ŠĶČŌČ»ÓŠĪ¢Š�µÄĢįÉż�£×¼Č·ĀŹµÄ×īøßÖµ97.52%£¬ĖšŹ§ĀŹµÄ×īµĶÖµ9.51%¾łĪŖbG-BERTÄ£ŠĶÉĻ¼ĘĖćµĆ³ö£ØEpochĪŖ1Ź±£©£¬´ĖĶābG-BERTÄ£ŠĶÕūĢåŅ²½ĻĪŖĪČ¶Ø£¬ŌŚŠĀĪÅĪÄ±¾·ÖĄąÉĻøü¾ßÓŠÓÅŹĘ�£×ŪÉĻĖłŹö£¬ŌŚĻąĶ¬Źż¾Ż¼ÆÖŠ£¬bG-BERT±ķĻÖŠŌÄÜÓÅÓŚĘäĖūÄ£ŠĶ£¬ÄÜ¹»ĢįøßĪÄ±¾·ÖĄąµÄ×¼Č·ĀŹ£¬ĒŅ¾ßÓŠŗÜŗĆµÄÓ¦ÓĆÄÜĮ¦�£4��½į��ĀŪ±¾ĪÄ²ÉÓĆø´ŗĻĶųĀēµÄbG-BERTÄ£ŠĶ£¬Ó¦ÓĆŌŚÖŠĪÄŠĀĪÅĪÄ±¾·ÖĄąČĪĪńÖŠ£¬ŌŚÖŠĪÄŠĀĪÅĪÄ±¾ÉĻ½ųŠŠŃµĮ·ŗĶ²āŹŌČ�µĆ½ĻŗĆµÄ·ÖĄąŠ§¹ū�£²¢ĒŅÓėµ�¶ĄµÄBERTÄ£ŠĶ£¬BiGRUŅŌ¼°×īŠĀČŚČė×¢ŅāĮ¦µÄbL-BERTÄ£ŠĶ½ųŠŠ±Č½Ļ£¬Č�µĆµÄ×¼Č·ĀŹŗĶF1ÖµøüÓÅ£¬½į¹ū±ķĆ÷»łÓŚbG-BERTÄ£ŠĶÄÜÓŠŠ§Ń§Ļ°µ½³¤ĪÄ±¾ÖŠµÄÉī²ć´ĪÖŲŅŖĢŲÕ÷£¬ŅŌ¼°ÉĻĻĀĪÄµÄŠÅĻ¢�£µ«ÓÉÓŚ»ģŗĻŗóµÄÄ£ŠĶŠčŅŖµÄĶųĀē²ĪŹżøü¶ą£¬½į¹¹øü¼Óø´ŌÓ£¬ŠčŅŖøü¶ąµÄĖćĮ¦ŗĶŹ±¼ä´ś¼Ū�£ĻĀŅ»²½µÄŃŠ¾æÄæ±ź½«Ģ½¾æČēŗĪÓÅ»Æøß·ÖĄą×¼Č·ĀŹĻĀĒŅ¼ĘĖćÓėŹ±¼ä´ś¼ŪŗĶĖšŹ§øüŠ�µÄ²ĪŹżøüÉŁµÄĒįĮæŠĶø´ŗĻĶųĀēÄ£ŠĶ�£