ĪÄÕĀ

�¶Īäŗŗ¹¤³Ģ´óŃ§Ń§±Ø�· 2021Äź05ĘŚ 586-590 ³ö°ęČÕĘŚ£ŗ2021-10-31 ISSN:1674-2869 CN:42-1779/TQ

»łÓŚBERTÄ£ŠĶµÄ°²Č«Éś²śŹĀ¹Ź¶ą±źĒ©ĪÄ±¾·ÖĄą

°²Č«Éś²ś¹ÜĄķŹĒŅ»Ļīø´ŌÓ¶ų¼«ĘäÖŲŅŖµÄ¹¤×÷£¬¶Ō°²Č«Éś²śŹĀ¹ŹČ«ĆęĘŹĪöŗĶŃŠ¾æŹ®·Ö±ŲŅŖ�£°²Č«Éś²śÖŠµÄŹĀ¹ŹÉĖŗ¦æÉ·ÖĪŖŹĀ¹ŹĄą±š�¢ÉĖŗ¦·½Ź½�¢²»°²Č«ŠŠĪŖŗĶ²»°²Č«×´æö£¬ĄūÓĆ×ŌČ»ÓļŃŌ´¦Ąķ£Ønatural language processing£¬NLP£©¼¼Źõ¶Ō°²Č«Éś²śŹĀ¹Ź¼°ŌŅņ·ÖĄą£¬ĪŖ°²Č«Éś²ś¼ą¹Ü�¢ŹĀ¹ŹŅž»¼ÅÅ²éŗĶ·ÖĪöµģ¶Ø»ł´�£¬¶Ō½ųŅ»²½Ēæ»Æ°²Č«Éś²śÖøµ¼¾ßÓŠÖŲŅŖŅāŅå�£ŅŌĶłĪÄ±¾·ÖĄąĶØ¹żĄūÓĆĻ�Źč´Ź»ćµÄĢŲÕ÷Ą´±ķŹ¾ĪÄ±¾£¬ŌŁÓĆĻßŠŌÄ£ŠĶ½ųŠŠ·ÖĄą�£½üÄźĄ´£¬Ö÷ŅŖŹĒ²ÉÓĆÉī¶ČŃ§Ļ°µĆµ½ĪÄ±¾µÄĢŲÕ÷±ķŹ¾£¬ČēĄūÓĆword2vecÄ£ŠĶŃ§Ļ°ĪÄ±¾ÖŠ´ŹĻņĮæµÄ±ķŹ¾£¬µĆµ½ĪÄ±¾µÄÓļŅå±ķŹ¾ŹµĻÖĪÄ±¾·ÖĄą£Ū1£Ż�£ÓÖČēĄūÓĆTextRankĖć·Ø°ŃĪÄ±¾·Öøī³ÉČōøÉ×é³Éµ�ŌŖ£¬¹¹½Ø½ŚµćĮ¬½ÓĶ¼£¬ÓĆ¾ä×ÓÖ®¼äµÄĻąĖĘ¶Č×÷ĪŖ±ßµÄČØÖŲ£¬ĶØ¹żµü´ś¼ĘĖć¾ä×ÓTextRankÖµ£¬³éČ�ÅÅĆūøßµÄ¾ä×Ó×é³ÉĪÄ±¾ÕŖŅŖ£Ū2£Ż�£²ÉÓĆ³¤¶ĢŹ±¼ĒŅäĶųĀē£Ølong short-term memory networks£¬LSTM£©ŹµĻÖ·ÖĄą�£ 2018ÄźgoogleĶĘ³öµÄ»łÓŚ×Ŗ»»Ę÷µÄĖ«Ļņ±ąĀė±ķÕ÷£Øbidirectional encoder representation from trandformers£¬BERT£©Ä£ŠĶŌŚMultiNLI�¢SQuAD�¢SST-2µČ11ĻīNLPČĪĪńÖŠČ�µĆ×æŌ½µÄŠ§¹ū�£BERTÄ£ŠĶŌŚ´ó¹ęÄ£ÓļĮĻæā»ņĢŲ¶ØĮģÓņµÄŹż¾Ż¼ÆÉĻĶØ¹ż×Ō¼ą¶½Ń§Ļ°£¬½ųŠŠŌ¤ŃµĮ·ŅŌ»ńµĆĶØÓĆµÄÓļŃŌ±ķŹ¾£¬ŌŚĻĀÓĪČĪĪńÖŠ½ųŠŠĪ¢µ÷Ķź³ÉĻąÓ¦µÄČĪĪń�£BERTÄ£ŠĶµÄČ±µćÖ®Ņ»ŹĒŹ¹ÓĆ´ŹĻņĮæ±ķŹ¾ĪÄ±¾ÄŚČŻŹ±£¬×ī´óĪ¬¶ČĪŖ512�£µ±ŹäČėĪÄ±¾³¤¶ČŠ�ÓŚ512Ź±£¬Ä£ŠĶŠŌÄÜĮ¼ŗĆ�£BERTŹĒ¾ä×Ó¼¶±šµÄÓļŃŌÄ£ŠĶ£¬øĆÄ£ŠĶÄÜ»ńµĆÕū¾äµÄµ�Ņ»ĻņĮæ±ķŹ¾�£BERTŌ¤ŃµĮ·Ä£ŠĶ¶ŌŹäČėĪÄ±¾½ųŠŠĻņĮæ»Æ£¬ÄÜÓŠŠ§ĢįøßÖŠĪÄĪÄ±¾ÓļŅåµÄ²¶×½Š§¹ū£Ū3-4£Ż�£°²Č«Éś²śŹĀ¹Ź±Øøę»ņ°øĄżĪÄ±¾ĶØ³£¶¼ÓŠŹĀ¹Źµ�Ī»µÄĒéæö�¢ŹĀ¹Ź·¢Éś¾¹ż�¢Ó¦¼±´¦ĄķĒéæö�¢ŹĀ¹ŹŌŅņ·ÖĪö�¢ŹĀ¹ŹŌšČĪČĻ¶Ø�¢ŹĀ¹Ź´¦ĄķŅā¼ūµČÄŚČŻ£¬ĪÄ±¾´Ó¼ø°Ł×Öµ½ŹżĶņ×Ö²»µČ£¬ÄŚČŻ³¤¶Ģ²»Ņ»£¬ÓÉÓŚBERTÄ£ŠĶÖ§³ÖµÄ×ī³¤ŠņĮŠ×ÖŹżĪŖ512£¬ŠčŅŖ¶ŌŌŹ¼ĪÄ±¾½ųŠŠ´¦Ąķ�£±¾ĪÄ½įŗĻ°²Č«Éś²śŹĀ¹ŹµÄĪÄ±¾ĢŲµć£¬ĻČ¶ŌĪÄ±¾½ųŠŠÕŖŅŖ´¦Ąķ£¬ŌŁĄūÓĆBERTÄ£ŠĶ½ųŠŠ¶ąČĪĪń·ÖĄą£¬ŹµĻÖ°²Č«Éś²śŹĀ¹Ź·ÖĄąĖ®Ę½µÄĢįÉż�£1��Ļą¹Ų¹¤×÷1.1��ĪÄ±¾ÕŖŅŖ·½·ØĪÄ±¾ÕŖŅŖ·½·ØÖ÷ŅŖĪŖ³éČ�Ź½ÕŖŅŖŗĶÉś³ÉŹ½ÕŖŅŖ£¬³éČ�Ź½ÕŖŅŖ·½·Øøł¾Żµ�´ŹŗĶ¾ä×ÓµÄĢŲÕ÷´ÓĪÄµµÖŠŃ�ŌńŗĖŠÄÓļŅå¾ä£¬²¢½«ĖüĆĒ×éŗĻŅŌÉś³ÉÕŖŅŖ£¬¾ä×ÓµÄÖŲŅŖŠŌČ�¾öÓŚ¾ä×ÓµÄĢŲÕ÷Ķ³¼Ę�£³éČ�Ź½ÕŖŅŖ×ī´ó»ÆµŲ±£Ö¤ÕŖŅŖÄŚČŻĄ´×ŌÓŚŌĪÄ£¬±ÜĆāÉś³É²»×¼Č·ÉõÖĮŹĒ´ķĪóµÄŠÅĻ¢�£³éČ�Ź½ÕŖŅŖµÄČ±µćŹĒ³éČ�¶ŌĻóŹĒĪÄ±¾ÖŠµÄ¾ä×Ó£¬µ±ŅŖ³éČ�µÄŹżÖµČ·¶ØŹ±£¬»įÓŠÕżČ·µÄÕŖŅŖ¾äĆ»±»³éČ�£¬Ōģ³ÉÕŖŅŖÄŚČŻµÄ¶ŖŹ§£¬¶ų±»³éČ�µÄÕŖŅŖÄŚČŻŅ²»įÓŠŅ»¶ØµÄČßÓą�£Éś³ÉŹ½ÕŖŅŖŌņŹ¹ÓĆĮĖŅ»ĻµĮŠ×ŌČ»ÓļŃŌ´¦Ąķ¼¼Źõ£¬ÓĆÓŚĄķ½āøų¶ØĪÄµµÖŠµÄÖ÷ŅŖÄŚČŻ£¬Éś³Éøü¼Ó¼ņĆ÷¾«Į¶µÄ¾ä×ÓĄ´¹¹³ÉÕŖŅŖ�£Éś³ÉŹ½ÕŖŅŖÓė³éČ�Ź½ÕŖŅŖĻą±Č£¬ÕŖŅŖøü×¼Č·£¬øüĮé»ī£¬øü·ūŗĻ±ąŠ´Ļ°¹ß�£½įŗĻ°²Č«Éś²śŹĀ¹ŹĪÄ±¾½Ļ³¤µÄĢŲµćŅŌ¼°BERTÄ£ŠĶ¶ŌĖćĮ¦½ĻøßµÄŅŖĒó£¬±¾ĪÄ²ÉÓĆ³éČ�Ź½+Éś²śŹ½ÕŖŅŖĻą½įŗĻµÄ·½·ØĶź³ÉĪÄ±¾µÄÕŖŅŖ�£1.2��»łÓŚBERTÄ£ŠĶµÄÖŠĪÄ³¤ĪÄ±¾´¦Ąķ¼°·ÖĄą¶ŌÓŚ³¤ĪÄ±¾µÄ´¦Ąķ£¬Ņ»°ć·ÖĪŖ3ÖÖ·½·Ø£ŗ½Ų¶Ļ·Ø£¬Pooling·Ø£¬Ń¹Ėõ·Ø�£½Ų¶Ļ·Ø´óÖĀ·ÖĪŖĶ·½Ų¶Ļ�¢Ī²½Ų¶Ļ�¢Ķ·+Ī²½Ų¶Ļ3ÖÖ�£½Ų¶ĻµÄ±ČĄż²ĪŹżŹĒŅ»øöæÉŅŌµ÷½ŚµÄ²ĪŹż�£Pooling·Ø½«Õū¶ĪµÄĪÄ±¾²š·ÖĪŖ¶ąøöĘ¬¶Ī£¬½ųŠŠ¶ą´Ī±ąĀė�£Ń¹Ėõ·ØŹĒŌŚ¶Ļ¾äŗó½«ÕūøöĘŖÕĀ·Öøī³ÉĘ¬¶Ī£¬ĶØ¹żŃµĮ·Š�Ä£ŠĶ£¬½«ĪŽŅāŅåµÄĘ¬¶ĪĢŽ³ż£¬Čē¼ōÖ¦·Ø�¢ČØÖŲŅņ×Ó·Ö½ā·Ø�¢ÖŖŹ¶ÕōĮó·ØµČ·½·Ø�£ĪŖĢįøß´¦ĄķŠ§ĀŹ£¬±¾ĪÄ²ÉÓĆ½Ų¶Ļ·Ø£¬¶ŌŌŹ¼ĪÄ±¾Ź×ĻČ°´ÕÕĶ·+Ī²½Ų¶Ļ£¬Č»ŗóČ�Ķ£ÓĆ´Ź£¬½ųŅ»²½¾«¼ņĪÄ±¾£¬×īŗó¹¹½ØŹż¾Ż¼Æ�£Õė¶ŌÖŠĪÄ³¤ĪÄ±¾ÕŖŅŖŗĶ¶ą±źĒ©·ÖĄąµÄÄŃµć£¬Éč¼Ę·Ö3²½ŹµĻÖ¶ą±źĒ©·ÖĄą£ŗµŚŅ»²½Ź¹ÓĆ»łÓŚBERTŌ¤ŃµĮ·Ä£ŠĶŹµĻÖ³éČ�Ź½ĪÄ±¾ÕŖŅŖ£»µŚ¶ž²½Ź¹ÓĆ»łÓŚ»ŖĪŖµÄÖŠĪÄŌ¤ŃµĮ·ÓļŃŌÄ£ŠĶ�Ŗ�ŖÄÄßøŃµĮ·Ä£ŠĶŹµĻÖÉś³ÉŹ½ĪÄ±¾ÕŖŅŖ£»µŚČż²½ĶØ¹ż»łÓŚ¾«¼ņµÄBERT£Øa lite bidirectional encoder representation from transformers£¬AlBERT£©ŃµĮ·Ä£ŠĶ£¬½čÖśĒØŅĘŃ§Ļ°µÄĖ¼Ļė½ųŠŠ¶ą±źĒ©¶ąČĪĪń·ÖĄą£¬×īÖÕŌŚŹż¾Ż¼ÆÉĻČ�µĆĮĖ½ĻŗĆµÄ¶ą±źĒ©·ÖĄąŠ§¹ū£Ū5-6£Ż�£2��ĪÄ±¾ÕŖŅŖÄ£ŠĶ¼°ŹµŃé2.1 ��³éČ�Ź½ĪÄ±¾ÕŖŅŖÄ£ŠĶ³éČ�Ź½ĪÄ±¾ÕŖŅŖ£¬Éś³ÉÕŖŅŖ²»Į¬¹į�¢×ÖŹżÄŃŅŌæŲÖĘ�¢Äæ±ź¾äÖ÷Ö¼²»Ć÷Č·�£¶ųBERTŌ¤ŃµĮ·Ä£ŠĶÄÜŌŚŅ»¶Ø³Ģ¶ČÉĻæĖ·žŅŌÉĻČ±µć�£BERTÄ£ŠĶÓ¦ÓĆÓŚ¾ßĢåĮģÓņµÄČĪĪńŹĒĶØ¹żŹ¹ÓĆŌ¤ŃµĮ·ŗĶĪ¢µ÷ŹµĻÖ£¬Ō¤ŃµĮ·µÄÄæµÄŹĒŌŚŹäČėµÄ´ŹÖŠČŚČėÉĻĻĀĪÄµÄĢŲÕ÷£¬Ī¢µ÷µÄÄæµÄŹĒŹ¹BERTŹŹÓ¦²»Ķ¬µÄČĪĪń�£Ęä´´ŠĀµćŌŚÓŚ½«×¢ŅāĮ¦Ä£ŠĶTransformerµÄĖ«ĻņŃµĮ·Ó¦ÓĆÓŚNLP£¬¾¹żĖ«ĻņŃµĮ·µÄÓļŃŌÄ£ŠĶ±Čµ�Ņ»ĻņÓļŃŌÄ£ŠĶÄÜøüŗĆµŲĄķ½āÓļŃŌ»·¾³ŗĶĮ÷³Ģ�£BERTÖŠĪÄ³¤ĪÄ±¾ÕŖŅŖÄ£ŠĶČēĶ¼1�£Ä£ŠĶÖŠŹż¾Ż¼Æ¾¹ż·Ö´Ź²¢Ģķ¼ÓŅ»Š©±źŹ¶·ū�£ŌŚµŚŅ»øö¾ä×ÓĒ°ĆęĢķ¼Ó£ŪCLS£Ż±źŹ¶·ū£¬½čÖśŹ×¾ä×īĒ°ĆęµÄĢŲŹā·ū £ŪCLS£Ż£¬ÓĆĄ´·ÖĄąŹäČėµÄĮ½øö¾ä×Ó¼äŹĒ·ńÓŠÉĻĻĀĪÄ¹ŲĻµ�£Ćæøö¾ä×ÓµÄ×īŗóĢķ¼Ó£ŪSEP£Ż±źŹ¶·ū£¬Ęšµ½·Öøī¾ä×ÓµÄ×÷ÓĆ�£ÕūøöÄ£ŠĶ½į¹¹ĶØ¹żBERT½ÓŅ»øöĘ½¾ł³Ų»Æ²ćµĆµ½¾ä×ÓĻņĮæ£Ū7£Ż£¬¼´ĶØ¹żŌ¤ŃµĮ·»ńČ�Ņ»øö¾ä×ÓµÄ¶Ø³¤ĻņĮæ±ķŹ¾£¬½«±ä³¤µÄ¾ä×Ó±ąĀė³É¶Ø³¤ĻņĮæ�£Average poolingÖ÷ŅŖ¶ŌÕūĢåĢŲÕ÷ŠÅĻ¢½ųŠŠ³éČ�£¬localÖ÷ŅŖŹĒ¶ŌĢŲÕ÷Ó³ÉäµÄ×ÓĒųÓņĒóĘ½¾łÖµ£¬Č»ŗó»¬¶ÆÕāøö×ÓĒųÓņ�£Ä£æé¼ä²ÉÓĆaverage pooling¼ČÄÜŌŚŅ»¶Ø³Ģ¶ČÉĻ¼õÉŁĪ¬¶Č£¬øüÓŠĄūÓŚĻĀŅ»¼¶Ä£æé½ųŠŠĢŲÕ÷ĢįČ��£ĄūÓĆÅņÕĶĆÅ¾ķ»żÉń¾ĶųĀē£Ødilate gated convolutional neural network£¬DGCNN£©£¬ĖüŹĒ»łÓŚ CNN+ Attention µÄøßŠ§Ä£ŠĶ�£AttentionÓĆÓŚČ�´ś³Ų»Æ²Ł×÷Ą´Ķź³É¶ŌŠņĮŠŠÅĻ¢µÄÕūŗĻ�£Dense²ć½«Ē°ĆęĢįČ�µÄĢŲÕ÷£¬¾dense²ć×÷·ĒĻßŠŌ±ä»Æ£¬ŌŁÓ³Éäµ½Źä³öæÕ¼ä�£¶ŌÓŚĶ¼1ÖŠµÄ¾ä×Ó¶Ō£¬¾ä×ÓµÄĢŲÕ÷ÖµŹĒ1£¬Ōņ±£ĮōµÄÕŖŅŖ£¬¾ä×ÓµÄĢŲÕ÷ÖµŹĒ0£¬ŌņøĆ¾äÉįĘś£¬´Ó¶ų´ļµ½ĪÄ±¾³éČ�Ź½ÕŖŅŖµÄÄæµÄ�£[1 0 1 �][¾äĻņĮæ1][¾äĻņĮæ2][¾äĻņĮæ3][¾äĻņĮæ1][¾äĻņĮæ2][�][DGCNN+Dense][Bert+Averagepooling][Źż¾Ż¼Æ][[CLS]][[CLS]][[SEP]][[SEP]][¾ä1][¾ä2][¾ä3]Ķ¼1��³éČ�Ź½ĪÄ±¾ÕŖŅŖÄ£ŠĶ Fig. 1�� Extractive summarization model2.2��Éś³ÉŹ½ĪÄ±¾ÕŖŅŖÄ£ŠĶĪŖĮĖ½ųŅ»²½¼õŠ�ĪÄ±¾µÄ³¤¶Č£¬ĶØ¹ż³éČ�Ź½Ä£ŠĶŹä³öµÄÕŖŅŖ£¬ŌŁ×÷ĪŖÉś³ÉŹ½ÕŖŅŖÄ£ŠĶµÄŹäČė£¬×īÖÕÉś³ÉŹä³öµĆÕŖŅŖ�£Éś³ÉŹ½ÕŖŅŖĶØ¹żøÄ½ųŠĶBERTĄ´ŹµĻÖ£¬Ä£ŠĶČēĶ¼2ĖłŹ¾�£BERTŹ¹ÓĆµÄŹĒŃµĮ·³öĄ´µÄ¾ų¶ŌĪ»ÖĆ±ąĀė£¬ÓŠ³¤¶ČĻŽÖĘ£¬ĪŖ±ćÓŚ´¦Ąķ³¤ĪÄ±¾£¬²ÉÓĆ»łÓŚ»ŖĪŖµÄNEZHAŌ¤ŃµĮ·ÓļŃŌÄ£ŠĶ£¬ĄūÓĆøÄÄ£ŠĶĻą¶ŌĪ»ÖĆ±ąĀė£¬ĶØ¹ż¶ŌĪ»ÖĆ²ī×ö½Ų¶Ļ£¬Ź¹µĆ´ż´¦Ąķ´Ź�¢¾äĻą¶ŌĪ»ÖĆŌŚÓŠĻŽ·¶Ī§ÄŚ£¬ÕāŃł£¬ŹäČėŠņĮŠµÄ³¤¶Č²»ŌŁŹÜĻŽ£¬´¦ĄķŗóµÄÓļ¾äŌŁĶØ¹żÉś²śŹ½ÖøÕėĶųĀē£Øpointer generator networks£¬PGN£©Ä£ŠĶÉś²śÕŖŅŖ�£PGNÄ£ŠĶ£Ū8£ŻæÉŹÓĪŖ»łÓŚattention»śÖĘµÄseq2seqÄ£ŠĶŗĶpointer networkµÄ½įŗĻĢå£¬øĆÄ£ŠĶ¼ČÄÜ´Óøų¶Ø´Ź»ć±ķÖŠÉś³ÉŠĀtoken£¬ÓÖÄÜ´ÓŌŹäČėŠņĮŠÖŠæ½±´¾Étoken£¬Ęäæņ¼ÜČēĶ¼2ĖłŹ¾�£Ķ¼2ÖŠŌĪÄ±¾ÖŠø÷token µÄWi¾¹żµ�²ćĖ«ĻņLSTM½«ŅĄ´ĪµĆµ½±ąĀėĘ÷Ņž²Ų×´Ģ¬ŠņĮŠ£¬ø÷Ņž²Ų²ć×´Ģ¬±ķŹ¾ĪŖHt�£¶ŌÓŚĆæŅ»øöŹ±¼ä²½³¤t£¬½āĀėĘ÷øł¾ŻÉĻŅ»øöŌ¤²āµĆµ½µ�´ŹµÄembeding£¬¾LSTMµĆµ½½āĀėĘ÷Ņž²Ų²ć×´Ģ¬St£¬ĪŖĮĖŌŚŹä³öÖŠæÉŅŌø´ÖĘŠņĮŠÖŠµÄtoken£¬½«øł¾ŻHt£¬StŗĶ½āĀėĘ÷ŹäČėXt¼ĘĖćÉś³ÉøÅĀŹ£ŗ[Pgen=K(WThHt+WTsSt+WTxXt+Bptr)] £Ø1£©Ź½£Ø1£©ÖŠ£¬[WTh]�¢[WTs]�¢[WTx]�¢[Bptr]¾łĪŖÄ£ŠĶŅŖŃ§Ļ°µÄ²ĪŹż�£PgenµÄ×÷ÓĆŹĒÅŠ¶ĻÉś³ÉµÄµ�´ŹŹĒĄ´×ŌÓŚøł¾ŻPvocabŌŚŹä³öŠņĮŠµÄ´ŹµäÖŠ²ÉŃł£¬»¹ŹĒĄ´×Ōøł¾Ż×¢ŅāĮ¦ČØÖŲa[i,t]ŌŚŹäČėŠņĮŠµÄtokenÖŠµÄ²ÉŃł£¬×īÖÕtoken·Ö²¼±ķŹ¾ČēŹ½£Ø2£©£ŗ[P(W)=PgenPvocad(W)+(1-Pgen)i:Wi=Wai,t] £Ø2£©ĘäÖŠi£ŗWi=W±ķŹ¾ŹäČėŠņĮŠÖŠµÄtokenµÄW£¬Ä£ŠĶ»į½«ŌŚŹäČėŠņĮŠÖŠ¶ą´Ī³öĻÖµÄWµÄ×¢ŅāĮ¦·Ö²¼Ļą¼Ó�£µ±WĪ´ŌŚŹä³öŠņĮŠ´ŹµäÖŠ³öĻÖŹ±£¬Pvocab£ØW£©=0£»¶ųµ±WĪ´³öĻÖŌŚŹäČėŠņĮŠÖŠŹ±£¬ [i:Wi=Wai,t=0] £Ø3£©ĻŌČ»£¬øĆÄ£ŠĶ»łÓŚÉĻĻĀĪÄĻņĮæ£¬½āĀėĘ÷ŹäČė¼°½āĀėĘ÷Ņž²Ų²ć×´Ģ¬Ą´¼ĘĖćÉś³É´ŹµÄøÅĀŹp£¬¶ŌÓ¦Copy´ŹµÄøÅĀŹĪŖ1-p£¬øł¾ŻøÅĀŹ×ŪŗĻ±ąĀėĘ÷×¢ŅāĮ¦ŗĶ½āĀėĘ÷Źä³ö·Ö²¼µĆµ½Ņ»øö×ŪŗĻµÄ»łÓŚinputŗĶoutputµÄtoken·Ö²¼£¬´Ó¶ųČ·¶ØÉś³ÉµÄÓļ¾ä�£2.3��ĪÄ±¾ÕŖŅŖŹµŃé¼°ĢÖĀŪŹµŃé¶Ō2 000øö20ÖÖŹĀ¹ŹĄą±šµÄ°øĄż¼Æ½ųŠŠ´¦Ąķ£¬²ÉÓĆ»łÓŚÕŁ»ŲĀŹµÄÕŖŅŖĘĄ¼Ū£Ørecalloriented understudy for gisting evaluation£¬ROUGE£©×÷ĪŖĘĄ¼ŪÖø±ź£¬ŅŌŗāĮæÉś³ÉµÄÕŖŅŖÓė²Īæ¼ÕŖŅŖÖ®¼äµÄ�°ĻąĖĘ¶Č�±£¬²ÉÓĆ ROUGE-1�¢ROUGE-2ŗĶROUGE-L×÷ĪŖ±ź×¼£¬¼´¼ĘĖćŅ»ŌŖ´Ź�¢Į½ŌŖ´Ź¼°×ī³¤¹«¹²×ÓŠņĮŠµÄÖŲµž³Ģ¶Č�£±¾ĪÄĢį³öµÄÄ£ŠĶŌŚŃµĮ·¼ÆÉĻµĆµ½ROUGEĘĄ¼Ū½į¹ūČē±ķ1ĖłŹ¾£¬Ķ¬Ź±»¹øų³öĮĖĘäĖūÄ£ŠĶµÄROUGE½į¹ū£Ū9-11£Ż�£µŚŅ»øö³éČ�Ź½Ä£ŠĶBERT+BiLISTŹĒ½«BERTŌ¤´¦ĄķŗóµÄĪÄ±¾ĻņĮæ¾¹żŅ»øö»łÓŚ¹ęŌņµÄ»ł±¾ĘŖÕĀµ�ŌŖŹ¶±šÄ£ŠĶ£¬ŌŁ¾¹ż»łÓŚTransformerµÄÉń¾ĶųĀē³éČ�Ä£ŠĶ£¬Éś³É×īÖÕµÄÕŖŅŖ�£µŚ¶žøö³éČ�Ź½Ä£ŠĶBERTSUMExt£¬½«¶ą²ćTransformerÓ¦ÓĆÓŚ¾ä×Ó±ķŹ¾£¬´ÓŹä³öÖŠ³éČ�ĪÄµµĢŲÕ÷£¬ŌŁ¾LSTM²ćŃ§Ļ°ĢŲ¶ØÕŖŅŖĢŲÕ÷�£±¾ĪÄ³éČ�Ź½ÖŠĪÄÕŖŅŖ²ÉÓĆµÄNERÄ£ŠĶŹ½chinese_L-12- H-768_A-12Ō¤ŃµĮ·Ä£ŠĶ£¬ĶØ¹żBERT + Average pooling¼ĘĖćĪÄ±¾ĻņĮæ±ķŹ¾£¬×īŗóĶØ¹żCNN+ Attention µÄÄ£ŠĶ³éČ�ÕŖŅŖ�£µŚŅ»øöÉś²śŹ½ÕŖŅŖÄ£ŠĶCopyNetĶØ¹żÉī¶ČµŻ¹éÉś³É½āĀėĘ÷µÄSeq2seqÄ£ŠĶ£¬ĄūÓĆµŻ¹éŃ§Ļ°Äæ±źÕŖŅŖÖŠŅžŗ¬ŠÅĻ¢Ą´ĢįøßÕŖŅŖÖŹĮæ�£µŚ¶žøöÉś²śŹ½ÕŖŅŖÄ£ŠĶSeq2seq +transformer+PGN²ÉÓĆ»łÓŚ×Ō×¢ŅāĮ¦µÄtransformer»śÖĘ£¬×éŗĻÖøÕėÉś³ÉĶųĀēinput-feeding·½·Ø�£±¾ĪÄÉś³ÉŹ½ÖŠĪÄÕŖŅŖ²ÉÓĆ»ŖĪŖµÄNEZHAŌ¤ŃµĮ·ÓļŃŌÄ£ŠĶ£¬¾¹ż»łÓŚattention»śÖĘµÄSeq2seqÄ£ŠĶÉś²śÕŖŅŖ�£ŹµŃéŹż¾ŻČē±ķ1ĖłŹ¾£¬±¾ĪÄĢį³öµÄÄ£ŠĶ½ĻĘäĖūÄ£ŠĶĻą±Č£¬×īÖÕ½į¹ūĻą²ī²»´ó£¬Ņ»·½Ćę£¬ĘäĖūÄ£ŠĶµÄĘĄ¼Ū½į¹ūµ±Ē°ŅŃ´ļµ½ŗÜøßĖ®Ę½£Ū12£Ż£¬ĮķŅ»·½Ćę£¬²ÉÓĆµÄŹż¾Ż¼Æ´ęŌŚµÄ²īŅģ£¬°üĄØÖŠĪÄŗĶÓ¢ĪÄ²īŅģ£¬Ņ²´ęŌŚ²»Ķ¬ĮģÓņÖ®¼äµÄ²īŅģ�£Ķ¬Ź±£¬æ¼ĀĒµ½ĖćĮ¦µČŅņĖŲ£¬±¾ŹµŃé²ÉÓĆµÄĮ½øöÄ£ŠĶÄÜ¹»ĢįČ�ĪÄ±¾µÄ¹Ų¼üŠÅĻ¢£¬ĪŖ³¤ĪÄ±¾½ųŠŠ¶ą±źĒ©·ÖĄąĢį¹©æÉÄÜ�£3��ĪÄ±¾¶ą±źĒ©·ÖĄą¼°ŹµŃé¶ą±źĒ©·ÖĄą¾ĶŹĒŅŖ½«°²Č«Éś²śµÄŹĀ¹Ź°øĄż±ź¼ĒĪŖĪļĢå´ņ»÷�¢³µĮ¾ÉĖŗ¦µČ20ĄąŹĀ¹ŹĄą±šÖ®Ņ»£»Åö×²�¢±¬ÕØµČ15ÖÖÉĖŗ¦·½Ź½Ö®Ņ»£»·Ą»¤�¢±£ĻÕµČ×°ÖĆČ±·¦»ņČ±ĻŻµČ4´óĄą²»°²Č«×´Ģ¬Ö®Ņ»£»²Ł×÷Ź§ĪóµČ13´óĄą²»°²Č«ŠŠĪŖÖ®Ņ»£¬¹²ÓŠ52øö±źĒ©�£3.1��·ÖĄąÄ£ŠĶ¶ą±źĒ©ĪÄ±¾·ÖĄąALBERTŌ¤ŃµĮ·Ä£ŠĶ£¬øĆÄ£ŠĶ×īŠ�µÄ²ĪŹżÖ»ÓŠŹ®¼øÕ××Ö½Ś£¬ÄÜ½ĻŗĆ½ā¾öÄ£ŠĶ²ĪŹżĮæ´ó�¢ŃµĮ·Ź±¼ä¹ż³¤µÄĪŹĢā£¬Š§¹ū±ČBERTµĶ1%~2%�£Ķ¬Ź±£¬ŌŚĆ»ÓŠ×ć¹»µÄ°²Č«Éś²śĄą±ź×¢Źż¾ŻµÄĒéæöĻĀ£¬²ÉÓĆĒØŅĘŃ§Ļ°Ą´ĢįøßŌ¤ŃµĮ·µÄŠ§¹ū�£±¾ĪÄ²ÉÓĆ»łÓŚŃł±¾µÄĒØŅĘŃ§Ļ°·½·Ø£¬Ä£ŠĶČēĶ¼3ĖłŹ¾�£Ä£ŠĶÖ÷ŅŖĶØ¹ż×ŌÖĘµÄ°²Č«Éś²śŹĀ¹ŹŹż¾Ż¼Æ¶ŌÄ£ŠĶ½ųŠŠŌ¤ŃµĮ·£¬½ØĮ¢·ÖĄą¾«¶Č½Ļøß�¢ĢŲÕ÷ĢįČ�ÄÜĮ¦ĒæµÄŃ§Ļ°Ä£ŠĶ�£TextCNNÄ£ŠĶÄÜÓŠŠ§×�Č�ĪÄ±¾µÄ¾Ö²æĢŲÕ÷£¬¾¹ż²»Ķ¬µÄ¾ķ»żŗĖĢįČ�ĪÄ±¾ŠÅĻ¢£¬ŌŁĶØ¹ż×ī´ó³Ų»ÆĄ´Ķ»³öø÷øö¾ķ»ż²Ł×÷£¬´Ó¶ųĢįČ�ĢŲÕ÷ŠÅĻ¢£¬Ę´½ÓŗóĄūÓĆČ«Į¬½Ó²ć¶ŌĢŲÕ÷ŠÅĻ¢½ųŠŠ×éŗĻ£¬×īŗóĶØ¹żbinary crossentropyĖšŹ§ŗÆŹżĄ´ŃµĮ·Ä£ŠĶ£¬½«±źĮæŹż×Ö×Ŗ»»µ½£Ū0£¬1£ŻÖ®¼ä£¬ŌŁ¶Ō52øö±źĮæ·Ö×é·ÖĄą�£[Ńł±¾][Źż¾Ż¼Æ][AKBERTÄ£ŠĶ][±źĒ©·ÖĄąĖć·Ø][SigmoidŗÆŹż][TextCNNÄ£ŠĶ]Ķ¼3��¶ą±źĒ©ĪÄ±¾·ÖĄąÄ£ŠĶFig. 3��Multi-label text classification model3.2��·Ö×é·ÖĄąĖć·Ø¼°ŹµŃéµ±Ē°¶ą±źĒ©µÄŃ§Ļ°Ėć·Ø£Ū13-15£Ż£¬°´½ā¾öĪŹĢāµÄ·½Ź½æÉŅŌ·ÖĪŖ»łÓŚĪŹĢā×Ŗ»Æ·ØŗĶ»łÓŚĖć·ØŹŹÓĆ·ØĮ½Ąą�£ĪŹĢā×Ŗ»Æ·ØĶØ³£Ö»æ¼ĀĒ±źĒ©µÄ¹ŲĮŖŠŌ�£¶ųæ¼ĀĒ¶ą±źĒ©µÄĻą¹ŲŠŌŹ±æÉ½«ÉĻŅ»øöŹä³öµÄ±źĒ©µ±³ÉĻĀŅ»øö±źĒ©·ÖĄąĘ÷µÄŹäČė�£¶ŌÓŚŹĀ¹ŹĄą±š�¢ÉĖŗ¦·½Ź½µČ52øö±źĒ©£¬Čō²ÉÓĆĄąĖĘÓŚ¶ž·ÖĄą·½·Ø£¬ĖłÓŠ±źĒ©½«·Ö²¼ŌŚ£Ū0£¬252-1£ŻæÕ¼äÄŚ£¬Źż¾Ż»įŗÜĻ�Źč£¬ŗÄ·Ń´óĮæ×ŹŌ´�£Ņņ´Ė£¬²ÉÓĆ»łÓŚĖć·ØŹŹÓĆ·ØĄ´ŹµĻÖ¶ą±źĒ©·ÖĄąĖć·Ø�£ÉčÖĆTextCNN²ĪŹż×Ö³¤ĪŖ300£¬¾ķ»żŗĖŹżÄæĪŖ256£¬¾ķ»żŗĖ³ß´ēĪŖ5£¬±źĒ©ĪŖ52�£ŌŁĄūÓĆtf.argmax£Ø£©¶ŌÄ£ŠĶŃµĮ·»ńµĆµÄ52øö±źĮæ£¬ĒóµĆ4×éĮŠ±ķ£Ū0£¬19£ŗ1£Ż�¢£Ū20£¬34£ŗ1£Ż�¢£Ū35£¬38£ŗ1£Ż�¢£Ū39£¬51£ŗ1£ŻÖŠ×ī´óŹżµÄĖ÷Ņż£¬×īŗóÓ³Éäµ½ĻąÓ¦±źĒ©¼´æÉ£¬·ÖĄą½į¹ūČē±ķ2ĖłŹ¾�£æÉŅŌæ´³ö£¬Ķ¬Ņ»ŹĀ¹ŹĄą±šµÄ±źĒ©ŹżŌ½¶ą£¬·ÖĄąµÄ×¼Č·ĀŹŌ½µĶ�£ĮķĶā£¬æ¼ĀĒĖćĮ¦µÄŅņĖŲ£¬±¾ĪÄ°²Č«Éś²śŹĀ¹ŹĪÄ±¾Źż¾Ż¼ÆŹżĮæÉĻĻą¶ŌĘ«ÉŁ£¬Ņ²µ¼ÖĀ·ÖĄą×¼Č·ĀŹ²»¹»øß�£4��½į��ĀŪÄæĒ°£¬ĖäČ»ŌŚŅ»¶Ø³Ģ¶ČÉĻŹµĻÖĮĖ°²Č«ĄąÖŠĪÄ³¤ĪÄ±¾µÄ¶ą±źĒ©·ÖĄą£¬µ«Źż¾Ż¼ÆµÄ¹¹½ØŠčŅŖ×ö´óĮæµÄ¹¤×÷£¬ŹĀ¹ŹÉĖŗ¦Ąą±š¶ą£¬³ÉŅņø´ŌÓ£¬ŅŖ×öŗĆ°²Č«Éś²śÉĖŗ¦ŹĀ¹Ź¼°ŌŅņµÄĪÄ±¾·ÖĄą£¬»¹ĆęĮŁ²»ÉŁĢōÕ½�£Źż¾ŻŹĒŃŠ¾æµÄ»łŹÆ£¬Ö»ŅŖ½ųŅ»²½ĶźÉĘ´ó¹ęÄ£�¢øßÖŹĮæµÄŹż¾Ż¼Æ£¬ÓÅ»Æø÷ÖÖÄ£ŠĶ¼°²ĪŹż£¬¾ĶÄÜ½ųŅ»²½ĢįÉżĪÄ±¾·ÖĄą×¼Č·ŠŌ�£