ĪÄÕĀ

�¶Īäŗŗ¹¤³Ģ´óŃ§Ń§±Ø�· 2022Äź05ĘŚ 572-577 ³ö°ęČÕĘŚ£ŗ2022-10-31 ISSN:1674-2869 CN:42-1779/TQ

ŗ£¹ŲŹż¾ŻŗžµÄ¹¹½ØÓėÓ¦ÓĆ

ÖŠ¹śŗ£¹ŲŹĒĪŅ¹ś½ų³ö¹Ų¾³µÄ¼ą¶½¹ÜĄķ»ś¹Ų£¬¾ßÓŠ¹ś¼ŹĆ³Ņ×Ķ³¼ĘÖ°ÄÜ£¬ŌŚĀÄŠŠ¼ą¹ÜÖ°ŌšµÄ¹ż³ĢÖŠ£¬»żĄŪ´óĮæµÄĶāĆ³Źż¾ŻŗĶŠŠÕžÖ´·ØŹż¾Ż£¬ŠÅĻ¢»ÆŹż¾ŻĮæŅ²ĖęÖ®ČÕŅęŌö¼Ó£¬´óŹż¾Ż¹ÜĄķĆęĮŁ×Å¾Ž´óµÄĢōÕ½Óė»śÓö�£½ü30Äźŗ£¹ŲŠÅĻ¢»Æ½ØÉč¾ĄśĮĖH883¹¤³Ģ�¢H2000¹¤³Ģ�¢½š¹Ų1ĘŚ¹¤³Ģ�¢H2010¹¤³ĢŗĶ½š¹Ų¶žĘŚ¹¤³Ģ�¢H2018¹¤³Ģ£¬´Ó½š¹Ų¶žĘŚ¹¤³ĢæŖŹ¼ŅżČėĮĖŌĘ¼ĘĖć�¢´óŹż¾ŻŅŌ¼°ĪļĮŖĶų�¢»�ĮŖĶųµČ¼¼Źõ£¬ŗ£¹ŲŹż¾Ż³ŹĻÖ³ö¾®ÅēŹ½Įæ¼¶Ōö³¤£¬Ļą¹ŲŹż¾Ż±»·ÖøōŌŚŹ®¶ž´óÓ¦ÓĆĻµĶ³�¢ĮłĄą¼¼Źõ»ł´�ĻµĶ³£¬ÕāŠ©ŗ£ĮæŹż¾ŻŌĢ²Ų×Å·įø»µÄĄūÓĆ¼ŪÖµ£¬µ«ŹĒ´óŹż¾ŻÓ¦ÓĆ²ćĆęČŌĆęĮŁ×ÅĶā²ææŚ°¶ĮŖ¼ģµ�Ī»Źż¾ŻæŖ·¢¹²ĻķŅŌ¼°²æĆÅÄŚ²æŠÅĻ¢±ŚĄŻµÄ²ć²ćÄŃĢā£¬ČēŗĪĮé»īŌĖÓĆČ«ŠĀĮæ¼¶µÄŹż¾ŻŗĶÓ¦¶Ō´óŹż¾Ż·žĪń£¬½«ŗ£¹Ųø÷²æĆÅµÄŗ£ĮæŹż¾Ż³ä·Ö¼Æ³É£¬´ņĘĘ²æĆÅŠÅĻ¢±ŚĄŻ£¬Ź¹Źż¾ŻÕęÕżŌŚŗ£¹Ų²æĆÅÄŚ²æĮ÷¶ÆŗĶĮ÷×Ŗ£¬´Ó¶ųøüŗĆµŲ·žĪńÉĻ²ćŅµĪńĻµĶ³ŹĒŗ£¹ŲÄæĒ°ÖŲµć¹Ų×¢ŗĶŲ½Šč½ā¾öµÄÖŲµćĪŹĢā�£

½üÄźĄ´Źż¾Ż´¦Ąķ¼¼ŹõµĆŅŌ¹ć·ŗ·¢Õ¹ŗĶÓ¦ÓĆ£¬×ī»ł´�µÄŹż¾ŻæāŹĒ�°°´ÕÕŹż¾Ż½į¹¹Ą´×éÖÆ�¢´ę´¢ŗĶ¹ÜĄķŹż¾ŻµÄ²Öæā�±£¬ŹĒ³¤ĘŚ´ę´¢ŌŚ¼ĘĖć»śÖŠµÄÓŠ×éÖÆ�¢¹²ĻķŗĶĶ³Ņ»¹ÜĄķµÄŹż¾Ż¼ÆŗĻ�£Źż¾Ż¼ÆŹŠŹĒĘóŅµ¼¶Źż¾Ż²ÖæāµÄŅ»øö×Ó¼Æ£¬Ö÷ŅŖĀś×ćĢŲ¶ØµÄ²æĆÅ»ņÕßÓĆ»§µÄŠčĒó£¬½öĆęĻņÄ³øöĢŲ¶ØµÄÖ÷Ģā£¬ŅŌ¶ąĪ¬·½Ź½½ųŠŠ´ę´¢�£¶ųŹż¾Ż²ÖæāŹĒŅ»øöĆęĻņÖ÷ĢāµÄ�¢¼Æ³ÉµÄ�¢Ļą¶ŌĪČ¶ØµÄŹż¾Ż¼Æ£¬æÉŅŌ·´Ó³ĄśŹ·±ä»Æ£¬ÓĆÓŚÖ§³Ö¹ÜĄķ¾ö²ß£Ū1£Ż�£Źż¾Ż²ÖæāŹĒÓĆÓŚ´¦Ąķ½»Ņ×ŗĶŅµĪńŠĶÓ¦ÓĆĻµĶ³¹ŲĻµŹż¾ŻµÄÓÅ»ÆŹż¾Żæā�£Źż¾ŻŗžµÄŗĖŠÄĖ¼ĻėŹĒŅ»ÖÖĻµĶ³µÄ¼Ü¹¹·½°ø£¬ĖüŹ¹ÓĆµĶ³É±¾¼¼ŹõŹµĻÖŌŹ¼Źż¾Ż²É¼Æ�¢·ÖĪöŗĶĢ½Ė÷´ó¹ęÄ£�¢³¤ĘŚµÄ´ę´¢·½·ØŗĶ¼¼Źõ£¬ŹĒŅ»ÖÖ½ā¾ö´óŹż¾ŻĪŹĢāµÄĖ¼Ā·�¢Ņ»ÖÖŹż¾ŻÖĪĄķµÄ·½°ø�¢Ņ»ÖÖ´ó¹ęÄ£Źż¾Ż¼ÆÖŠ´ę´¢²¢ĄūÓĆµÄ¼Ü¹¹Ė¼Ļė�£

ČēŗĪŅŌøüÉŁµÄĶ¶Čė·¢»Óøü´óµÄ×÷ÓĆ£¬ŹĒŗ£¹ŲŌŚŹż¾Ż¹ÜĄķ·½ĆęĆęĮŁµÄÖŲ´óĢōÕ½�£ŌŚŗ£¹ŲH883¹¤³Ģ�¢H2000¹¤³Ģ�¢½š¹Ų1ĘŚ¹¤³Ģ½×¶Ī£¬ŗ£¹ŲŹż¾ŻÖ÷ŅŖĄ´×ŌŅµĪńĻµĶ³ŗĶŹż¾ŻæāµÄ´«Ķ³¹ŲĻµŠĶŹż¾Ż£¬Ņņ´ĖŹż¾Ż²ÖæāæÉŅŌĀś×ćŗ£¹ŲŹż¾Ż¹ÜĄķŗĶ´ę´¢µÄŅŖĒó�£Č»¶ų´ÓH2010¹¤³Ģ½×¶Ī£¬ÓČĘäŹĒ½ųČė½š¹Ų¶žĘŚ¹¤³Ģ�¢H2018¹¤³Ģ½×¶Ī£¬ŗ£¹ŲµÄŠÅĻ¢»ÆøßĖŁ·¢Õ¹£¬Ą´×ŌÓŚĪļĮŖĶų�¢»�ĮŖĶųµČĮģÓņµÄ·Ē¹ŲĻµŠĶŹż¾Ż·Ö²¼ŌŚČ«¹ś¼øŹ®øöŹš¼¶ĻµĶ³ŅŌ¼°Źż°Łøö¹Ų¼¶ĻµĶ³ŅŌ¼°øüøßŹżĮæ¼¶µÄÄ£æéÓ¦ÓĆ£¬´«Ķ³Źż¾Ż²ÖæāÄ£Ź½µÄ³É±¾øß�¢ĻģÓ¦Āż�¢øńŹ½ÉŁµČĪŹĢāČÕŅęĶ¹ĻŌ£¬Źż¾Ż²ÖæāŅŃ¾ÄŃŅŌĀś×ćŗ£¹Ų´óŹż¾Ż¹ÜĄķŗĶÓ¦ÓĆµÄŠčĒó�£Źż¾Żŗž¼¼ŹõæÉŅŌĶ¬Ź±Āś×ć¹ŲĻµŠĶŹż¾ŻŗĶ·Ē¹ŲĻµŠĶŹż¾ŻµÄ´ę´¢£¬æÉŅŌ´ę´¢Ą´×ŌŅµĪńŠĶÓ¦ÓĆĻµĶ³µÄ¹ŲĻµŹż¾Ż£¬Ņ²ÄÜ´ę´¢Ą´×ŌŅĘ¶ÆÓ¦ÓĆ³ĢŠņ�¢ĪļĮŖĶųÉč±øŗĶÉē½»ĶųĀēµÄ·Ē¹ŲĻµŹż¾Ż£¬²¢ĒŅŌŚŠŌ¼Ū±Č�¢Źż¾ŻÖŹĮæ�¢ŹŹÓĆÓĆ»§ĄąŠĶ�¢Źż¾Ż·ÖĪöĮģÓņ�¢Įé»īŠŌµČ·½ĆęŅ²¶¼ÓÅÓŚŹż¾Ż²Öæā£Ū2£Ż�£

1 Źż¾ŻŗžµÄøÅÄī¼°Ęä¼¼ŹõĢŲµć

Źż¾ŻŗžµÄøÅÄīÓŚ2010 ÄźÓÉ Pentaho ¹«Ė¾µÄ´´Ź¼ČĖ¼ęŹ×ĻÆ¼¼Źõ¹Ł James Dixon£Ū3£ŻŹ×ĻČĢį³ö£¬Ėū°ŃŹż¾Ż¼ÆŹŠĆčŹö³ÉŅ»ĘæĒåĻ´¹żµÄ�¢°ü×°¹żµÄŗĶ½į¹¹»ÆŅ×ÓŚŹ¹ÓĆµÄĖ®�£¶ųŹż¾ŻŗžøüĻńŹĒŌŚ×ŌČ»×´Ģ¬ĻĀµÄĖ®£¬Źż¾ŻĮ÷´ÓŌ´ĻµĶ³Į÷ĻņÕāøöŗž£¬ÓĆ»§æÉŅŌŌŚŹż¾ŻŗžĄļŠ£Ńé£¬Č�Ńł»ņĶźČ«µÄŹ¹ÓĆŹż¾Ż£Ū4£Ż�£Źż¾ŻŗžŹĒÖø´ó¹ęÄ£æÉĄ©Õ¹µÄ´ę´¢æā£¬ĖüŅŌŌ±¾øńŹ½±£´ę´óĮæŌŹ¼Źż¾Ż£¬¶ųĪŽŠčĻČ¶ŌŹż¾Ż½ųŠŠ½į¹¹»Æ´¦Ąķ£¬Ö±µ½ŠčŅŖŹ±ŌŁ½ųŠŠ´¦Ąķ£¬øĆĻµĶ³æÉŅŌŌŚ²»Ėšŗ¦Źż¾Ż½į¹¹µÄĒéæöĻĀÉćČ�Źż¾Ż£¬Č»ŗóŌĖÓĆ²»Ķ¬ĄąŠĶµÄŅżĒę½ųŠŠ·ÖĪö£¬°üĄØ´óŹż¾Ż´¦Ąķ�¢æÉŹÓ»Æ�¢ŹµŹ±·ÖĪö�¢»śĘ÷Ń§Ļ°µČ£¬ŅŌÖøµ¼×÷³öøüŗĆµÄ¾ö²ß�£¹¹½ØŹż¾ŻŗžĶØ³£ŹĒĪŖĮĖ´¦Ąķ´óĮæĒŅæģĖŁµ½´ļµÄ·Ē½į¹¹»ÆŹż¾Ż£¬²¢ÄÜ¹»¶ŌĘä½ųŠŠ½ųŅ»²½µÄ·ÖĪö´¦Ąķ�£Ņņ´Ė£¬Źż¾ŻŗžŹ¹ÓĆ¶ÆĢ¬£Ø²»ĻńŹż¾Ż²ÖæāÄĒŃłŌ¤ÖĘ¾²Ģ¬£©·ÖĪöÓ¦ÓĆ³ĢŠņ£¬ŗžÖŠµÄŹż¾ŻŅ»µ©´´½Ø¼´æÉŅŌ·ĆĪŹ£ØÓė»ŗĀżøüøÄŹż¾ŻµÄŹż¾Ż²ÖæāĻą·´£©£Ū5£Ż�£

Źż¾ŻŗžŹŹÓĆÓŚ´ę´¢ĖłÓŠøńŹ½µÄŹż¾Ż£¬°üĄØ½į¹¹»ÆŹż¾Ż�¢°ė½į¹¹»ÆŹż¾Ż�¢·Ē½į¹¹»ÆŹż¾ŻŅŌ¼°¶ž½ųÖĘŹż¾Ż£Ū6£Ż�£ÓĆ»§æÉŅŌøł¾ŻŅµĪńŠčĒóŌŚŹż¾ŻŗžÖŠ½ųŠŠŹż¾Ż·ÖĪöŗĶŹż¾ŻĶŚ¾ņ£¬³ä·ÖĄūÓĆŹż¾ŻµÄ¼ŪÖµ£¬²¢ĒŅŌŚ²»Ķ¬µÄŅµĪń²æĆÅ�¢Ó¦ÓĆĮģÓņ½ųŠŠÓ¦ÓĆ�£Źż¾Żŗž¼¼Źõ×÷ĪŖ´óŹż¾ŻŠÅĻ¢¼¼Źõ·¢Õ¹ĻĀ²śÉśµÄŅ»ÖÖŠĀĖ¼Ļė�¢ŠĀ¼¼Źõ�¢ŠĀ¼Ü¹¹£¬ŅŃ±»³õ²½Ó¦ÓĆÓŚÉē»į¹«¹²¹ÜĄķŗĶÉĢŅµµČĮģÓņ£¬²¢Č�µĆĮĖŅ»¶ØµÄ³ÉŠ§£Ū7£Ż�£Źż¾Żŗž¼¼ŹõµÄĢŲµć¼°ÓÅŹĘČēĻĀ£ŗ

£Ø1£©´ę´¢³É±¾µĶ�£Źż¾ŻŗžŅ»°ć²ÉÓĆ·Ö²¼Ź½ĪÄ¼žĻµĶ³£Øhadoop distributed file system£¬HDFS£©´ę´¢Źż¾Ż£¬¾ß±ø½ĻĒæµÄĄ©Õ¹ÄÜĮ¦�£Źż¾Żŗž±¾ÉķÓ¦øĆÄŚÖĆ¶ąÄ£Ģ¬µÄ´ę´¢ŅżĒę£¬ŅŌĀś×ć²»Ķ¬µÄÓ¦ÓĆ¶ŌÓŚŹż¾Ż·ĆĪŹŠčĒó£Ø×ŪŗĻæ¼ĀĒĻģÓ¦Ź±¼ä/²¢·¢/·ĆĪŹĘµ´Ī/³É±¾µČŅņĖŲ£©�£µ«ŹĒ£¬ŌŚŹµ¼ŹµÄŹ¹ÓĆ¹ż³ĢÖŠ£¬Źż¾ŻŗžÖŠµÄŹż¾ŻĶØ³£²¢²»»į±»øßĘµ´ĪµÄ·ĆĪŹ£¬¶ųĒŅĻą¹ŲµÄÓ¦ÓĆŅ²¶ąŌŚ½ųŠŠĢ½Ė÷Ź½µÄŹż¾ŻÓ¦ÓĆ£¬ĪŖĮĖ´ļµ½æÉ½ÓŹÜµÄŠŌ¼Ū±Č£¬Źż¾Żŗž½ØÉčĶØ³£»įŃ�ŌńĻą¶Ō±ćŅĖµÄ´ę´¢ŅżĒę£ØČēS3/OSS/HDFS/OBS£©£¬²¢ĒŅŌŚŠčŅŖŹ±ÓėĶāÖĆ´ę´¢ŅżĒęŠĶ¬¹¤×÷£¬Āś×ć¶ąŃł»ÆµÄÓ¦ÓĆŠčĒó�£

£Ø2£©Źż¾Ż±£ÕęŠŌ�£ÓėŹż¾Ż²Öæā²»Ķ¬µÄµŲ·½ŌŚÓŚ£¬Źż¾ŻŗžÖŠ±ŲŠėŅŖ±£´ęŅ»·ŻŌŹ¼Źż¾Ż£¬ĪŽĀŪŹĒŹż¾ŻøńŹ½�¢Źż¾ŻÄ£Ź½�¢Źż¾ŻÄŚČŻ¶¼²»Ó¦øĆ±»ŠŽøÄ£¬Źż¾ŻŗžĒæµ÷µÄŹĒ¶ŌÓŚŅµĪńŹż¾Ż�°ŌÖŌĪ¶�±µÄ±£´ę£¬ÓŠĄūÓŚæŖÕ¹ŗĻ¹ęŠŌ¼ģ²éŗĶÄŚ²æÉó¼Ę£¬Čē¹ūŹż¾Ż´ę´¢¾ĄśĮĖ×Ŗ»»�¢¾ŪŗĻŗĶŠŽøÄ£¬½«ŗÜÄŃŌŚŠčŅŖŹ±¼°Ź±ÕŅµ½ŌŹ¼Źż¾Ż£¬²¢ĒŅÄŃŅŌČ·¶ØŹż¾ŻĄ´Ō´£Ū8£Ż�£Źż¾Ż²ÖæāÖ»Ź¹ÓĆĮĖŹż¾ŻµÄ²æ·ÖŹōŠŌ£¬¶ųŹż¾Żŗž±£ĮōĮĖŹż¾ŻµÄĖłÓŠ×īŌŹ¼�¢×īĻø½ŚµÄŠÅĻ¢£¬ĖłŅŌæÉŅŌ»Ų´šøü¶ąµÄĪŹĢā£¬ŌŹŠķ×éÖÆÖŠµÄø÷ÖÖ½ĒÉ«ĶØ¹ż×ŌÖś·ÖĪö¹¤¾ß£ØMR�¢Spark�¢SparkSQLµČ£©£¬¶ŌŹż¾Ż½ųŠŠ·ÖĪö£¬ŅŌ¼°ĄūÓĆAI�¢»śĘ÷Ń§Ļ°µÄ¼¼Źõ£¬´ÓŹż¾ŻÖŠ·¢¾ņøü¶ąµÄ¼ŪÖµ�£

£Ø3£©Źż¾ŻĮé»īŠŌ�£�°Š´ČėŠĶschema�±ŹĒŹż¾ŻŌŚŠ´ČėÖ®Ē°£¬¾ĶŠčŅŖøł¾ŻŅµĪńµÄ·ĆĪŹ·½Ź½Č·¶ØŹż¾ŻµÄschema£¬²¢Ķź³ÉŹż¾Żµ¼Čė£¬ÕāŅāĪ¶×ÅŹż¾Ż²ÖæāµÄĒ°ĘŚ³É±¾½Ļøß£¬ĢŲ±šŹĒµ±ŅµĪńÄ£Ź½²»ĒåĪś�¢ŅµĪń»¹´¦ÓŚĢ½Ė÷½×¶ĪŹ±£¬Źż¾Ż²ÖæāµÄĮé»īŠŌ²»¹»�£¶ųŹż¾Żŗž²ÉÓĆµÄ�°¶ĮČ�ŠĶschema�±ŌŚ×¼±øŹ¹ÓĆŹż¾ŻŹ±²Å¶ŌŹż¾Ż½ųŠŠ¶ØŅå£¬Źż¾ŻÄ£ŠĶµÄ¶ØŅåĮé»īŠŌ´ó´óĢįøß£¬øüÄÜĀś×ć²»Ķ¬ŅµĪńµÄŠčĒó£Ū8£Ż�£ÕāæÉŅŌČĆ»ł´�ÉčŹ©¾ß±øŹ¹Źż¾Ż�°°´Šč�±ĢłŗĻŅµĪńµÄÄÜĮ¦£¬µ±ŅµĪńŠčŅŖŹ±£¬¼´æÉŅŌøł¾ŻŠčĒó¶ŌŹż¾Ż½ųŠŠ¼Ó¹¤´¦Ąķ�£Ņņ´Ė£¬Źż¾Żŗžøü¼ÓŹŹŗĻŅµĪńøßĖŁ±ä»Æ·¢Õ¹µÄ×éÖÆ/ĘóŅµ�£

£Ø4£©Źż¾Ż×·ĖŻŠŌ�£Źż¾ŻŗžŹµĻÖ¶ŌŅ»øö×éÖÆ/ĘóŅµÖŠČ«ĮæŹż¾ŻµÄ´ę´¢£¬Ņņ´ĖŹż¾ŻµÄÉśĆüÖÜĘŚ¹ÜĄķÖĮ¹ŲÖŲŅŖ£¬°üĄØŹż¾ŻµÄ¶ØŅå�¢½ÓČė�¢´ę´¢�¢´¦Ąķ�¢·ÖĪö�¢Ó¦ÓĆµČČ«¹ż³Ģ¹ÜĄķ�£Ņ»øöĒæ´óµÄŹż¾Żŗž£¬ÄÜ×öµ½¶ŌĘä¼äµÄČĪŅāŅ»ĢõŹż¾ŻµÄ½ÓČė�¢´ę´¢�¢´¦Ąķ�¢Ļū·Ń¹ż³ĢæÉ×·ĖŻ£¬ÄÜ¹»Ēå³žµÄÖŲĻÖŹż¾ŻĶźÕūµÄ²śÉś¹ż³ĢŗĶĮ÷¶Æ¹ż³Ģ�£

2 ŗ£¹ŲŹż¾Żŗž´¦Ąķ¼Ü¹¹·½°ø

ÄæĒ°£¬ŗ£¹ŲŌŚ´óĮ¦ĶĘ¶ÆŹµŹ©�°ÖĒ»Ūŗ£¹Ų�¢ÖĒÄÜ±ß¾³�¢ÖĒĻķĮŖĶØ�±½ØÉč£¬²»¶ĻŃŠ¾æÉī»Æ�¢·įø»ĶźÉĘ�°ČżÖĒ�±ÄŚŗ£¬ÉīČėĶĘ½ųæĘ¼¼ŠĖ¹ŲŗĶ�°µ�Ņ»´°æŚ�±½ØÉč£¬Ņ²¶Ōŗ£¹Ų´óŹż¾Ż·¢Õ¹Ģį³öŠĀµÄŅŖĒó�£´«Ķ³µÄŗ£¹ŲŠÅĻ¢»ÆĻµĶ³²ąÖŲÓŚ¹¦ÄÜæŖ·¢£¬ŅŌŹż¾Ż·ÖĪöŗĶÓ¦ÓĆĪŖøØ£¬ŅŃ»ł±¾ŹµĻÖĮĖŅµĪń¹¤×÷µÄŠÅĻ¢»Æ�£Č»¶ų£¬ČēŗĪŹµĻÖŅŌŗ£¹ŲŹż¾ŻĪŖÖŠŠÄµÄŠÅĻ¢¼¼Źõ×ŖŠĶ£¬½«Źż¾ŻŅµĪń»Æ£¬Ļū³żŗ£¹ŲĻµĶ³ÄŚ²æÓėĶā²æÖ®¼äµÄŠÅĻ¢±ŚĄŻ£¬Ģį¹©øßÖŹĮæ�¢øßæÉÓĆŠŌŗĶøßŹµŹ±ŠŌµÄŹż¾Ż£¬Ź¹Źż¾ŻÕęÕżŌŚŗ£¹Ų²æĆÅÄŚ²æĮ÷¶ÆŗĶĮ÷×ŖĘšĄ´£¬Ö§³ÅĻµĶ³´´ŠĀ´ų¶ÆŅµĪń¹¤×÷øßŠ§æŖÕ¹£¬ÓŠŠ§Ģįøßŗ£¹Ų°Ń¹Ų·žĪńÄÜĮ¦£¬ŹĒŗ£¹Ų¹Ų×¢µÄÖŲµćĪŹĢā�£

ĶØ¹ż¹¹½Øŗ£¹ŲŹż¾Żŗž£¬ŹµĻÖ¶Ōŗ£¹Ųø÷ĻµĶ³Źż¾ŻČ«Įæ»ć¾ŪČėŗž´ę´¢£¬Ļū³żĮĖ�°Źż¾ŻŃĢ´Ń�±ŗĶ�°ŠÅĻ¢¹Āµŗ�±£¬²¢ĶØ¹żŹż¾ŻµÄø´ŌÓ¹ŲĮŖ¼ĘĖćŗĶÉī¶Č·ÖĪöÓėĶŚ¾ņ£¬½įŗĻĻČ½ųµÄŹż¾ŻæĘŃ§Óė»śĘ÷Ń§Ļ°¼¼Źõ£¬Ķź³ÉŹż¾Ż»ć×Ü�¢Ä£ŠĶ´ī½Ø¼°ŌĖŠŠ£¬ŅŌ¼°½«¼ĘĖćŗĶ»ć×Ü½į¹ūÉś³ÉĢŲ¶ØĻīÄæ±źĒ©�¢Öø±źæāµČ£¬ĪŖÉĻ²ćĻµĶ³Ģį¹©ŗ£ĮæŹż¾ŻµÄŌ¤²ā·ÖĪö�¢¼´ĻÆ²éŃÆ�¢ø´ŌÓ¼ĘĖć�¢Źż¾ŻĶŚ¾ņµČ¹¦ÄÜ£¬ĢįÉżŗ£¹ŲæĘ¼¼»Æ¹ÜĄķĖ®Ę½�£

ŗ£¹ŲŹż¾Żŗž²ÉÓĆŌÉśŹż¾ŻČėŗž·½Ź½£¬½«ŅµĪńŹż¾ŻÓėÓ¦ÓĆĻµĶ³ĶŃ¹³£¬Ö§³Åŗ£¹ŲŠÅĻ¢»ÆĻµĶ³ŹµŹ±�¢×¼ŹµŹ±ŗĶĄėĻßŹż¾ŻÓ¦ÓĆ´´ŠĀŠčĒó£¬ŹĒŗ£¹ŲŹµĻÖ´Ó´«Ķ³ŠÅĻ¢¼¼ŹõĻņ´óŹż¾Ż¼¼Źõ×ŖŠĶµÄÓŠŠ§Ķ¾¾¶�£ŗ£¹ŲŹż¾Żŗž×÷ĪŖ»ł´�ÉčŹ©¶ŌĖłÓŠÓ¦ÓĆĻµĶ³¹²Ļķ£¬Ņ²ŹĒŹż¾Ż´ę´¢ŗĶ·ĆĪŹµÄĪØŅ»³öæŚ£¬Ķ³Ņ»´ę´¢Č«ĻµĶ³Źż¾Ż£¬ĶØ¹żæŖ·Å¼Ü¹¹Ö§³ÅÖĒ»ŪŌĖŠŠ¹ÜĄķ£¬ÄÜ¹»×÷ĪŖŠÅĻ¢»ÆĻµĶ³¼ÆŌ¼»ÆŃŻ½ųµÄÅ¦´ų£Ū9£Ż�£ŗ£¹ŲŹż¾Żŗž´¦Ąķ¹¹¼ÜČēĶ¼1ĖłŹ¾£¬Ö÷ŅŖ°üĄØŹż¾Ż´ę´¢£Ø�°½Øŗž�±£©�¢Źż¾Ż»ć¾Ū£Ø�°ŅżĖ®�±£©�¢Źż¾ŻÖĪĄķ£Ø�°¹ÜĄķ�±£©�¢Źż¾Ż¼ĘĖć£Ø�°ĄūÓĆ�±£©�¢Źż¾Ż·žĪń£Ø�°¼ŪÖµ�±£©µČ5øö²æ·Ö�£

2.1 Źż¾Ż´ę´¢£Ø�°½Øŗž�±£©

ŗ£¹ŲŹż¾Żŗž´ę´¢ĄūÓĆ·Ö²¼Ź½´ę´¢×÷ĪŖŹż¾Ż´ę´¢¼Ü¹¹£¬·Ö²¼Ź½´ę´¢ÓŠ¶ąÖÖ¼¼Źõ·½°ø£¬µ«ŹĒÄæĒ°´ó¶ąĄūÓĆ Hadoop ÕāÖÖµĶ³É±¾¼¼ŹõŹµĻÖ£Ū10£Ż�£HDFS×÷ĪŖ´ę´¢²ć£¬æÉŅŌ½ÓŹÜÓÉKafka�¢FLume�¢Sqoop»ņĘäĖūŹż¾Ż¹¤¾ßµÄČĪŅāøńŹ½µÄŹż¾ŻŹäČė£¬HDFSµÄøßĶŲÕ¹ŠŌ�¢æÉææŠŌ�¢°²Č«ŠŌŗĶøßĶĢĶĀŠŌĀś×ć´óŹż¾Ż´¦ĄķµÄŅŖĒó�£HBase×÷ĪŖ NoSQL Źż¾ŻæāµäŠĶ´ś±ķ£¬¾ß±øøßæÉææŠŌ�¢øßŠŌÄÜ�¢ĆęĻņĮŠ�¢æÉÉģĖõµÄ·Ö²¼Ź½´ę´¢ĻµĶ³ĢŲµć£¬Ķ¬Ź±Ņ²ŹĒŅ»øöŹż¾ŻÄ£ŠĶ£¬ĶØ¹żHadoop Ģį¹©µÄČŻ´ķÄÜĮ¦£¬ŹµĻÖæģĖŁĖę»ś·ĆĪŹŗ£Įæ½į¹¹»ÆŹż¾Ż£Ū11£Ż�£Źż¾Żµ¼Čėµ½Źż¾Żŗžŗó£¬æÉŅŌŃ�Ōń±ź×¼´ę´¢£ØStandard£©×÷ĪŖÖ÷ŅŖ´ę´¢·½Ź½£¬Ņ²æÉŅŌŃ�Ōń³É±¾øüµĶ�¢´ę´¢ĘŚĻŽøü³¤µÄµĶĘµ·ĆĪŹ´ę´¢£Øinfrequent access£©�¢¹éµµ´ę´¢£Øarchive£©�¢Ąä¹éµµ´ę´¢£Øcold archive£©×÷ĪŖ²»¾³£·ĆĪŹŹż¾ŻµÄ´ę´¢·½Ź½£¬Źż¾ŻŗžµÄŹż¾Ż×ŹŌ´Ö§³Ö°´Ö÷Ģā�¢×éÖÆ�¢×ØĢāµČĪ¬¶Č±ąÄæŹż¾Ż£¬±£ÕĻŹż¾ŻµÄæÉ¼ģĖ÷ŠŌ�£

Õė¶Ōŗ£¹ŲŠÅĻ¢»ÆĻµĶ³ŗ£ĮæŹż¾Ż¹ęÄ£ĢŲµć£¬²ÉÓĆĀß¼Ķ³Ņ»�¢ĪļĄķ·ÖÉ¢µÄ¼ÆŌ¼Źż¾Żŗž¼Ü¹¹£¬æÉŅŌÓŠŠ§½ā¾öŹż¾Ż¹ĀµŗĪŹĢā£¬ŹµĻÖŗ£¹ŲŹż¾ŻµÄøßŠ§¹²Ļķ�£ĄżČē£ŗŗ£¹Ų¼ą¹ÜĻÖ³�Ź¹ÓĆµÄX¹ā»ś�¢CT»ś¼°ø÷Ąą´«øŠĘ÷µČĪļĮŖĶų£Øinternet of things£¬IOT£©Éč±ø²śÉśµÄĪÄ¼ž£¬ĶØ¹żĄėĻßÅśĮæµ¼Čė»ņÕßøßĖŁ·ĆĪŹĶųĀē½ųČėµ½´ę´¢¼ÆČŗŗóĶØ¹żHadoop£ØHDFS£©½ųŠŠ·ÖĪö´¦Ąķ£¬ŌŁ½ųČėøßŠŌÄÜ¼ĘĖćČŗ£Øhigh performance computing£¬HPC£©¼ÆČŗĶųĀēĪÄ¼žĻµĶ³£Ønetwork file system£¬NFS£©½ųŠŠ·ĀÕę¼ĘĖć£¬Ņ²æÉŅŌ¶ĮČ�µ½Ķ¼ŠĪ´¦ĄķĘ÷£Øgraphics processing unit£¬GPU£©¼ÆČŗ½ųŠŠŃµĮ·£ØS3£©�£Õūøö¹ż³ĢŹż¾Ż²»ŠčŅŖø´ÖĘŗĶŅĘ¶Æ£¬ŹµĻÖĮĖøßŠ§µÄŹż¾Ż¹²Ļķ�£Źż¾Ż¼ÆÖŠ´ę´¢ŗĶ¹²ĻķŹµ¼ŹÉĻŹĒ½«´ę´¢×ŹŌ´³Ų»Æ£¬½«´ę´¢Óė¼ĘĖć·ÖĄė£ØČē²ÉÓĆSpark¼¼ŹõŗĶŃĒĀķŃ·ŌĘ¼ĘĖć£Øamazon web services£¬AWS£©�¢»ŖĪŖŌĘ�¢°¢ĄļŌĘµČŌĘ·žĪń²śĘ·£©£¬´ó´ó½µµĶ´ę´¢³É±¾£¬ÓŠŠ§Ģįøß¼ĘĖć×ŹŌ´µÄĄūÓĆĀŹ£¬ŌöĒæ¼ĘĖćŗĶ´ę´¢¼ÆČŗµÄĮé»īŠŌ�£ĄżČē£ŗŅµĪń²æĆÅĻņŹż¾ŻĘ½ĢØ²æĆÅµ�¶ĄÉźĒė¼ĘĖć»ņ´ę´¢×ŹŌ´£¬²ÉÓĆ·ÖĄė¼Ü¹¹æÉŅŌøüĮé»īµÄ·ÖÅä×ŹŌ´�£Ó¦µ±×¢ŅāµÄŹĒ£¬´ę´¢ŗĶ¼ĘĖć·ÖĄėĶłĶł°éĖę´óŹż¾ŻµÄ·žĪń»Æ£¬ŠčŅŖ´ÓŌĘ»Æ�¢×ŹŌ´µÆŠŌµ÷¶ČµÄ½Ē¶Č¹ÜĄķ×ŹŌ´�£

2.2 Źż¾Ż»ć¾Ū£Ø�°ŅżĖ®�±£©

Źż¾ŻÖ»ÓŠ»ć¾ŪŅżČėŗ£¹ŲŹż¾Żŗž£¬²ÅÄÜ»łÓŚŹż¾Ż½ųŠŠ·ÖĪöŗĶĶŚ¾ņŹż¾Ż¼ŪÖµ£¬´Ó¶ųÖ§³ÅŅµĪń²æĆÅ¾ö²ß£¬Ēż¶Æŗ£¹ŲŅµĪń·¢Õ¹�£ŗ£¹ŲŹż¾Żŗž»ć¾ŪĄ´×Ōŗ£¹Ųø÷ŅµĪńĻµĶ³Źż¾Ż�¢Ķā²æ½»»»Źż¾Ż£ØČē²æĪÆ½»»»�¢¹ś¼Ź½»»»µČ£©�¢Ķā²æ²É¹ŗŹż¾Ż�¢»�ĮŖĶų²É¼ÆŹż¾Ż�¢ŅŌ¼°ĻµĶ³ÄŚĶā²æĘäĖūŹż¾Ż£¬ŗøĒĮĖ½į¹¹»Æ�¢°ė½į¹¹»ÆŗĶ·Ē½į¹¹»ÆŹż¾Ż�£¶ŌÓŚŹōÓŚĒ±ŌŚĶŚ¾ņŠčĒóµÄŹż¾Ż£¬²ÉČ�ŌÉśÉś²śŹż¾Ż·½Ź½µ¼ČėŹż¾Żŗž£»¶ŌÓŚŹōÓŚĆ÷Č·ŠčĒóµÄĶ³¼Ę·ÖĪöŠĶŹż¾Ż£¬²ÉČ�Ķ³Ņ»Ä£ŠĶ×Ŗ»»ŗóČėŗž£Ū12£Ż�£Źż¾ŻČėŗž·ÖĪŖĪļĄķČėŗžŗĶŠéÄāČėŗž£¬øł¾ŻŹż¾ŻŹ¹ÓĆµÄ³�¾°ŗĶŠčĒó£¬Ņ»øöĀß¼ŹµĢåæÉŅŌÓŠ²»Ķ¬µÄČėŗž·½Ź½�£Į½ÖÖČėŗž·½Ź½Ļą»�ŠĶ¬£¬¹²Ķ¬Āś×ćŹż¾ŻĮŖ½ÓŗĶÓĆ»§Źż¾ŻĻū·ŃµÄŠčĒó�£ŗ£¹ŲŹż¾ŻŗžČėŗžµÄ¼¼ŹõŹÖ¶ĪÖ÷ŅŖÓŠÅśĮæ¼Æ³É�¢Źż¾Żø´ÖĘĶ¬²½�¢ĻūĻ¢¼Æ³É�¢Į÷¼Æ³É�¢ŠéÄā»Æ¼Æ³ÉµČ·½Ź½£¬ŅŌŹż¾ŻŌ´Ą£ØPulL£©µÄ·½Ź½µ¼ČėŹż¾Żŗž£¬ŅŌ²ÉÓĆŹż¾ŻŌ´Ö÷¶ÆĻņŹż¾ŻŗžĶĘ£ØPusH£©µÄ·½Ź½Čėŗž�£ĶØ¹ż½«ŗ£¹ŲŌÉśŹż¾Ż»ć¾ŪČėŗž£¬½ųŠŠĶ³Ņ»´ę´¢�¢ÕūŗĻ�¢¹ŲĮŖŗĶ¹²Ļķ£¬ÄÜ¹»¼õÉŁŹż¾ŻµÄÖŲø´²É¼Æ�¢´ę´¢ŗĶ´ųæķĻūŗÄ£¬´Ó¶ųŠĪ³ÉŅ»øö¼ÆÖŠŹ½Źż¾Ż´ę´¢ČŻÄÉŗ£¹ŲĖłÓŠŹż¾ŻŠĪŹ½µÄŗ£¹ŲŹż¾Żŗž�£

2.3 Źż¾ŻÖĪĄķ£Ø�°¹ÜĄķ�±£©

Źż¾Ż²»½öŅŖ´ęĻĀĄ´£¬øüŅŖÖĪĄķŗĆ£¬·ńŌņŹż¾Żŗž½«±ä³ÉŹż¾ŻÕÓŌó£¬ĄĖ·Ń´óĮæµÄIT×ŹŌ´£Ū1£Ż�£Źż¾ŻÖĪĄķŹĒ¶ŌŹż¾ŻµÄČ«ÉśĆüÖÜĘŚ½ųŠŠ¹ÜĄķ£¬ŗ£¹ŲŹż¾ŻŗžÄÜ·ńĶĘ¶Æŗ£¹ŲŅµĪńµÄ·¢Õ¹£¬Źż¾ŻÖĪĄķÖĮ¹ŲÖŲŅŖ�£ŗ£¹ŲĻµĶ³ÄŚ²æŹÕ¼ÆµÄŹż¾Ż»ņ´ÓĘäĖūŠŠŅµÖŠ²É¼ÆŹż¾ŻÖÖĄą¶ąŃł£¬øńŹ½²»Ņ»£¬¶ąŹżŅŌŌŹ¼øńŹ½´ę´¢£¬ŠčŅŖ²»¶Ļ¶ŌÕāŠ©ŌŹ¼Źż¾Ż½ųŠŠÕūŗĻ¼Ó¹¤£¬øł¾Żø÷ŅµĪń×éÖÆ�¢³�¾°�¢ŠčĒóŠĪ³ÉČŻŅ×·ÖĪöµÄøÉ¾»Źż¾Ż£¬²¢ČĆøü¶ąµÄČĖ·ĆĪŹ·ÖĪöŹż¾Ż�£Źż¾ŻŗžµÄŹż¾ŻÖĪĄķ°üĄØŌŖŹż¾Ż¹ÜĄķ�¢Źż¾Ż±ź×¼¹ÜĄķ�¢Źż¾ŻÖŹĮæ¹ÜĄķ�¢Ö÷Źż¾Ż¹ÜĄķ�¢Źż¾Ż×Ź²ś¹ÜĄķ�¢Źż¾Ż°²Č«¹ÜĄķŗĶŹż¾ŻÉśĆüÖÜĘŚ¹ÜĄķµČ·½Ćę�£ĶØ¹żŹż¾ŻÖĪĄķæÉŅŌĢįøßŗ£¹ŲŹż¾ŻŗžŹż¾ŻµÄÖŹĮæ£¬Č·±£Źż¾ŻµÄ°²Č«£¬ŹµĻÖŹż¾Ż×ŹŌ´ŌŚŗ£¹Ųø÷²æĆÅ¼°Ķā²æĻą¹Ųµ�Ī»µÄ¹²Ļķ£¬½ųŅ»²½·¢»Óŗ£¹ŲŹż¾ŻµÄ×Ź²ś×÷ÓĆ�£

Źż¾Żŗž×÷ĪŖŗ£¹ŲµÄŗĖŠÄŹż¾Ż×Ź²ś£¬Źż¾ŻµÄ°²Č«¹ÜĄķŹĒÖŲÖŠÖ®ÖŲ�£ŅžĖ½ŗĶ°²Č«ŠŌŹĒŗ£¹ŲŹż¾ŻŗžÖĪĄķµÄ¹Ų¼ü×é³É²æ·Ö£¬°üĄØĶØ¹ż¶Ō½ÓH4A¹ÜĄķĻµĶ³ŹµĻÖ¶ŌÓĆ»§µÄ·ĆĪŹæŲÖĘ�¢Éķ·ŻŃéÖ¤�¢ŹŚČØ£¬ŅŌ¼°¾²Ģ¬ŗĶ¶ÆĢ¬Źż¾Ż¼ÓĆÜµČ�£Źż¾ŻŗžĖäČ»Ö¼ŌŚ´ņŌģŅ»øöæŖ·ÅµÄŹż¾ŻŌ´£¬µ«¶ŌÓŚŗ£¹ŲŹż¾Ż¶ųŃŌ£¬°²Č«ŠŌŗĶ·ĆĪŹæŲÖĘ´ėŹ©±Ų²»æÉÉŁ£¬ŗ£¹ŲŹż¾ŻŗžÖĪĄķŗĶŠÅĻ¢°²Č«¹ÜĄķČĖŌ±Ó¦Č«³Ģ²ĪÓėŹż¾ŻŗžÉč¼ĘŗĶ½ØÉč¹ż³Ģ£¬²¢¾ß±ø½ĻøßµÄŹż¾Ż°²Č«ŹĀ¼ž±Õ»·¹ÜæŲĖ®Ę½£¬ĢįøßŹż¾Ż°²Č«ŹĀ¼žµÄÓ¦¼±´¦ÖĆÄÜĮ¦�£

2.4 Źż¾Ż¼ĘĖć£Ø�°ĄūÓĆ�±£©

ÉĻŹö¹¤×÷ŹĒĪŖ½ųŠŠŹż¾Ż¼ĘĖć·ÖĪö´ņ»ł´�£¬ŗ£¹ŲŹż¾Żŗž²ÉÓĆ·Ö²¼Ź½¼ĘĖćæņ¼Ü£¬Ģį¹©¶ąÖÖ·½Ź½µÄŹż¾Ż·ÖĪöŅżĒę£¬ČēĶØ¹żSpark�¢MR�¢SparkSQL�¢FlinkµČ¶ąÄ£Ģ¬øßŠŌÄÜ·ÖĪö¼ĘĖćŅżĒę£¬¶Ōŗ£ĮæµÄŌŹ¼Źż¾Ż½ųŠŠ·ÖĪö�¢³éČ��¢¼ĘĖć�¢ĄūÓĆ�£Ö±½Ó·ĆĪŹŗ£Įæ´ę´¢ÖŠµÄŹż¾Ż£¬ĪŽŠčŹż¾ŻĢįČ�£¬¼õÉŁŹż¾Ż×Ŗ»»£¬Ö§³Öøß²¢·¢¶ĮČ�ŗĶ×ŌÖśŹż¾ŻĢ½Ė÷·ÖĪö£¬ĢįøßŹµŹ±·ÖĪöŠ§ĀŹ£Ū13£Ż�£

¼ĘĖćŗĶŹż¾Ż·ÖĄėŗó±ŲČ»»į´ųĄ´Ņ»¶ØµÄĶųĀēI/OæŖĻś£¬¼ĘĖć²ąCacheæÉÓŠŠ§¼õÉŁĘµ·±µÄĶųĀēI/O´ĪŹż£Ū13£Ż�£Ķ¬Ź±ĶņÕ×ĶųĀēŅŃ¾µĆŅŌĘÕ¼°£¬ÉõÖĮøüøß�£¼ĘĖć²ąCache²ÉÓĆ¶ąÖÖĖć·Ø£¬½«Źż¾Ż»ŗ´ęŌŚ¼ĘĖć²ą£¬æÉŅŌŹ¹µĆŗÜ¶ą³�¾°ĻĀ¼ĘĖćÓėŹż¾Ż·ÖĄė·½°øµÄŠŌÄÜÉõÖĮøßÓŚŅ»Ģå»Æ·½Ź½�£

ĪŖ´Ł½ųŗ£¹ŲŹż¾Ż¹²ĻķŗĶæŖ·ÅÓ¦ÓĆ£¬Ó¦ĶźÉĘŗ£¹ŲŹż¾ŻŗžĘ½ĢØÉĻµÄŹż¾Ż·ÖĪöŗĶ½ØÄ£¹¤¾ß£¬½įŗĻø÷ÖÖŹż¾ŻĒéæöŗĶÓ¦ÓĆŠčĒó£¬¼Æ³Éø÷ÖÖŹż¾ŻæŖ·¢�¢¶ĄĮ¢·ÖĪö�¢æÉŹÓ»ÆŗĶÓ¦ÓĆ²æŹš¹¤¾ß£¬Ģį¹©Ņ»Õ¾Ź½Źż¾ŻæŖ·¢ŗĶÓ¦ÓĆ·žĪń£¬´Ł½ųŹż¾ŻÓ¦ÓĆÉśĢ¬µÄĮ¼ŠŌŃ»·�£

2.5 Źż¾Ż·žĪń£Ø�°¼ŪÖµ�±£©

Źż¾ŻŗžµÄ¼ŪÖµŠčĶØ¹żĢį¹©Źż¾Ż·žĪńĄ´ĢåĻÖ£¬ŅŌ¼°ÓėŅµĪńµÄÉī¶ČČŚŗĻÓė¼Æ³É�£ŗ£¹ŲŹż¾Żŗž·žĪńĢį¹©Źż¾Ż»ł´�Ó¦ÓĆĘ½ĢØŗĶŹż¾ŻæŖ·¢Ę½ĢØ£¬Ę½ĢØ°üĄØŹż¾ŻŌ´¹ÜĄķ�¢Źż¾Ż±Ø±ķ�¢Źż¾Ż±ØøęŅŌ¼°Źż¾ŻŌĖĖćŗĶÕ¹Ź¾µČ¶ąÖÖŹż¾Ż·ÖĪö×é¼ž£¬Ķ¬Ź±¼ęČŻµŚČż·½Źż¾Ż·ÖĪö¹¤¾ß�£ĶØ¹żĢį¹©×ŌÖś·ÖĪö�¢Źż¾ŻæÉŹÓ»ÆµČ¶ąÖÖ·½Ź½øųŹż¾ŻŠčĒó²æĆÅ£Ø°üĄØŅµĪńÖ°ÄÜ²æĆÅ�¢Ö´·Ø²æĆÅµČ£©½ųŠŠŹż¾ŻĻū·Ń£¬×ŌÓÉ·¢¾ņŹż¾ŻµÄĒ±ÄÜŗĶ¼ŪÖµ�£ĮķĶā£¬ĶØ¹żŹż¾Żŗž½«ŅµĪńŹż¾ŻĶŃĆōŗó´ę´¢µ½Źż¾Żŗž£¬æŖ·ÅøųĻµĶ³ÄŚĶāæĘŃŠ»ś¹¹½ųŠŠŃŠ¾æŠŌĢ½Ė÷£¬ŃŠ¾æ³É¹ūæÉ·´Ą�Ó¦ÓĆÓŚŗ£¹ŲŅµĪń¹¤×÷£¬´Ó¶ųÓŠŠ§´Ł½ų»łÓŚŗ£¹ŲŹż¾ŻµÄ²śŃ§ŃŠŗĻ×÷ÓėĢįÉż�£ŅĄĶŠŹż¾ŻŗžĢį¹©µÄŹż¾Ż¼Æ³ÉŗĶæŖ·¢ÄÜĮ¦£¬ŅŌ¼°¶ŌŹż¾ŻÄ£ŠĶµÄĄķ½ā£¬ÄÜ¹»¶ØÖĘŹż¾Ż´¦ĄķĮ÷³Ģ£¬µü´ś´¦ĄķŌŹ¼Źż¾Ż£¬´ÓŹż¾ŻÖŠĢįČ�ÓŠ¼ŪÖµµÄŠÅĻ¢£¬×īÖÕ»ńµĆ³¬³öŌŹ¼Źż¾Ż·ÖĪö·žĪńµÄ¼ŪÖµ£Ū14£Ż�£

3 ŗ£¹ŲŹż¾Żŗž½ØÉčĮ÷³Ģ¼°Ó¦ÓĆŹµ¼ł

ŗ£¹ŲŹż¾ŻŗžµÄ½ØÉč¹ż³ĢÓ¦Óėŗ£¹ŲŅµĪń¹¤×÷½ōĆÜ½įŗĻ£¬Óėŗ£¹ŲŹż¾Ż²ÖæāŅŌ¼°Źż¾ŻÖŠĢØÓŠĖłĒų±š£¬ŗ£¹ŲŹż¾Żŗž½ØÉč²ÉÓĆ�°±ß½Ø±ßÓĆ£¬±ßÓĆ±ßÖĪĄķ�±øüĆō½ŻµÄ·½Ź½Ą´¹¹½Ø£¬»ł±¾Į÷³ĢČēĶ¼2ĖłŹ¾�£

<G:\Īäŗŗ¹¤³Ģ´óŃ§\2022\µŚ5ĘŚ\ēŃ¼Ń»Ō-2.tif>[Źż¾Ż

Ćžµ×][¼¼ŹõŃ�ŠĶ][Źż¾Ż½ÓČė][¼¼ŹõŃ�ŠĶ][Ó¦ÓĆÖĪĄķ][ŅµĪńÖ§³Å]

Ķ¼2 ŗ£¹ŲŹż¾Żŗž½ØÉč»ł±¾Į÷³Ģ

Fig. 2 Basic process of customs data lake construction

²½Öč1£ŗŹż¾ŻĆžµ×�£¹¹½Øŗ£¹ŲŹż¾Żŗž³õŹ¼¹¤×÷ŹĒ¶ŌĻµĶ³ÄŚ²æµÄŹż¾Ż×öŅ»øöČ«ĆęŗĶÉīČėµÄĆžµ×£¬°üĄØŹż¾ŻĄ´Ō´�¢Źż¾ŻĄąŠĶ�¢Źż¾ŻŠĪĢ¬�¢Źż¾ŻÄ£Ź½�¢Źż¾Ż×ÜĮæ�¢Źż¾ŻŌöĮæµČ�£ĶØ¹żĆžµ×¹¤×÷£¬½ųŅ»²½ŹįĄķĆ÷Č·Źż¾ŻŗĶ×éÖÆ½į¹¹Ö®¼ä¹ŲĻµ£¬ĪŖŗóŠųĆ÷Č·Źż¾ŻŗžµÄÓĆ»§½ĒÉ«�¢ČØĻŽÉč¼Ę�¢·žĪń·½Ź½µģ¶Ø»ł´��£

²½Öč2£ŗ¼¼ŹõŃ�ŠĶ�£øł¾ŻŹż¾ŻĆžµ×µÄĒéæö£¬Č·¶ØŹż¾Żŗž½ØÉčµÄ¼¼ŹõŃ�ŠĶ£¬Čē²ÉÓĆ·Ö²¼Ź½¶ŌĻó´ę´¢ĻµĶ³£ØS3/OSS/OBSµČ£©�£¼ĘĖćŅżĒęÖ÷ŅŖæ¼ĀĒÅś´¦ĄķŠčĒóŗĶSQL´¦ĄķÄÜĮ¦£¬²¢ŌŚÓ¦ÓĆÖŠÖš²½·¢Õ¹�£Čē¹ūŠčŅŖ¶ĄĮ¢µÄ×ŹŌ´³Ų£¬Ōņæ¼ĀĒ¹¹½Ø×ØÓĆ¼ÆČŗ�£

²½Öč3£ŗŹż¾Ż½ÓČė�£øł¾ŻµŚŅ»²½µÄĆžÅÅ½į¹ū£¬Č·¶ØŅŖ½ÓČėµÄŹż¾ŻŌ´�£øł¾ŻŹż¾ŻŌ´£¬Č·¶ØĖł±ŲŠčµÄŹż¾Ż½ÓČė¼¼ŹõÄÜĮ¦£¬Ķź³ÉŹż¾Ż½ÓČė¼¼ŹõŃ�ŠĶ£¬½ÓČėµÄŹż¾ŻÖĮÉŁ°üĄØ£ŗŹż¾ŻŌ´ŌŖŹż¾Ż�¢ŌŹ¼Źż¾ŻŌŖŹż¾ŻŗĶŌŹ¼Źż¾Ż�£

²½Öč4£ŗÓ¦ÓĆÖĪĄķ�£½čÖśŹż¾ŻŗžĢį¹©µÄø÷Ąą¼ĘĖćŅżĒę¶ŌŹż¾Ż½ųŠŠ¼Ó¹¤´¦Ąķ£¬ŠĪ³Éø÷ĄąÖŠ¼äŹż¾Ż/½į¹ūŹż¾Ż£¬²¢Ķ×ÉĘ¹ÜĄķ±£´ę�£Źż¾ŻŗžÓ¦øĆ¾ß±øĶźÉĘµÄŹż¾ŻæŖ·¢�¢ČĪĪń¹ÜĄķ�¢ČĪĪńµ÷¶ČµÄÄÜĮ¦£¬ĻźĻø¼ĒĀ¼Źż¾ŻµÄ´¦Ąķ¹ż³Ģ�£ŌŚÖĪĄķµÄ¹ż³ĢÖŠ£¬»įŠčŅŖøü¶ąµÄŹż¾ŻÄ£ŠĶŗĶÖø±źÄ£ŠĶ£Ū15£Ż�£

²½Öč5£ŗŅµĪńÖ§³Å�£ŌŚĶØÓĆÄ£ŠĶ»ł´�ÉĻ£¬ø÷øöŅµĪń²æĆÅ¶ØÖĘ×Ō¼ŗµÄĻø»ÆŹż¾ŻÄ£ŠĶ�¢Źż¾ŻŹ¹ÓĆĮ÷³Ģ�¢Źż¾Ż·ĆĪŹ·žĪń£¬ŅŌÖ§³Åŗ£¹ŲŅµĪń·¢Õ¹ŠčŅŖ�£

ŅŌ¹¹½Ø½ų³öæŚŹ³Ę··ēĻÕ¼ąæŲŹż¾ŻŗžĪŖĄż£Ø¼ūĶ¼3£©£¬Õė¶ŌÄæĒ°ÖŲŅŖŹ³Ę·Ć³Ņ×¹ś£ØµŲĒų£©·ēĻÕ¼ąæŲŹż¾ŻĄ´Ō´µ�Ņ»�¢øńŹ½¶ąŃł»ÆµČĪŹĢā£¬·ÖĪö¹Ų¼ü·ēĻÕ´Źæā²¢ŹįĄķ¹ęĀÉÓėĢŲµć£¬²ÉÓĆ»łÓŚ¹Ų¼ü·ēĻÕ´ŹæāĒż¶ÆµÄĶ³¼ĘÓė¹ęŌņĻą½įŗĻµÄĪŽŠņ·Ē½į¹¹»ÆŹż¾ŻĻŖĮ÷Ź¶±šĖć·Ø½ųŠŠŹż¾ŻĆžµ×£¬½ų¶ųæŖÕ¹ĮłŌ´Źż¾ŻĻŖĮ÷µÄ±ź×¼»Æ²É¼Æ¼¼ŹõŃŠ¾æ£¬°üĄØ H2018 ŗ£¹ŲŅµĪń¼ą¹ÜŹż¾Żæā�¢ŹµŃéŹŅ¼ģ²āŠÅĻ¢Źż¾Żæā£Ølaboratory information management system£¬LIMS£©�¢¾³ĶāŌ¤¼ģŠÅĻ¢Źż¾Żæā�¢¹ś¼ŹĪļĮ÷¹©Ó¦Į´×éÖÆ/»ś¹¹ŠÅĻ¢Źż¾Żæā�¢»�ĮŖĶų·ēĻÕŠÅĻ¢¼ą²āŹż¾Żæā�¢Ć³Ņ×¹ś£ØµŲĒų£©Õžø®ĶØ ±ØŠÅĻ¢Źż¾ŻæāµČ�£¼¼ŹõÉĻŅŌ Gbase ŌÉśŹż¾Ż¼Ü¹¹øńŹ½´ę´¢£¬²ÉÓĆ¼Æ³ÉøßŠŌÄÜÓ¦ÓĆČķ¼ž£Øhigh-performance analytic appliance£¬HANA£© ¼ĘĖć�¢MapReduce·Ö²¼Ź½Źż¾ŻĻŖĮ÷ĒåĻ´�¢¶ąĪ¬¶Č¹ŲĮŖ¹ęŌņĶŚ¾ņ�¢¾ķ»żÉń¾ĶųĀē£Øconvolution neural network£¬CNN£©µČ¼¼Źõ�£ĮłŌ´Źż¾Ż±ź×¼»Æ²É¼ÆÖ®ŗó£¬¼°Ź±»ć¾Ū²¢ŅŌ GbaseŌÉśŹż¾Ż¼Ü¹¹øńŹ½Ą´´ę´¢Ź³Ę··ēĻÕ¼ąæŲŹż¾Ż�£GbaseÖ§³ÖlinuxĻµĮŠ²Ł×÷ĻµĶ³£¬ČēRedHatŗĶSUSE£¬³żĮĖĢį¹©ĘóŅµ¹ÜĄķĘ÷�¢¼ąæŲ¹¤¾ß�¢¼ÓŌŲ¹¤¾ß�¢±ø·Ż/»Öø´¹¤¾ßŅŌ¼°¼ÆČŗÖŲ·Ö²¼¹¤¾ßµČ¼ÆČŗ¹ÜĄķ¹¤¾ß£¬GBase»¹Ģį¹© JDBC�¢ODBC�¢ADO.NET�¢CAPµČ4øö¶ŌĶāµÄ±ź×¼æŖ·¢½ÓæŚ£¬ŅŌ·½±ćĶā²æ¶Ō GBase¼ÆČŗµÄ·ĆĪŹ�£½ų³öæŚŹ³Ę··ēĻÕ¼ąæŲŹż¾ŻŗžĶØ¹ż½«ŌŹ¼½ų³öæŚŹ³Ę··ēĻÕ¼ąæŲŹż¾Ż·ÖĄą´ę´¢µ½²»Ķ¬Źż¾Ż³ŲÖŠ£¬²¢¶ŌĆæøöŹż¾Ż³ŲÖŠµÄŹż¾Ż×Ŗ»Æ³ÉĶ³Ņ»µÄGBaseŌÉśøńŹ½´ę´¢£¬ŅŌ±ćÓŚ¼ĘĖć·ÖĪö�£½čÖśGBase´ę´¢¼Ü¹¹£¬æÉ·½±ćµŲ¶Ō´óĮæ½ų³öæŚŹ³Ę··ēĻÕ¼ąæŲŹż¾ŻŗĶĻą¹ŲŠÅĻ¢½ųŠŠæģĖŁ�¢¶ą½Ē¶Č·ÖĪö£¬¼°Ź±·¢ĻÖ°²Č«Ņž»¼£¬ĪŖŹ³Ę··ēĻÕ¼ąæŲŌĘ·žĪńĘ½ĢØĢį¹©Źż¾ŻÖ§³Ö�£

ŗ£¹ŲŹż¾ŻŗžÓė´«Ķ³´óŹż¾ŻĘ½ĢØĻąĶ¬µÄµŲ·½ŌŚÓŚ¾ß±ø´¦Ąķ³¬´ó¹ęÄ£Źż¾ŻĖłŠčµÄ´ę´¢ŗĶ¼ĘĖćÄÜĮ¦£¬ÄÜĢį¹©¶ąÄ£Ź½µÄŹż¾Ż´¦ĄķÄÜĮ¦£¬Ķ¬Ź±ŗ£¹ŲŹż¾ŻŗžµÄŌöĒæµćŌŚÓŚŹż¾ŻŗžĢį¹©ĮĖøüĪŖĶźÉĘµÄŹż¾Ż¹ÜĄķÄÜĮ¦£¬¾ßĢåĢåĻÖŌŚ£ŗ

£Ø1£©øüĒæ´óµÄŹż¾Ż½ÓČėÄÜĮ¦�£Źż¾Ż½ÓČėÄÜĮ¦ĢåĻÖŌŚ¶ŌÓŚø÷ĄąĶā²æŅģ¹¹Źż¾ŻŌ´µÄ¶ØŅå¹ÜĄķÄÜĮ¦£¬ŅŌ¼°¶ŌÓŚĶā²æŹż¾ŻŌ´Ļą¹ŲŹż¾ŻµÄ³éČ�ĒØŅĘÄÜĮ¦£¬³éČ�ĒØŅĘµÄŹż¾Ż°üĄØĶā²æŹż¾ŻŌ´µÄŌŖŹż¾ŻÓėŹµ¼Ź´ę´¢µÄŹż¾Ż�£

£Ø2£©øüĒæ´óµÄŹż¾Ż¹ÜĄķÄÜĮ¦�£Źż¾Ż¹ÜĄķÄÜĮ¦¾ßĢåÓÖæÉ·ÖĪŖ»ł±¾¹ÜĄķÄÜĮ¦ŗĶĄ©Õ¹¹ÜĄķÄÜĮ¦�£»ł±¾¹ÜĄķÄÜĮ¦ŹĒŅ»øöŹż¾ŻŗžĻµĶ³Ėł±ŲŠčµÄ£¬°üĄØŌŖŹż¾Ż¹ÜĄķ�¢Źż¾Ż·ĆĪŹæŲÖĘ�¢Źż¾Ż×Ź²ś¹ÜĄķ£»¶ųĄ©Õ¹¹ÜĄķÄÜĮ¦°üĄØČĪĪń¹ÜĄķ�¢Į÷³Ģ±ąÅÅŅŌ¼°ÓėŹż¾ŻÖŹĮæ�¢Źż¾ŻÖĪĄķĻą¹ŲµÄÄÜĮ¦�£

£Ø3£©æÉ¹²ĻķµÄŌŖŹż¾Ż�£Źż¾ŻŗžÖŠµÄø÷Ąą¼ĘĖćŅżĒę»įÓėŹż¾ŻŗžÖŠµÄŹż¾ŻÉī¶ČČŚŗĻ£¬¶ųČŚŗĻµÄ»ł´�¾ĶŹĒŹż¾ŻŗžµÄŌŖŹż¾Ż�£ÓÅÖŹµÄŹż¾ŻŗžĻµĶ³£¬¼ĘĖćŅżĒęŌŚ´¦ĄķŹż¾ŻŹ±£¬ÄÜ´ÓŌŖŹż¾ŻÖŠÖ±½Ó»ńČ�Źż¾Ż´ę´¢Ī»ÖĆ�¢Źż¾ŻøńŹ½�¢Źż¾ŻÄ£Ź½�¢Źż¾Ż·Ö²¼µČŠÅĻ¢£¬Č»ŗóÖ±½Ó½ųŠŠŹż¾Ż´¦Ąķ£¬¶ųĪŽŠč½ųŠŠČĖ¹¤/±ą³ĢøÉŌ¤�£

4 ½į ĀŪ

ŅŌÉĻ²ūŹöĮĖ»łÓŚŹż¾Żŗž¼¼ŹõĢŲµćĢį³öµÄŹż¾ŻŗžĖ¼Ļė´óŹż¾ŻÓ¦ÓĆ¼Ü¹¹·½°ø£¬·ÖĪöĮĖŹż¾Ż´ę´¢�¢Źż¾Ż»ć¾Ū�¢Źż¾ŻÖĪĄķ�¢Źż¾Ż¼ĘĖć�¢Źż¾Ż·žĪńµČ·½°ø½ā¾öĖ¼Ā·£¬²¢½éÉÜĮĖ½ØÉčŗ£¹ŲŹż¾ŻŗžµÄ»ł±¾Į÷³Ģ¼°Ó¦ÓĆ°øĄż·ÖĪö�£¹¹½Øŗ£¹ŲŹż¾ŻŗžÓŠĄūÓŚ´ņĘĘŹż¾Ż¹Āµŗ£¬ÓŠŠ§½ā¾öŗĶĢįøßŗ£¹ŲŹż¾Ż½ÓČėÖŹĮæ£¬Ģįøßŗ£¹ŲĪ´Ą´ŠÅĻ¢»Æ½ØÉčÖŠ´óŹż¾Ż·ÖĪöŗĶŹż¾Ż¹²ĻķÄÜĮ¦£¬øüŗĆ·¢»Óŗ£¹ŲŹż¾ŻµÄ¼ŪÖµ�£

ĻĀŅ»²½½«½ųŠŠµÄ¹¤×÷ŹĒŌŚŗ£¹Ų»ż¼«ĶĘ½ų�°ČżÖĒ�±½ØÉčÓėŗĻ×÷µÄ±³¾°ĻĀ£¬ĄūÓĆŹż¾Żŗž¼¼ŹõŗĶĖ¼Ļė£¬ÕŅ³öĻÖ´śŗ£¹ŲÖĪĄķÖŠµÄŹż¾Ż·ÖĪöŗĶ¹²ĻķµÄ½ā¾ö·½°ø£¬ĪŖ¹¹½ØøßŠ§ŠĶ¬µÄÖĒÄÜ±ß¾³£¬ĶĘ½ųŗ£¹ŲŠÅĻ¢»Æ½ØÉč½ų³Ģ£»ĪŖ´Ł½ųČ«Ēņ¹©Ó¦Į´µÄ»�ĮŖ»�ĶØ¹±Ļ×ŗ£¹ŲµÄæĘ¼¼Į¦Įæ�£