北理工在大数据最优抽样取得研究成果

发布日期：2020-06-15 供稿：数学与统计学院

编辑：陶思远审核：田玉斌阅读次数：

　　日前，北京理工大学数学与统计学院虞俊助理教授及其合作者在统计学四大国际顶级期刊《Journal of the American Statistical Association》上发表了题为“Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators with Massive Data”的研究论文。该论文针对如何从分布式存储海量数据中提取有用的信息这一问题，从基于最优试验设计理论的抽样角度提出了一个快速解决方案。

　　随着大数据时代的到来，人们所能获取的数据源源不断地以指数级的速度增加。分析这些作为信息载体的数据，从中提取有用的信息，一直是统计学和数据科学的核心研究课题之一。对海量数据进行统计分析时，通常面对两个特别具有挑战的问题，其一是数据量过大，无法将整个数据集存入一个计算机中，从而导致传统统计分析算法无法直接应用到对应数据集；其二是尽管数据量适中，然而由于现有计算机的计算速度和计算能力的限制，进行统计分析往往耗时很长，无法在有限的时间内得到研究者想要的统计分析结果。

　　为了克服这两个挑战性问题，针对大数据集的统计分析方法大致可以分为如下两类：第一类是并行计算方法，首先将整个大数据集分成若干个子数据集，对每个子数据集单独计算，最后把这些子数据集的计算结果有机地结合在一起，得到整个数据集的推断结果。第二类分析方法是子抽样方法，从整个数据集中巧妙地抽取一组有效的子样本，仅对子样本进行统计推断，利用样本代替整体的思想，通过子样本的推断来推断全样本的估计结果，从而节省计算时间。虽然大量的研究结果表明子抽样方法能够有效解决大数据的统计推断问题，然而如何高效地选择携带信息量大、能够提高统计推断准确度的数据作为进行统计推断的子样仍然是大数据分析中亟待解决的问题之一。

　　虞俊助理教授与合作者的上述论文，基于最优设计的思想，对如何高效地选择富含统计模型信息的数据这一问题给出了一个科学的方法。利用分布计算的优势，首先对存储在不同计算机上的数据集分别抽取子样，之后将每个子样本得到的估计巧妙地融合在一起，从而形成全数据集的最优近似估计。文章从理论和模拟两方面证明了这一方法的科学性和可行性。

　　该项研究工作是虞俊助理教授与北京大学艾明要教授，康涅狄格大学统计系王海鹰助理教授等合作完成，虞俊助理教授为第一作者，本项工作得到北京理工大学青年教师学术启动计划的资助。

　　论文链接地址：

　　https://www.tandfonline.com/doi/abs/10.1080/01621459.2020.1773832?journalCode=uasa20

附研究团队及个人简介：

　　北京理工大学数学与统计学院试验设计团队积极开展国内外合作研究和学术交流，团队负责人田玉斌教授以及团队成员孔祥顺博士，王典朋博士，虞俊博士等分别与国内外知名试验设计学者，如C.F.Jeff Wu院士、艾明要教授、Roshan Vengazhiyil Joseph教授等建立了长期的合作关系。团队成员分别开展着试验设计理论与应用的研究，表现出强劲的发展势头。

　　虞俊，助理教授，北理工数学与统计学院试验设计团队主要成员。本科毕业于南开大学、博士毕业于北京大学，曾在美国佐治亚州立大学作访问学者。主要从事试验设计，抽样理论以及相关的统计应用研究工作。在《Journal of the American Statistical Association》《Computational Statistics & Data Analysis》《Statistica Sinica》《Journal of Statistical Planning and Inference》等统计学权威期刊发表了多篇高水平学术论文。

北理工在大数据最优抽样取得研究成果

最新新闻