《集成学习的关键技术研究》

点击下载 ⇩

随着Internet的快速发展,智能化是软件新技术发展的重要趋势,而实现智能化的重要途径之一是机器学习。2001年,美国航空航天局JPL实验室的科学家在《Science》上撰文指出,机器学习对科学研究的整个过程正起到越来越大的支持作用,并预计该领域将取得稳定而快速的发展;2003年,美国国防部高级研究计划局(DARPA)开始启动了以机器学习为核心的PAL计划,将机器学习技术的重要性上升到国家安全的高度,5年总投资超过1亿美元,参加单位几乎囊括了美国在计算机科学技术方面有较强实力的绝大多数单位;2006年,美国CMU专门成立了机器学习系。上述情况表明,机器学习已经成为计算机科学技术中最受关注的研究领域之一。机器学习所关注的一个根本问题就是如何提高学习系统的泛化能力。集成学习(ensemble learning)可以显著提高学习系统的泛化能力,因此曾被国际机器学习界权威学者Dietterich在《AI Magazine》上列为机器学习四大研究方向之首。近五年来课题组以提高泛化能力这一根本问题为出发点,对集成学习进行了系统性的研究。提出了选择性集成框架并证明了“many could be better than all”定理,揭示了通过增加学习器的数目来提高泛化能力未必可取,在该基础上设计了新型算法。针对集成学习技术中普遍存在的可理解性较差这一关键问题,提出了改善集成可理解性的方法,并在该基础上发展出了泛化能力和可理解性都比较好的学习方法。以扩展集成学习技术的适用范围为主线,针对现有技术对稳定基学习器的失效性,提出了有效的稳定基学习器集成方法;针对现有技术对大量有标记样本的依赖性,提出了可以有效利用未标记样本的集成学习方法等。该外,还对集成学习技术的应用进行了探讨。

  1. 下载详细PDF版/Doc版

提示:为方便大家复制编辑,博主已将PDF文件制作为Word/Doc格式文件。