活动新闻
人工智能研究院译著《Python机器学习实践》发布
《Python机器学习实践》是人工智能研究院今年以来发布的第二部译著,由研究院余卫勇助理教授、刘强教授翻译,机械工业出版社出版。该书在北京市教委的大力支持下面世,全面介绍机器学习的核心技术和实现方法。
本书通过大量基于Python的案例,详细的注释和图解,帮助读者掌握常用的机器学习方法,以便他们能更好地处理实际问题。对所有想要在数据科学和智能分析任务中使用机器学习的专业人员来说,本书是一个非常好的选择,本书介绍多个分析模型,并提供相应的Python代码,很多代码都可应用于实际问题。
内容简介
《Python机器学习实践》是关于机器学习这一主题较基础和全面的实践类书籍,适合作为高等院校计算机相关专业高年级本科生和研究生机器学习课程的教材。全书共分4章和一个附录,涵盖数据预处理、线性模型、核模型、集成方法、自然语言处理和深度学习等。作者对来自统计学、模式识别、神经网络、人工智能、控制和数据挖掘等不同领域的机器学习问题和学习方法进行了统一论述。
书籍的具体结构如下:在第 1章中,我们将描述机器学习算法遵循的标准流程:我们将涵盖标准预处理和更高级的技术,例如用于降维的 PCA,并尝试理解偏差之间的基本关系和机器学习的方差。在第 2 章中,读者将了解机器学习中的一个关键概念:收缩。此外,还介绍了分类和回归,首先介绍逻辑回归模型,然后介绍支持向量机,这是当数据线性可分时使用的两个分类器。在第 3 章中,我们将介绍最流行的机器学习技术之一,即集成方法,从随机森林到梯度提升以及相应的应用。在第 4 章,简单讨论了一下机器学习的两个主要领域:自然语言处理和深度学习。
本书内容覆盖面广,大部分算法都有简洁、现成的Python源代码,读者朋友可以轻松地进行验证。以此为原型,再稍加修改扩充,即可做出为自己所用的项目代码。为了方便基础薄弱的读者阅读,作者还还在附录 A 中添加了 Python 速成课程:这不仅旨在涵盖基础知识,而且还将向读者介绍更广泛的概念。
本书的侧重点不在于机器学习原理的相关推导,而在于结论的分析和应用。读者朋友可以更快地掌握各种算法的特点和使用方法,而不必拘泥于算法的细节不能自拔。另外,本书结合大量图片,范例实用丰富,深入浅出地说明了机器学习中最典型和用途最广泛的算法。
编辑推荐
Python是机器学习中使用最广泛的语言,本书提供了大量的基于python的机器学习实战案例,内容很丰富,代码讲解清晰,适合初学入门。
目录
第1章 机器学习初步
1.1 一个简单的监督模型:最近邻法
1.1.1 交叉验证调整超参
1.2 数据预处理
1.2.1 数据放缩
1.2.2 数据高斯化:幂变换简介
1.2.3 类别变量的处理
1.2.4 缺失值的处理
1.3 不平衡数据的处理方法
1.3.1 少数类的随机过采样
1.3.2 多数类的随机欠采样
1.3.3 合成数据过采样:SMOTE
1.4 降维:主成分分析
1.4.1 PCA
1.4.2 特征提取
1.4.3 非线性流形算法:t-SNE
第2章 机器学习线性模型
2.1 线性回归
2.2 收缩方法
2.2.1 Ridge回归(L2正则化)
2.2.2 Lasso回归(L1正则化)
2.2.3 弹性网络回归
2.3 稳健回归
2.3.1 Huber回归
2.3.2 RANSAC
2.4 Logistic回归
2.4.1 Logistic回归为什么是线性的?
2.4.2 Logistic回归预测(原始模型输出)与概率 (Sigmoid 输出)
2.4.3 Python Logistic回归
2.4.4 模型性能评估
2.4.5正则化
2.5 线性支持向量机
2.6 逾越线性:核模型
2.6.1 核技巧
2.6.2 实际分类例子:人脸识别
第3章 逾越线性:机器学习集成方法
3.1 引言
3.2 集成方法
3.2.1 自举聚合
3.2.2 包外估计(Out-of-Bag Estimation)
3.3 随机森林
3.3.1 随机森林分类
3.3.2 随机森林回归
3.4 提升(Boosting)方法
3.4.1 AdaBoost算法
3.4.2 梯度提升(Gradient Boosting)算法
3.4.3 极端梯度提升算法(XGBoost)
3.4.4 CatBoost算法
第4章 现代机器学习技术
4.1 自然语言处理初步
4.1.1 文本数据预处理
4.1.2 文本的数值表示:词袋模型
4.1.3 实际例子:使用IMDB电影评论数据集进行情感分析
4.1.4 单词频率-逆文本频率
4.1.5 n-Grams模型
4.1.6 词嵌入
4.2 深度学习初步
4.2.1 用神经网络处理复杂数据
4.2.2 多分类
附录
A Python速成教程
A.1 Python构建块
A.1.1 变量
A.1.2 方法与函数
A.2 Python数据结构
A.2.1 列表与元组
A.2.2 集合
A.2.3 字典
A.3 Python循环
A.3.1 For循环
A.3.2 While循环
A.4 Python高级数据结构
A.4.1 列表推导式
A.4.2 Lambda函数
A.5 函数概念进阶
A.5.1 通配符在函数参数中的使用
A.5.2 函数中的局部作用域与全局作用域
A.6 面向对象编程简介
A.6.1 对象、类和属性
A.6.2 子类和继承
B 词袋模型的数学原理
作者简介
安德烈·朱萨尼(Andrea Giussani),拥有统计学博士学位,是 Cloud Academy 的数据科学家,曾是意大利博科尼大学计算机科学的学术研究员。他热衷于统计建模和机器学习算法,尤其是解决业务任务,并在Journal of Applied Statistics、Statistics and Probability Letters等同行评审期刊上发表过文章。
译者简介
余卫勇,北京石油化工学院助理教授,山东大学控制科学与控制工程博士,主要研究领域为:分布式优化与控制、布尔网络控制、机器学习与深度学习等。主持中国博士后科学基金1项,北京市教委科研项目1项,参与国家自然科学基金1项。在国内一级/国际期刊上发表了16篇学术论文,其中SCI/EI收录15篇;一作授权专利5项,一作在审专利4项。
刘强,博士,教授,博导,北京石油化工学院人工智能研究院院长,中韩人工智能国际联合研究中心主任、中国科学院计算机网络信息中心-北京石油化工学院人工智能联合实验室联席主任、北京肛肠学会医工结合研究中心主任。曾任职IBM中国研究院、中国电子信息产业集团等,担任研发和科研管理职位。近年来主要从事智能医学装备、智能机器人、人工智能芯片研究,研制成果包括眼科OCT光学相干断层扫描成像仪、眼科超广角眼底彩色照相机、便携式眼科OCT照相机、光声显微成像仪、数字听诊器与肠鸣音分析系统、光谱治疗仪、生物药物智能机器人、医学影像智能分析系统(眼科影像、肠道CT)等,部分设备进入临床应用,发表论文20余篇,专利11项,软件著作权7项。兼任中关村电子商会人工智能专委会秘书长、北京人工智能学会理事、中国石油化工信息学会理事、中国石油化工研究会理事、中国计算机学会人工智能专委会通讯委员。
(编辑:余卫勇 审核:王文通 批准:刘强)