作 者:阿斯顿·张 等 著 何孝霆,瑞潮儿·胡 译
定 价:109.8
出 版 社:人民邮电出版社
出版日期:2023年02月01日
页 数:604
装 帧:平装
ISBN:9787115600820
·深度学习领域重磅作品《动手学深度学习》重磅推出PyTorch版本; ·李沐、阿斯顿·张等大咖作者强强联合,精心编撰; ·全球400多所大学采用的教科书,提供视频课程、教学PPT、习题,方便教师授课与学生自学; ·能运行、可讨论的深度学习入门书,可在线运行源码并与作译者实时讨论。
●对本书的赞誉
前言
译者简介
学习环境配置
资源与支持
主要符号表
第1章引言1
1.1日常生活中的机器学习2
1.2机器学习中的关键组件3
1.2.1数据3
1.2.2模型4
1.2.3目标函数4
1.2.4优化算法5
1.3各种机器学习问题5
1.3.1监督学习5
1.3.2无监督学习11
1.3.3与环境互动11
1.3.4强化学习12
1.4起源13
1.5深度学习的发展15
1.6深度学习的成功案例16
1.7特点17
第2章预备知识20
2.1数据操作20
2.1.1入门21
2.1.2运算符22
2.1.3广播机制23
2.1.4索引和切片24
2.1.5节省内存24
2.1.6转换为其他Python对象25
2.2数据预处理26
2.2.1读取数据集26
2.2.2处理缺失值26
2.2.3转换为张量格式27
2.3线性代数27
2.3.1标量28
2.3.2向量28
2.3.3矩阵29
2.3.4张量30
2.3.5张量算法的基本性质31
2.3.6降维32
2.3.7点积33
2.3.8矩阵-向量积33
2.3.9矩阵-矩阵乘法34
2.3.10范数35
2.3.11关于线性代数的更多信息36
2.4微积分37
2.4.1导数和微分37
2.4.2偏导数40
2.4.3梯度41
2.4.4链式法则41
2.5自动微分42
2.5.1一个简单的例子42
2.5.2非标量变量的反向传播43
2.5.3分离计算43
2.5.4Python控制流的梯度计算44
2.6概率44
2.6.1基本概率论45
2.6.2处理多个随机变量48
2.6.3期望和方差50
2.7查阅文档51
2.7.1查找模块中的所有函数和类51
2.7.2查找特定函数和类的用法52
第3章线性神经网络54
3.1线性回归54
3.1.1线性回归的基本元素54
3.1.2向量化加速57
3.1.3正态分布与平方损失58
3.1.4从线性回归到深度网络60
3.2线性回归的从零开始实现61
3.2.1生成数据集62
3.2.2读取数据集63
3.2.3初始化模型参数63
3.2.4定义模型64
3.2.5定义损失函数64
3.2.6定义优化算法64
3.2.7训练64
3.3线性回归的简洁实现66
3.3.1生成数据集66
3.3.2读取数据集66
3.3.3定义模型67
3.3.4初始化模型参数67
3.3.5定义损失函数68
3.3.6定义优化算法68
3.3.7训练68
3.4softmax回归69
3.4.1分类问题69
3.4.2网络架构70
3.4.3全连接层的参数开销70
3.4.4softmax运算71
3.4.5小批量样本的向量化71
3.4.6损失函数72
3.4.7信息论基础73
3.4.8模型预测和评估74
3.5图像分类数据集74
3.5.1读取数据集75
3.5.2读取小批量76
3.5.3整合所有组件76
3.6softmax回归的从零开始实现77
3.6.1初始化模型参数77
3.6.2定义softmax操作78
3.6.3定义模型78
3.6.4定义损失函数79
3.6.5分类精度79
3.6.6训练80
3.6.7预测82
3.7softmax回归的简洁实现83
3.7.1初始化模型参数83
3.7.2重新审视softmax的实现84
3.7.3优化算法84
3.7.4训练84
第4章多层感知机86
4.1多层感知机86
4.2多层感知机的从零开始实现92
4.3多层感知机的简洁实现94
模型94
4.4模型选择、欠拟合和过拟合95
4.5权重衰减103
4.6暂退法108
4.7前向传播、反向传播和计算图112
4.8数值稳定性和模型初始化115
4.9环境和分布偏移119
4.10实战Kale比赛:预测房价127
第5章深度学习计算136
5.1层和块136
5.2参数管理141
5.3延后初始化145
实例化网络146
5.4自定义层146
5.5读写文件148
5.6PU150
第6章卷积神经网络155
6.1从全连接层到卷积155
6.2图像卷积159
6.3填充和步幅164
6.4多输入多输出通道166
6.5汇聚层170
6.6卷积神经网络(LeNet)173
第7章现代卷积神经网络178
7.1深度卷积神经网络(AlexNet)178
7.2使用块的网络(V)184
7.3网络中的网络(NiN)187
7.4含并行连接的网络(ooLeNet)190
7.5批量规范化194
7.6残差网络(ResNet)200
7.7稠密连接网络(DenseNet)205
第8章循环神经网络209
8.1序列模型209
8.2文本预处理216
8.3语言模型和数据集219
8.4循环神经网络226
8.5循环神经网络的从零开始实现230
8.6循环神经网络的简洁实现237
8.7通过时间反向传播239
第9章现代循环神经网络244
9.1门控循环单元(RU)244
9.2长短期记忆网络(LSTM)249
9.3深度循环神经网络254
9.4双向循环神经网络256
9.5机器翻译与数据集260
9.6编码器-解码器架构265
9.7序列到序列学习(seq2seq)267
9.8束搜索275
第10章注意力机制278
10.1注意力提示278
10.2注意力汇聚:Nadaraya-Watson核回归281
10.3注意力评分函数287
10.4Bahdanau注意力291
10.5多头注意力295
10.6自注意力和位置编码298
10.7Transformer302
第11章优化算法311
11.1优化和深度学习311
11.2凸性315
11.3梯度下降322
11.4随机梯度下降329
11.5小批量随机梯度下降334
11.6动量法341
11.7Adarad算法348
11.8RMSProp算法353
11.9Adadelta算法356
11.10Adam算法358
11.11学习率调度器361
第12章计算性能369
12.1编译器和解释器369
12.2异步计算372
通过后端异步处理373
12.3自动并行375
12.4硬件378
12.5多PU训练388
12.6多PU的简洁实现394
12.7参数服务器397
第13章计算机视觉404
13.1图像增广404
13.2微调410
13.3目标检测和边界框415
13.4锚框417
13.5多尺度目标检测427
13.6目标检测数据集430
13.7单发多框检测(SSD)433
13.8区域卷积神经网络(R-CNN)系列441
13.9语义分割和数据集445
13.10转置卷积450
13.11全卷积网络453
13.12风格迁移458
13.13实战Kale竞赛:图像分类(CIFAR-10)464
13.14实战Kale竞赛:狗的品种识别(ImaeNetDos)470
第14章自然语言处理:预训练476
14.1词嵌入(word2vec)477
14.2近似训练480
14.3用于预训练词嵌入的数据集482
14.4预训练word2vec488
14.5全局向量的词嵌入(GloVe)491
14.6子词嵌入494
14.7词的相似度和类比任务497
14.8来自Transformer的双向编码器表示(BERT)500
14.9用于预训练BERT的数据集507
14.10预训练BERT512
第15章自然语言处理:应用515
15.1情感分析及数据集516
15.2情感分析:使用循环神经网络518
15.3情感分析:使用卷积神经网络521
15.4自然语言推断与数据集526
15.5自然语言推断:使用注意力530
15.6针对序列级和词元级应用微调BERT535
15.7自然语言推断:微调BERT538
附录A深度学习工具543
A.1使用Jupyter记事本543
A.1.1在本地编辑和运行代码543
A.1.2高级选项545
A.2使用 SaeMaker546
A.2.1注册547
A.2.2创建SaeMaker实例547
A.2.3运行和停止实例548
A.2.4更新Notebook548
A.3使用 EC2实例549
A.3.1创建和运行EC2实例549
A.3.2安装CUDA553
A.3.3安装库以运行代码553
A.3.4远程运行Jupyter记事本554
A.3.5关闭未使用的实例554
A.4选择服务器和PU555
A.4.1选择服务器555
A.4.2选择PU556
A.5为本书做贡献558
A.5.1提交微小更改558
A.5.2大量文本或代码修改559
A.5.3提交主要更改559
参考文献562
前言
译者简介
学习环境配置
资源与支持
主要符号表
第1章引言1
1.1日常生活中的机器学习2
1.2机器学习中的关键组件3
1.2.1数据3
1.2.2模型4
1.2.3目标函数4
1.2.4优化算法5
1.3各种机器学习问题5
1.3.1监督学习5
1.3.2无监督学习11
1.3.3与环境互动11
1.3.4强化学习12
1.4起源13
1.5深度学习的发展15
1.6深度学习的成功案例16
1.7特点17
第2章预备知识20
2.1数据操作20
2.1.1入门21
2.1.2运算符22
2.1.3广播机制23
2.1.4索引和切片24
2.1.5节省内存24
2.1.6转换为其他Python对象25
2.2数据预处理26
2.2.1读取数据集26
2.2.2处理缺失值26
2.2.3转换为张量格式27
2.3线性代数27
2.3.1标量28
2.3.2向量28
2.3.3矩阵29
2.3.4张量30
2.3.5张量算法的基本性质31
2.3.6降维32
2.3.7点积33
2.3.8矩阵-向量积33
2.3.9矩阵-矩阵乘法34
2.3.10范数35
2.3.11关于线性代数的更多信息36
2.4微积分37
2.4.1导数和微分37
2.4.2偏导数40
2.4.3梯度41
2.4.4链式法则41
2.5自动微分42
2.5.1一个简单的例子42
2.5.2非标量变量的反向传播43
2.5.3分离计算43
2.5.4Python控制流的梯度计算44
2.6概率44
2.6.1基本概率论45
2.6.2处理多个随机变量48
2.6.3期望和方差50
2.7查阅文档51
2.7.1查找模块中的所有函数和类51
2.7.2查找特定函数和类的用法52
第3章线性神经网络54
3.1线性回归54
3.1.1线性回归的基本元素54
3.1.2向量化加速57
3.1.3正态分布与平方损失58
3.1.4从线性回归到深度网络60
3.2线性回归的从零开始实现61
3.2.1生成数据集62
3.2.2读取数据集63
3.2.3初始化模型参数63
3.2.4定义模型64
3.2.5定义损失函数64
3.2.6定义优化算法64
3.2.7训练64
3.3线性回归的简洁实现66
3.3.1生成数据集66
3.3.2读取数据集66
3.3.3定义模型67
3.3.4初始化模型参数67
3.3.5定义损失函数68
3.3.6定义优化算法68
3.3.7训练68
3.4softmax回归69
3.4.1分类问题69
3.4.2网络架构70
3.4.3全连接层的参数开销70
3.4.4softmax运算71
3.4.5小批量样本的向量化71
3.4.6损失函数72
3.4.7信息论基础73
3.4.8模型预测和评估74
3.5图像分类数据集74
3.5.1读取数据集75
3.5.2读取小批量76
3.5.3整合所有组件76
3.6softmax回归的从零开始实现77
3.6.1初始化模型参数77
3.6.2定义softmax操作78
3.6.3定义模型78
3.6.4定义损失函数79
3.6.5分类精度79
3.6.6训练80
3.6.7预测82
3.7softmax回归的简洁实现83
3.7.1初始化模型参数83
3.7.2重新审视softmax的实现84
3.7.3优化算法84
3.7.4训练84
第4章多层感知机86
4.1多层感知机86
4.2多层感知机的从零开始实现92
4.3多层感知机的简洁实现94
模型94
4.4模型选择、欠拟合和过拟合95
4.5权重衰减103
4.6暂退法108
4.7前向传播、反向传播和计算图112
4.8数值稳定性和模型初始化115
4.9环境和分布偏移119
4.10实战Kale比赛:预测房价127
第5章深度学习计算136
5.1层和块136
5.2参数管理141
5.3延后初始化145
实例化网络146
5.4自定义层146
5.5读写文件148
5.6PU150
第6章卷积神经网络155
6.1从全连接层到卷积155
6.2图像卷积159
6.3填充和步幅164
6.4多输入多输出通道166
6.5汇聚层170
6.6卷积神经网络(LeNet)173
第7章现代卷积神经网络178
7.1深度卷积神经网络(AlexNet)178
7.2使用块的网络(V)184
7.3网络中的网络(NiN)187
7.4含并行连接的网络(ooLeNet)190
7.5批量规范化194
7.6残差网络(ResNet)200
7.7稠密连接网络(DenseNet)205
第8章循环神经网络209
8.1序列模型209
8.2文本预处理216
8.3语言模型和数据集219
8.4循环神经网络226
8.5循环神经网络的从零开始实现230
8.6循环神经网络的简洁实现237
8.7通过时间反向传播239
第9章现代循环神经网络244
9.1门控循环单元(RU)244
9.2长短期记忆网络(LSTM)249
9.3深度循环神经网络254
9.4双向循环神经网络256
9.5机器翻译与数据集260
9.6编码器-解码器架构265
9.7序列到序列学习(seq2seq)267
9.8束搜索275
第10章注意力机制278
10.1注意力提示278
10.2注意力汇聚:Nadaraya-Watson核回归281
10.3注意力评分函数287
10.4Bahdanau注意力291
10.5多头注意力295
10.6自注意力和位置编码298
10.7Transformer302
第11章优化算法311
11.1优化和深度学习311
11.2凸性315
11.3梯度下降322
11.4随机梯度下降329
11.5小批量随机梯度下降334
11.6动量法341
11.7Adarad算法348
11.8RMSProp算法353
11.9Adadelta算法356
11.10Adam算法358
11.11学习率调度器361
第12章计算性能369
12.1编译器和解释器369
12.2异步计算372
通过后端异步处理373
12.3自动并行375
12.4硬件378
12.5多PU训练388
12.6多PU的简洁实现394
12.7参数服务器397
第13章计算机视觉404
13.1图像增广404
13.2微调410
13.3目标检测和边界框415
13.4锚框417
13.5多尺度目标检测427
13.6目标检测数据集430
13.7单发多框检测(SSD)433
13.8区域卷积神经网络(R-CNN)系列441
13.9语义分割和数据集445
13.10转置卷积450
13.11全卷积网络453
13.12风格迁移458
13.13实战Kale竞赛:图像分类(CIFAR-10)464
13.14实战Kale竞赛:狗的品种识别(ImaeNetDos)470
第14章自然语言处理:预训练476
14.1词嵌入(word2vec)477
14.2近似训练480
14.3用于预训练词嵌入的数据集482
14.4预训练word2vec488
14.5全局向量的词嵌入(GloVe)491
14.6子词嵌入494
14.7词的相似度和类比任务497
14.8来自Transformer的双向编码器表示(BERT)500
14.9用于预训练BERT的数据集507
14.10预训练BERT512
第15章自然语言处理:应用515
15.1情感分析及数据集516
15.2情感分析:使用循环神经网络518
15.3情感分析:使用卷积神经网络521
15.4自然语言推断与数据集526
15.5自然语言推断:使用注意力530
15.6针对序列级和词元级应用微调BERT535
15.7自然语言推断:微调BERT538
附录A深度学习工具543
A.1使用Jupyter记事本543
A.1.1在本地编辑和运行代码543
A.1.2高级选项545
A.2使用 SaeMaker546
A.2.1注册547
A.2.2创建SaeMaker实例547
A.2.3运行和停止实例548
A.2.4更新Notebook548
A.3使用 EC2实例549
A.3.1创建和运行EC2实例549
A.3.2安装CUDA553
A.3.3安装库以运行代码553
A.3.4远程运行Jupyter记事本554
A.3.5关闭未使用的实例554
A.4选择服务器和PU555
A.4.1选择服务器555
A.4.2选择PU556
A.5为本书做贡献558
A.5.1提交微小更改558
A.5.2大量文本或代码修改559
A.5.3提交主要更改559
参考文献562
本书是《动手学深度学习》的重磅升级版本,选用经典的PyTorch深度学习框架,旨在向读者交付更为便捷的有关深度学习的交互式学习体验。
本书重新修订《动手学深度学习》的所有内容,并针对技术的发展,新增注意力机制、预训练等内容。本书包含15章,第一部分介绍深度学习的基础知识和预备知识,并由线性模型引出最简单的神经网络——多层感知机;第二部分阐述深度学习计算的关键组件、卷积神经网络、循环神经网络、注意力机制等大多数现代深度学习应用背后的基本工具;第三部分讨论深度学习中常用的优化算法和影响深度学习计算性能的重要因素,并分别列举深度学习在计算机视觉和自然语言处理中的重要应用。
本书同时覆盖深度学习的方法和实践,主要面向在校大学生、技术人员和研究人员。阅读本书需要读者了解基本的Python编程知识及预备知识中描述的线性代数、微分和概率等基础知识。
本书重新修订《动手学深度学习》的所有内容,并针对技术的发展,新增注意力机制、预训练等内容。本书包含15章,第一部分介绍深度学习的基础知识和预备知识,并由线性模型引出最简单的神经网络——多层感知机;第二部分阐述深度学习计算的关键组件、卷积神经网络、循环神经网络、注意力机制等大多数现代深度学习应用背后的基本工具;第三部分讨论深度学习中常用的优化算法和影响深度学习计算性能的重要因素,并分别列举深度学习在计算机视觉和自然语言处理中的重要应用。
本书同时覆盖深度学习的方法和实践,主要面向在校大学生、技术人员和研究人员。阅读本书需要读者了解基本的Python编程知识及预备知识中描述的线性代数、微分和概率等基础知识。
相关图书
暂无评论...