只有100页的大模型实践指南


推荐一本只有100页的大模型实践指南书籍:《The Hundred-Page Language Models Book: hands-on with PyTorch》。

本书作者Andriy Burkov拥有人工智能领域的博士学位,其主要研究方向就是自然语言处理NLP,在机器学习领域拥有20年的丰富经验,作者用最短的篇幅,介绍了最基础的语言模型到Transformer架构,方便读者能够更快的理解。

contemporary-abstract-algebra

主要内容:

一、基础知识:预处理(分词、词汇表的构建、embeddings),如何将词汇转换为机器能理解的向量。

二、语言模型:从最简单的N-gram模型讲起,再使用Pytorch实现RNN、LSTM。

三、模型核心:自注意力机制和Transformer。

四、应用实践:编写损失函数,优化器,循环训练,文本生成,预训练,模型微调等模型应用实践方法。

本书总共只有100页,言简意赅,作者希望在最短的时间内教会读者学会如何训练一个大模型,本书理论部分讲得不多,聚集于模型的代码实现,并且选择目前最流行的深度学习框架Pytorch来构建语言模型。

阅读本书,最好有一定的python代码基础,对深度学习也要有基本的了解,很多读者对本书评价较高,称其为最简洁的大语言模型书籍,另外本书还经常霸榜畅销书排名,被翻译成十几种语言,许多大学直接将其做为教材使用。

本书中的代码都公布在github上,支持在Jupyter上直接运行,读者可以自行下载:github.com/aburkov/theLMbook