当前位置:返回首页

Karpathy4小时AI大课上线小白看了都会从零构建GPT-2

日期：2024-06-13 来源：原创/投稿/转载浏览次数：67

　　距上次Karpathy AI大课更新之后，又有了1个多月的时间。这次他带了超详细的4小时课程——从零开始实现1.24亿参数规模的GPT-2模型。

　　翻看以往Zero To Hero系列中的视频，最长的也不过2小时25分，这次4小时完全创下了最新记录。

　　Karpathy表示，这次「过夜」的训练结果，表现甚至接近GPT-3（124M）模型的水平。

　　之所以选择这一参数，要清楚的是，GPT-2在发布前会有一个小系列（miniseries），其中有4种参数，而最大的那个称为GPT-2。

　　另外，你可以将模型放在X轴上，各种下游指标放在Y轴上，便可以画出Sacling Law定律的曲线。基本上，随着模型规模扩大，下游任务性能越好。

　　GPT-2发布已经是5年前的事了，而现在复现容易得很多，对GPU计算需求没那么大，大概需要1个小时，10美元的成本。

　　Karpathy表示，自己训练模型的GPU来自Lambda GPU Cloud，因为他认为这是在云中按需启动GPU实例的最佳和最简单的方法。

　　如下是，GPT-2模型内部不同的参数和形状，W token嵌入的权重大小是50257, 768。

关键字：

上一篇：要么以一种高能量效率的方式移动下一篇：自己交社保怎样交？自己交社保一个月多少钱？2022社保费用明细

推荐阅读

本网转载作品的目的在于传递更多信息，涉及作品内容、

版权等问题，请联系我们进行修改或删除！

欢迎访问！