欢迎访问!

帮助中心 广告联系

热门关键词: 
当前位置:返回首页

  距上次Karpathy AI大课更新之后,又有了1个多月的时间。这次他带了超详细的4小时课程——从零开始实现1.24亿参数规模的GPT-2模型。

  翻看以往Zero To Hero系列中的视频,最长的也不过2小时25分,这次4小时完全创下了最新记录。

  Karpathy表示,这次「过夜」的训练结果,表现甚至接近GPT-3(124M)模型的水平。

  之所以选择这一参数,要清楚的是,GPT-2在发布前会有一个小系列(miniseries),其中有4种参数,而最大的那个称为GPT-2。

  另外,你可以将模型放在X轴上,各种下游指标放在Y轴上,便可以画出Sacling Law定律的曲线。基本上,随着模型规模扩大,下游任务性能越好。

  GPT-2发布已经是5年前的事了,而现在复现容易得很多,对GPU计算需求没那么大,大概需要1个小时,10美元的成本。

  Karpathy表示,自己训练模型的GPU来自Lambda GPU Cloud,因为他认为这是在云中按需启动GPU实例的最佳和最简单的方法。

  如下是,GPT-2模型内部不同的参数和形状,W token嵌入的权重大小是50257, 768。

关键字:
推荐阅读

免责声明

本网转载作品的目的在于传递更多信息,涉及作品内容、

版权等问题,请联系我们进行修改或删除!