首页 » Web前端 » php模子怎么用技巧_马斯克开源大年夜模型Grok1手把手教你若何运用

php模子怎么用技巧_马斯克开源大年夜模型Grok1手把手教你若何运用

duote123 2024-12-13 0

扫一扫用手机浏览

文章目录 [+]

GitHub链接:https://github.com/xai-org/grok-1



php模子怎么用技巧_马斯克开源大年夜模型Grok1手把手教你若何运用

居然短短一天就有29k的star!

php模子怎么用技巧_马斯克开源大年夜模型Grok1手把手教你若何运用
(图片来自网络侵删)

Grok-1的模型参数:

•Parameters: 314B

•Architecture: Mixture of 8 Experts (MoE)

•Experts Utilization: 2 experts used per token

•Layers: 64

•Attention Heads: 48 for queries, 8 for keys/values

•Embedding Size: 6,144

•Tokenization: SentencePiece tokenizer with 131,072 tokens

•Additional Features: Rotary embeddings (RoPE)

•Supports activation sharding and 8-bit quantization

•Maximum Sequence Length (context): 8,192 tokens

第一步:下载模型权重

用户须要确保先下载 checkpoint,并将 ckpt-0 目录放置在 checkpoint 中。

模型权重约为 296.38 GB,如下图,要把稳自己磁盘的容量



有下面两种下载方法

1.可以利用 torrent 客户端和此磁力链接下载权重

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

2. 直策应用HuggingFace

链接 https://huggingface.co/xai-org/grok-1

HuggingFace上面有很多预演习模型(如GPT,BERT),也有很多数据集,十分强大 ,推举大家利用

实行下面的代码

git clone https://github.com/xai-org/grok-1.git && cd grok-1pip install huggingface_hub[hf_transfer]huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/ --local-dir checkpoints --local-dir-use-symlinks False第二步:运行大模型

安装依赖环境,实行代码

pip install -r requirements.txt

requirements.txt的文件内容:

dm_haiku==0.0.12jax[cuda12_pip]==0.4.25 -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.htmlnumpy==1.26.4sentencepiece==0.2.0

然后实行代码

python run.py把稳:硬件哀求多大呢?

由于模型规模较大(314B参数),须要有足够GPU、内存的机器才能利用示例代码测试模型。

那详细须要多大呢?

这个也是提的比较多的问题,有人给出了回答,但暂时未确认

由于由于the mesh shape assertion(1, 8),因此须要 8 个 GPU。
要以本机大小运行,您可能须要 8x80GB GPU (A100 80GB / H100GB)。



详见issue:https://github.com/xai-org/grok-1/issues/62

随意马虎涌现的问题

大家碰着比较多的是下载问题,比如种子无法下载



还有硬件资源的问题,毕竟须要的gpu和内存太高了,对付个人来说本钱太高了,个人没法玩了啊



标签:

相关文章

php写爬虫效力技巧_PHP爬虫编写

PHP(外文名:PHP: Hypertext Preprocessor,中文名:“超文本预处理器”)是一种通用开源脚本措辞。语法接...

Web前端 2024-12-15 阅读0 评论0