llama.cpp量化模型文件

1. 构建llama.cpp

使用克隆 llama.cpp 存储库

1
git clone https://github.com/ggerganov/llama.cpp
1
2
cd llama.cpp

llama.cpp有我们需要运行的Python脚本,所以我们需要它的依赖项pip install

pip install -r requirements.txt

现在,让我们建立我们的本地llama.cpp

make clean && make all -j

对于任何拥有 nvidia GPU 的机器make clean && LLAMA_CUDA=1 make all -j

2. 获取模型数据

下载开源模型,或者使用自己训练的模型

1
2
git lfs install
git clone https://www.modelscope.cn/qwen/Qwen2-7B.git