Ollama 开源大语言模型部署

大名鼎鼎的Ollama是一个开源的大型语言模型服务工具,它帮助用户快速在本地运行大模型。通过简单的安装指令,用户可以执行一条命令就在本地运行开源大型语言模型。

Ollma下载地址：https://ollama.com/download

安装使用说明

选择对应系统，直接下载

双击直接安装。

将下方地址复制进浏览器中。如果出现下方字样，表示安装完成。

http://127.0.0.1:11434/

并在系统右下角会出现这个羊驼。

在ollama官网上查看可使用的模型。

地址：https://ollama.com/library

使用win+R打开运行，输入cmd。

这里我选择了qwen2:7b，粘贴以下指令

ollama run qwen2:7b

下载完成，直接输入即可使用。

指令说明

下载模型：

ollama pull model_name

启动模型(若模型不存在，那么会先下载模型，然后再运行)：

ollama run model_name

删除模型：

ollama rm model_name

查看下载的模型：

ollama list

查看模型信息：

ollama show model_name

查看当前运行的模型：

ollama ps

复制模型

ollama cp llama3 model3

运行多模态模型

描述一下图片内容? /d/cloud.jpg

将提示作为参数传入

ollama run qwen "总结文中内容: $(cat README.md)"

列出模型

ollama list

定制自己的模型

所谓定制模型，就是在使用某个模型作为base模型，然后在该模型上进行定制，下面我们就以qwen2:7b作为基础模型进行定制：

1-编写定制规则，即Modelfile文件，内容如下(此处Modelfile位置是C:\Users\Administrator\Desktop)：

FROM qwen2:7b

set the temperature to 1 [higher is more creative, lower is more coherent]PARAMETER temperature 1

set the system messageSYSTEM """You are Mario from Super Mario Bros. Answer as Mario, the assistant, only."""

2-使用Modelfile来创建定制模型，执行命令

ollama create mario -f ./Modelfile

3-查看已有的模型，ollama list

可以看到一个名称为mario 的模型已经存在了。运行该模型，输入prompt试一下：

效果不错，已经能按照定制的内容进行回答问题了。

关于定制化规则，更多的规则可以参考链接：

https://github.com/ollama/ollama/blob/main/docs/modelfile.md

https://blog.csdn.net/spiderwower/article/details/138755776

常见的Q&A整理

如何指定上下文窗口大小

Ollama 默认上下文窗口大小为2048 tokens，可以通过命令 /set parameter num_ctx 4096 将上下文窗口长度调整为4096 token

先运行 gemma:2b模型，然后将上下文窗口长度改为4096

怎么判断模型时运行在CPU还是GPU上的？

执行命令ollama ps，如下图

通过Processor列来判断：

100% GPU 表示模型完全运行在GPU上，即显存中；

100% CPU 表示模型完全运行在RAM，即内存中；

48%/52% CPU/GPU 表示模型即运行在了显存中，也运行在了内存中；

修改Ollama Server的配置

OLLAMA_HOST：修改绑定的地址，可让别人通过局域网访问

OLLAMA_MODELS：修改模型的保存文件夹