×

Windows 下 Ollama 的安装与配置

易水寒 易水寒 发表于2025-05-25 02:23:19 浏览88 评论0

抢沙发发表评论

Ollama.jpg

一、修改默认安装路径

Ollama的默认安装路径为:C:\Program Files\Ollama,如需指定其他安装路径(例如 D:\Ollama),请以管理员身份打开 CMD / PowerShell,执行以下命令:

.\OllamaSetup.exe /DIR="D:\ollama"

二、修改模型存储位置

修改环境变量,在“新建系统变量”窗口中,输入变量名OLLAMA_MODELS,变量值为希望的模型存储路径(例如 D:\AI_Models)。

三、基础环境变量配置

1、CUDA 环境配置

参数值/作用说明示例值
CUDA_PATHCUDA Toolkit安装路径C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6
CUDA_PATH_V12_6CUDA 12.6专用路径同上
CUDA_VISIBLE_DEVICES指定可见GPU设备(通过 nvidia-smi 查询 ID)0,1(启用GPU 0和1)

2、Ollama 环境配置

环境与变量功能说明
OLLAMA_MODELS表示模型文件的存放目录,默认目录为当前用户目录即 C:\Users%username%.ollama\models
OLLAMA_HOST表示 Ollama 服务监听的网络地址,默认为127.0.0.1,如果想要允许其他电脑访问 Ollama(如局域网中的其他电脑),建议设置成 0.0.0.0
OLLAMA_PORT表示 Ollama 服务监听的默认端口,默认为11434,如果端口有冲突,可以修改设置成其他端口(如8080等)
OLLAMA_ORIGINS表示 HTTP 客户端的请求来源,使用半角逗号分隔列表,如果本地使用不受限制,可以设置成星号 *
OLLAMA_MAX_QUEUE表示请求队列长度,默认值为512,建议按照实际需求进行调整,超过队列长度的请求会被抛弃
OLLAMA_DEBUG表示输出 Debug 日志,应用研发阶段可以设置成1 (即输出详细日志信息,便于排查问题)
OLLAMA_MAX_LOADED_MODELS表示最多同时加载到内存中模型的数量,默认为1 (即只能有 1 个模型在内存中)

四、高级环境变量配置

1、GPU 资源管理

环境变量功能说明推荐值
OLLAMA_GPU_LAYER强制使用CUDA分配GPU资源cuda
OLLAMA_NUM_GPU启用GPU数量(需与CUDA_VISIBLE_DEVICES匹配)2
OLLAMA_SCHED_SPREADGPU负载均衡策略(1=自动均衡)1
OLLAMA_MAX_LOADED_MODELS单GPU最大加载模型数(防止显存溢出)3

2、服务与并发控制

参数功能说明推荐值
OLLAMA_HOST表示 Ollama 服务监听的网络地址,默认为127.0.0.1,如果想要允许其他电脑访问 Ollama(如局域网中的其他电脑),建议设置成 0.0.0.0 = 允许所有IP访问0.0.0.0
LLAMA_NUM_PARALLEL表示请求处理的并发数量,默认为 1(即单并发串行处理请求,根据 GPU 算力调整3
OLLAMA_KEEP_ALIVE表示大模型加载到内存中后的存活时间,默认为 5m 即 5 分钟(如纯数字300 代表 300 秒,0 代表处理请求响应后立即卸载模型。模型驻留时间(-1=永久驻留显存,避免重复加载)-1

群贤毕至

访客