Windows 下 Ollama 的安装与配置

Ollama的默认安装路径为：C:\Program Files\Ollama，如需指定其他安装路径（例如 D:\Ollama），请以管理员身份打开 CMD / PowerShell，执行以下命令：

.\OllamaSetup.exe /DIR="D:\ollama"

修改环境变量，在“新建系统变量”窗口中，输入变量名OLLAMA_MODELS，变量值为希望的模型存储路径（例如 D:\AI_Models）。

1、CUDA 环境配置

参数	值/作用说明	示例值
CUDA_PATH	CUDA Toolkit安装路径	C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6
CUDA_PATH_V12_6	CUDA 12.6专用路径	同上
CUDA_VISIBLE_DEVICES	指定可见GPU设备（通过 nvidia-smi 查询 ID）	0,1（启用GPU 0和1）

2、Ollama 环境配置

环境与变量	功能说明
OLLAMA_MODELS	表示模型文件的存放目录，默认目录为当前用户目录即 C:\Users%username%.ollama\models
OLLAMA_HOST	表示 Ollama 服务监听的网络地址，默认为127.0.0.1，如果想要允许其他电脑访问 Ollama（如局域网中的其他电脑），建议设置成 0.0.0.0
OLLAMA_PORT	表示 Ollama 服务监听的默认端口，默认为11434，如果端口有冲突，可以修改设置成其他端口（如8080等）
OLLAMA_ORIGINS	表示 HTTP 客户端的请求来源，使用半角逗号分隔列表，如果本地使用不受限制，可以设置成星号 *
OLLAMA_MAX_QUEUE	表示请求队列长度，默认值为512，建议按照实际需求进行调整，超过队列长度的请求会被抛弃
OLLAMA_DEBUG	表示输出 Debug 日志，应用研发阶段可以设置成1 （即输出详细日志信息，便于排查问题）
OLLAMA_MAX_LOADED_MODELS	表示最多同时加载到内存中模型的数量，默认为1 （即只能有 1 个模型在内存中）

1、GPU 资源管理

环境变量	功能说明	推荐值
OLLAMA_GPU_LAYER	强制使用CUDA分配GPU资源	cuda
OLLAMA_NUM_GPU	启用GPU数量（需与`CUDA_VISIBLE_DEVICES`匹配）	2
OLLAMA_SCHED_SPREAD	GPU负载均衡策略（1=自动均衡）	1
OLLAMA_MAX_LOADED_MODELS	单GPU最大加载模型数（防止显存溢出）	3

2、服务与并发控制

参数	功能说明	推荐值
OLLAMA_HOST	表示 Ollama 服务监听的网络地址，默认为127.0.0.1，如果想要允许其他电脑访问 Ollama（如局域网中的其他电脑），建议设置成 0.0.0.0 = 允许所有IP访问	0.0.0.0
LLAMA_NUM_PARALLEL	表示请求处理的并发数量，默认为 1（即单并发串行处理请求，根据 GPU 算力调整）	3
OLLAMA_KEEP_ALIVE	表示大模型加载到内存中后的存活时间，默认为 5m 即 5 分钟（如纯数字300 代表 300 秒，0 代表处理请求响应后立即卸载模型。模型驻留时间（`-1`=永久驻留显存，避免重复加载）	-1

Web3 AI