当前位置: 首页 > news >正文

苏州网站建设设计制作公司怎么样哈尔滨网站建设

苏州网站建设设计制作公司怎么样,哈尔滨网站建设,微信嵌入手机网站,帝国做网站是选择静态还是伪静态以下是 vllm serve 的常见参数说明以及它们的作用: 1. 基本参数 model_tag 说明:用于指定要加载的模型,可以是 Hugging Face 模型仓库中的模型名称,也可以是本地路径。示例:vllm serve "gpt-neo-2.7B"--co…

以下是 vllm serve 的常见参数说明以及它们的作用:


1. 基本参数

model_tag
  • 说明:用于指定要加载的模型,可以是 Hugging Face 模型仓库中的模型名称,也可以是本地路径。
  • 示例
    vllm serve "gpt-neo-2.7B"
    
--config CONFIG
  • 说明:允许从 YAML 配置文件加载参数。适合复杂配置。
  • 示例
    vllm serve "gpt-neo-2.7B" --config /path/to/config.yaml
    
--host HOST--port PORT
  • 说明:设置服务运行的主机地址和端口。
  • 默认值host=127.0.0.1port=8000
  • 示例
    vllm serve "gpt-neo-2.7B" --host 0.0.0.0 --port 8080
    

2. 模型加载与优化

--tensor-parallel-size
  • 说明:设置 Tensor 并行的数量(多 GPU 分布式推理)。
  • 示例
    --tensor-parallel-size 8
    
--cpu-offload-gb
  • 说明:允许将部分模型权重或中间结果卸载到 CPU 内存中,模拟 GPU 内存扩展。
  • 默认值0(禁用 CPU 卸载)。
  • 示例
    --cpu-offload-gb 128
    
--gpu-memory-utilization
  • 说明:指定 GPU 内存利用率,值为 0-1 的小数。
  • 默认值0.9
  • 示例
    --gpu-memory-utilization 0.8
    
--max-model-len
  • 说明:模型的最大上下文长度(序列长度)。
  • 示例
    --max-model-len 16384
    
--max-num-batched-tokens
  • 说明:每批次处理的最大 token 数量。适用于优化吞吐量。
  • 示例
    --max-num-batched-tokens 60000
    
--dtype
  • 说明:设置数据类型,通常用于控制权重和激活值的精度。
    • float32:32位浮点数(精确但消耗内存)。
    • float16:16位浮点数(推荐)。
    • bfloat16:16位浮点数(适合 NVIDIA A100 等设备)。
  • 示例
    --dtype float16
    

3. 日志与调试

--uvicorn-log-level
  • 说明:控制 uvicorn Web 服务器的日志级别。
  • 选项debug, info, warning, error, critical, trace
  • 示例
    --uvicorn-log-level debug
    
--disable-log-stats
  • 说明:禁用统计日志,减少性能开销。
  • 示例
    --disable-log-stats
    
--disable-log-requests
  • 说明:禁用请求的日志记录。
  • 示例
    --disable-log-requests
    

4. 分布式设置

--distributed-executor-backend
  • 说明:设置分布式推理的执行后端。
  • 选项ray, mp(多进程)
  • 默认值ray(如果安装了 Ray)
  • 示例
    --distributed-executor-backend ray
    
--pipeline-parallel-size
  • 说明:设置流水线并行的阶段数量。
  • 示例
    --pipeline-parallel-size 4
    

5. 前端与安全

--api-key
  • 说明:启用 API 访问控制,客户端需提供此密钥。
  • 示例
    --api-key my_secure_api_key
    
--ssl-keyfile--ssl-certfile
  • 说明:配置 HTTPS 证书,启用安全通信。
  • 示例
    --ssl-keyfile /path/to/keyfile.pem --ssl-certfile /path/to/certfile.pem
    
--disable-fastapi-docs
  • 说明:禁用 FastAPI 的 OpenAPI 文档(Swagger UI)。
  • 示例
    --disable-fastapi-docs
    

6. 调度与优化

--swap-space
  • 说明:每个 GPU 的 CPU 换页空间(GiB)。
  • 示例
    --swap-space 8
    
--max-num-seqs
  • 说明:每次迭代的最大序列数量,适合控制吞吐量。
  • 示例
    --max-num-seqs 16
    
--enable-prefix-caching
  • 说明:启用前缀缓存以减少重复计算。
  • 示例
    --enable-prefix-caching
    

7. 特殊用途参数

--quantization
  • 说明:设置量化方法,减少内存占用。
  • 选项
    • bitsandbytes:8位量化(推荐)。
    • fp8:FP8(需要支持 FP8 的设备)。
  • 示例
    --quantization bitsandbytes
    
--enable-lora
  • 说明:启用 LoRA(低秩适配器)功能。
  • 示例
    --enable-lora
    

示例命令

结合以上参数的一个完整示例:

vllm serve "defog/sqlcoder-70b-alpha" \--tensor-parallel-size 8 \--cpu-offload-gb 128 \--gpu-memory-utilization 0.9 \--max-model-len 16384 \--max-num-batched-tokens 60000 \--uvicorn-log-level debug

如需进一步调整,请参阅 vLLM 官方文档。

http://www.wangmingla.cn/news/64466.html

相关文章:

  • 深圳做模板网站免费网站推广优化
  • 网站建设招标书范本怎么在百度上做推广
  • 大学物流仓储作业代做网站中国2022年重大新闻
  • dreamweaver教程做网站东莞做一个企业网站
  • 平谷建站推广做电商一个月能挣多少钱
  • 提示网站建设页面必应搜索国际版
  • 网站底部的备案信息武汉最新消息今天
  • 烟台汽车租赁网站建设宁波seo企业网络推广
  • 昌平做网站公司查网站流量查询工具
  • 如何从零开始做网站软文是什么意思通俗点
  • 红酒网页设计图片seo外链资源
  • 做网站网址福州网seo
  • 六一儿童节网站制作天津seo建站
  • 西安网站建设系统开发网络推广方法有几种
  • 手风琴网站模板优化电池充电什么意思
  • 中文网站建设个人如何做seo推广
  • 汕头网站推广系统排名优化培训
  • 设计网站推荐papp拉新一手渠道商
  • 昆明制作企业网站杭州上城区抖音seo如何
  • wordpress做的视听网站长沙专业网络推广公司
  • wordpress博客文章美化昆明seo推广外包
  • 四川企业网站开发企业网站模板源码
  • 湖南网站建设哪家好百度快照优化推广
  • php网站模板 下载安徽百度seo公司
  • 网站建设与实践模板广东深圳疫情最新消息
  • 宝鸡seo百度的seo关键词优化怎么弄
  • 男生做污污的网站成品网站货源1
  • 上海网站建设费用多少钱seo百度关键词优化
  • 哪个网站做简历seo数据是什么意思
  • 甘肃网站seo推广百度指数只能查90天吗