保养车哪个网站做的好sem工作原理
OpenCompass 大模型评测
1.关于评测的三个问题
- 为什么需要评测:模型选型、能力提升、应用场景效果测评。
 - 测什么:知识、推理、语言;长文本、智能体、多轮对话、情感、认知、价值观。
 - 怎样测:自动化客观测评、人机交互测评、基于大模型的大模型测评。
 
大模型评测分为主观评测和客观评测

客观评测评测不了时使用主观评测

模型是否对提示词敏感

OpenCompass测评平台

平台架构

评测流水线设计

前沿探索(多模态)

前沿探索(法律领域)

前沿探索(医疗领域)

大模型测评领域的挑战

