AI大模型排行榜测评网站｜当下什么 AI 最强呢？

核心思路

榜单只是参考，实战才是真理；一切还是要以实际操作为主，如果想找到所谓‘最好’的模型，最有效的办法就是：用你自己的真实需求去多测几次。以而且我始终觉得，学会‘混搭’才是王道。不同的大模型一定有各自的长短板，你需要做的就是把它们利用起来——分清楚哪个适合日常解决轻量级问题，哪个适合放进生产力环境处理做复杂的任务。

站长个人使用

我自己目前使用主力是Gemini3 用于文章分析，调研资料，偶尔也会切换到 Claude 使用，因为速度比较快，以及在文字创作上会比 Gemini强些。

手机上使用是豆包，更像是用来当成”百度“来使用，用来查一些生活小问题，我个人觉的体验感最好的是，给你出答案后，会推荐相关的抖音视频就很方便，这样答案多了一个维度的展示，当然也仅限于查下小问题，我个人是不会用其不到生产力上。

有时候我也会使用 Kimi，来横向对比 Gemini 和 Claude的答案，有时候真会提供不一样的质感的答案（因为主包觉的 kimi 是一家会创造奇迹的大模型公司）。

像在写使用 Cursor 写代码上，主要使用的是 Claude 和 ChatGPT；对了还有在调研一些外网信息的时候，我会使用 Grok，毕竟背靠着X（推特）拥有着大量的活人数据，在了解一些最新信息和舆情讨论上有着天然的优势

还是那句话：没有完美的工具，只有明确的需求

通用大模型榜单

‎‎‎‎‎‎‎SuperCLUE （以中文为主）

优点

被业界广泛引用和认可，算是最权威的中文大模型综合测评平台，提供多维度、定期更新的模型排行榜
网站还提供了多种场景下的排行榜，并且会定期更新，实效强

缺点

因为其过于权威，也是大模型厂商的重点针对刷榜对象

点击进入

Arena（参考价值高）

优点

提供多维度评测，并且是基于真实用户在竞技场模式投票的选出来的排行榜，参考价值高；并且榜单是实时更新排序的
有提供竞技场模式，可以体验免费体验，推荐

缺点

唯一的缺点：需要科学上网

点击进入

Stats（适合开发者）

优点

数据全面性强，支持多模型横向对比，包含价格、速度、性能等多维度数据
适合让开发者和企业用于做选择和决策

缺点

信息密度过高，对普通用户不是很友好

点击进入

图片生成模型榜单

Artificial Analysis

优点

提供独特的投票机制，让用户通过盲测方式比较不同AI图像模型的效果，也就是竞技场功能，大家可以亲自感觉下，同个指令下生成的差别
还提供详细的模型性能数据、API访问和专业报告等

缺点

（待补充）

点击进入

AI大模型排行榜测评网站｜ 当下什么 AI 最强呢？

核心思路

站长个人使用

通用大模型榜单

‎‎‎‎‎‎‎SuperCLUE （以中文为主）

Arena（参考价值高）

Stats（适合开发者）

图片生成模型榜单

Artificial Analysis

发表回复 取消回复

AI大模型排行榜测评网站｜当下什么 AI 最强呢？

发表回复取消回复