查看原文
其他

中文性能赶超GPT4.0,这个国产大模型炸裂问世!

轩辕之风 轩辕的编程宇宙
2024-08-22

大家好,我是轩辕。

最近AI圈子又热闹起来了,不仅OpenAI推出了新模型,咱们国产大模型也是喜报频传。

这不,前几天5月9日,阿里云就甩出了一颗重磅炸弹,通义千问大模型2.5来了!

5月9日,阿里云发布了通义千问2.5,据称性能卓越,尤其中文性能全面赶超GPT4 Turbo,成为目前“最强中文大模型”!

具体来说,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升了9%、16%、19%、10%升,中文能力更是持续领先业界。在权威基准OpenCompass上,通义千问2.5得分追平GPT-4 Turbo,是该基准首次录得国产大模型取得如此出色的成绩。

同时,通义还发布了最新款开源模型:Qwen1.5-110B,参数量高达1100亿!该模型在MMLU、TheoremQA、GPQA等基准测评中超越了Meta前段时间刚刚发布的Llama-3-70B模型,在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上,Qwen1.5-110B直接冲上榜首,充分展示了在开源大模型领域的强势竞争力。

其表现出的能力,连国外很多网友都非常惊讶:

吸引我关注的原因,是它号称全面赶超GPT-4。咱们不看广告看疗效,来实际体验用一下,看看效果究竟怎么样。

既然官网宣称理解能力、逻辑推理、指令遵循、代码能力提升了不少,我决定来测测这几方面的能力,各位搬好小板凳前排围观了。

1、理解能力

首先来看理解能力,看看那个传说中的汉语八级的题目,通义千问能不能Get到全部的意思:

这中文理解能力确实不错,我们再换一题,这道题的难度比上面还要大:

请问下面一句话是什么意思:

女孩给男孩打电话,我们这在电影院门口见面,如果你到了我没到,那你就等着吧,如果我到了你没到,那你就给我等着吧!

这道中文顶级理解题,强如最新发布的ChatGPT4o居然都没领悟出那一层背后的意思:

通义千问不愧是懂汉语的,读出了背后的意思:

再一次感慨,汉语的博大精深啊。

2、逻辑推理

接下来我们来看看通义千问的逻辑推理能力。

逻辑推理,不仅仅是要理解我提交的内容,还要基于内容进行推理分析,就像人脑思考的过程,这是现在大模型人工智能区别于过去传统NLP的人工智障的最基本的区别之一。

比如下面这道经典的烧绳子计时的问题,曾经出现在很多大厂面试题中:

通义千问给出的解答非常细致,步骤也很详实。

再来看一道著名的称球问题,也是面试中经常抠破头的难题:

回答非常nice,清晰简洁。逻辑推理这一块,通义千问也是有两把刷子的,话说以后整个什么智能眼镜,然后把AI装进去,面试什么的再也不用怕了!

3、代码能力

最后,咱们再来看看通义千问在代码方面的能力,广大程序员朋友肯定非常关心这方面的能力,毕竟现在日常工作,基本上都离不开AI来帮我们写代码了。

咱们不写什么冒泡算法那一套,这太简单了,考验不出水平,要整就整点复杂的,最好跟咱们日常工作经常要用到的相关。

C++是所有编程语言里公认的比较难的语言,这第一个题目,就让AI来写一个C++程序。

最近我刚好有这么一个需求,需要用C++编写一个程序遍历所有进程加载的动态链接库模块,如果发现模块文件不存在,就做出告警,这是很多内存木马的惯用套路,注入到某个进程中运行,但磁盘上又没有文件存在。

代码我弄下来试了一下,直接一把编译完成,没有任何问题。

再比如很多Java后端程序开发,需要根据数据进行聚合统计查询,比如这里我让它用Java从我的HTTP服务器请求日志中聚合统计出TOP10的请求IP:

完成的也非常出色。从我实际体验来看,代码这块质量比起之前的版本确实提升巨大,写出的代码可用性非常高。

以上就是我对通义千问2.5版本的体验测试,总体使用下来的感受就是AI大模型进步的实在太快了。去年这个时候,老实说,包括ChatGPT在内的国内外很多大模型,在很多场景下还是挺难用的,最典型的就是理解不了我的问题,答非所问,或者一本正经乱说一通。

而今年,整个生成式AI的发展比起去年明显改善了不少,这其中国内以通义千问为代表的大模型,无论是在参数量级还是实际的表现来看,都进展神速。在某些场景和方向上,说赶超GPT4也绝不是吹牛。

一个好的人工智能,除了厂商训练之外,更重要的就是需要众多的用户参与其中用起来,这样模型的迭代才可以进入良性循环。通义千问2.5目前免费开放中,大家可以来体验一波,为国产大模型的发展一起助力!

通义千问的使用地址放这里啦,大家可以复制到浏览器访问,或者直接戳文末的阅读原文一键直达:

https://tongyi.aliyun.com/qianwen/



继续滑动看下一个
轩辕的编程宇宙
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存