对标OpenAI 谷歌推出最强大 AI 模型 Gemini 1.5 Pro

驱动中国5月15日消息 2024年I/O开发者大会上于美国东部时间2024年5月14日13时（北京时间5月15日1时）在加利福尼亚州山景城的海岸线露天剧场隆重开幕。在此活动中，Alphabet向全世界展示了公司最新研发的最小且最高效的人工智能模型。

在周二的大会中，Alphabet推出了Gemini系列人工智能模型的新成员——Gemini 1.5 Flash。这一新模型以其更快的速度、更小的体积和更灵活的部署能力而受到关注，同时它还具备多模态的支持能力。谷歌DeepMind的联合创始人兼首席执行官戴密斯·哈萨比斯表示：“我们听到开发人员的需求，他们期望使用反应更快、成本更低的模型。”与功能更强大的版本一样，Gemini 1.5 Flash能处理大量数据，并在聊天应用、视频和图像字幕方面进行了优化。

随着Alphabet 2024年I/O开发者大会的召开，越来越多的科技公司开始将产品开发和推广的重点转向生成式人工智能领域。这对Alphabet旗下的谷歌公司来说尤为重要，因为与传统的在线搜索相比，新工具为消费者提供了更先进、更具创意的在线信息获取方式。与此同时，OpenAI也在周一推出了新的人工智能模型GPT-4o和桌面版ChatGPT，以及新的用户界面。该公司声称，GPT-4o的反应速度是GPT-4 Turbo的两倍，但成本只有后者的一半。

Alphabet还宣布了对能够处理大量数据的Gemini 1.5 Pro模型的升级，将上下文窗口（即人工智能模型可理解的信息量）从当前的100万tokens增加到200万。这意味着当在一个提示中给出数千页的文本或一个多小时的视频时，Gemini 1.5 Pro能够回答用户的问题。

据负责Gemini项目的谷歌副总裁透露，Gemini 1.5 Pro模型一次性能够理解长达1500页的多个大型文件，或者是对100封电子邮件进行总结。此外，Gemini 1.5 Pro将很快能够处理时长为一小时的视频内容，或超过3万行的代码库。他表示：“面对海量的文件，用户能够很快获取到核心内容，比如弄清楚租赁协议中宠物政策的细节，或者对多篇长篇研究论文的关键论点进行比较。”

OpenAI本周宣布的最新升级，为50种不同语言的ChatGPT带来了更高的质量和响应速度。该公司还表示，将通过OpenAI的应用编程接口（API）提供，允许开发人员立即开始使用新模型构建应用。

Alphabet表示，Gemini 1.5 Pro支持35种语言，并拥有达到200万个tokens的上下文窗口。公司高管表示，新模型提高了局部推理、规划和图像理解能力。Alphabet首席执行官桑德尔·皮查伊称：“Gemini 1.5 Pro提供了迄今为止所有基础模型中最长的上下文窗口。”

Alphabet还表示，Gemini 1.5 Pro首先将在内测实验室Workspace Labs进行测试；而Gemini 1.5 Flash将用于测试和在机器学习平台Vertex AI中使用，该平台允许开发人员训练和部署人工智能应用。