法国AI 初创公司 Mistral 发布了其首个可处理图像和文本的模型,名为Pixtral 12B。这款拥有 120 亿参数的模型大约有 24GB 大小。参数大致代表了模型解决问题的能力,参数越多的模型通常表现越好。
Pixtral 12B 基于Mistral的文本模型 Nemo 12B 构建,能够通过 URL 或 base64 编码的图像回答关于任意数量和大小图片的问题。类似于其他多模态模型如 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4,Pixtral 12B 理论上可以完成如图像描述和统计照片中物体数量的任务。
该模型可以通过 GitHub 和 Hugging Face 下载,支持在 Apache 2.0 许可下自由使用、调整和优化。目前没有可用的在线演示版,但 Mistral 公司表示,未来该模型将可以在其聊天机器人和 API 平台上测试。
关于模型的训练数据来源,尚不明确。许多生成式AI模型都是从互联网上大量公共数据中训练的,这其中包括许多受版权保护的内容。Mistral公司近期刚完成了一轮 6.45 亿美元的融资,公司估值达 60 亿美元,被视为欧洲版的 OpenAI。
注意⚠️!Pixtral 12B 采用 Apache 2.0 许可,而不是 Mistral 的标准开发许可,后者对商业使用有一定限制。
评论前必须登录!
立即登录 注册