ChatGPT的识图功能——改变了我的交互方式（译文）

10月 12, 2023

1269 0

内容简介： 本文介绍了ChatGPT的实用玩法：检查小孩的作业；解读食品配料表；转写手稿；从图片中获取创意。

原作者托马斯史密斯（Thomas Smith）

（图片由DALL-E3生成）

正文：

ChatGPT 识图（ChatGPT Vision，简称 GPT4-V）是 OpenAI 最近推出的全新系统。它能让 ChatGPT 不仅处理文本，还能处理图片。

虽然已经有人做了很多酷炫的 GPT4-V 演示，但说实话，大多数用途并不是那么实用。

是的，GPT4-V 可以把你随手写的白板笔记变成 Python 代码，或者把铅笔素描变成一个可用的网站。但真的，你会经常这样做吗？

相反，GPT4-V 确实有很多真正实用的功能。用了一个星期后，我发现了很多在现实生活中特别有用的功能。

更奇怪的是，GPT4-V 已经开始改变我与现实世界的互动方式，但并不是按照我预想的方向。

文章目录

检查孩子的作业
解读营养信息
转录（并扩展）手写笔记
从图片中获取创意
了解我家的建筑结构
不仅仅是新奇
让现实更好
广告：

检查孩子的作业

每个家长都知道这种绝望的时刻。孩子刚完成作业，现在轮到你来检查。

你小心翼翼地拿起作业纸，祈祷自己还记得孩子正在学习的特定主题，或者这个主题的教学方式还是你小时候那样。

是的，我是一个专业作家。但我能准确区分我一年级儿子语音作业上的长元音和短元音吗？肯定不能！

这时，GPT4-V 就是救星。当我儿子完成作业后，我会先自己检查。为了确保没有搞错，我还会拍张照片，上传到 GPT4-V，让它也看看。

比如，我儿子完成了一个作业，需要用橙色给长元音的树叶上色，用红色给短元音的树叶上色。

令人惊奇的是，ChatGPT Vision 能理解作业指示，检查孩子给每片树叶涂的是什么颜色，然后给我一个表格，确认每个答案都是正确的。

也许我不如一年级的孩子聪明，但有了 ChatGPT Vision，我能确定我没有误导我的一年级孩子！

解读营养信息

有时候，公司故意让营养信息变得非常复杂。

举个例子？我喜欢吃 Jelly Belly 的软糖豆。当我吃几颗的时候，我总想知道摄入了多少卡路里。

但是营养信息框的数量设置得很奇怪。比如，我最近吃的一袋上写着27颗软糖豆含有110卡路里。

谁会坐下来数到底吃了整整27颗软糖豆呢？如果我吃一个更正常的数量，比如10颗，我得用计算器才能算出我到底吃了多少！

但有了 ChatGPT Vision，我只需拍下食品包装上的营养信息，然后提出具体问题，系统会为我做计算，并给出答案。

我甚至可以追问，比如“我摄入了多少糖，用茶匙来算？”

它通常准确和有用吗？是的。

我总是喜欢这个答案吗？不是。

转录（并扩展）手写笔记

我喜欢用纸做笔记。

当我在旅行或者简单地不想用手机时，我经常会在纸质日记里随手记下文章的想法——甚至是完整的引言或大纲。

问题是，我的笔迹很糟糕。为了把笔记变成一篇实际的文章，我后来还得打字。有时候，连我自己都看不清我写的是什么！

幸运的是，ChatGPT Vision 能看懂。我可以给它一个手机拍摄的文本笔记照片，它会迅速把它们转录成可编辑的文本。

像这样的一页文本：

变成了这样：

ChatGPT Vision 甚至可以根据我手写的引言完成这篇文章。

从图片中获取创意

作为一名专业摄影师，我经常需要从现有的图像中提出视觉概念。我最近和我的一个客户进行了这方面的测试。

给定一张照片，ChatGPT Vision 可以提出如何在图像上进行创意拓展的建议。

例如，给定一张经典汽车的照片，系统可以推荐最适合通过3D渲染展示这辆车的背景。

它甚至可以详细说明为什么这些背景在创意上会起作用：

这些视觉指导接着让我能找到完成我正在进行的项目所需要的正确的照片或其他视觉元素。

了解我家的建筑结构

我的房子建于1984年，绝对不是千篇一律的。

它有一些奇怪的特点，比如一个1.5层高的主衣帽间，有一个滑动梯子，让你觉得自己像在一家古董书店里；还有一个镶嵌着奇怪照明壁灯的楼梯，看上去像应该装满印第安纳·琼斯可以进来偷走的稀有文物。

我一直对我家的建筑很好奇，但我从来没有找到是谁设计的，或者他们是基于什么设计的。

我上传了一张我家内部的照片（出于隐私原因，我不在这里分享）到 ChatGPT Vision，它提供了一些非常有趣的信息：

真正有趣的是工匠风格的影响！我的家位于加州北部的一个山谷里，门前有一棵大红木树。

事实上，它有受到加利福尼亚工匠运动的启发——这个运动大量使用了本地的红木，并展示了传统的建造方法——这让我觉得很有道理。

了解我大部分时间都呆在这里的空间的这些小信息真是太酷了！

不仅仅是新奇

经过一周的测试，我对 ChatGPT Vision 的功能有了更好的了解，哪些是单纯有趣的，哪些是真正实用的。

到目前为止，我发现 ChatGPT Vision 擅长于将视觉元素转换成文本，并对这些文本进行解释。

在日常生活中，我们遇到很多对电脑来说难以处理的文本——手写，营养数据，以及我在这里展示的其他种类的印刷文本和视觉元素。

ChatGPT Vision 最大的优点是它能让这种现实世界的文本变得易于理解，从而为系统的高级人工智能解锁了一个之前对机器来说几乎是“看不见”的世界的一部分。

当我第一次获得 ChatGPT Vision 的使用权时，我本以为会用它来做一些高大上的事情——比如从照片中诊断医疗状况，或者解释复杂的图表以帮助我更好地理解科学论文。

实际使用中，我发现这个系统更适用于完成一些简单、基于文本的任务，这些任务通常对电脑来说太平凡了。

是的，我可以自己把儿子的作业答案转录成文本，然后输入到ChatGPT中，确保我是正确地检查了它们。是的，我可以把我手写的笔记一点一点地输入到Google或Word文档中。

但大多数日子里，我可能不会这样做。现在，在ChatGPT Vision的帮助下，对这些任务使用人工智能实际上是值得的，而且真的很有用。

让现实更好

有趣的是，有了这个AI的帮助，我更倾向于与现实世界的实物进行互动，而不是更少。

我更愿意用手写笔记，而不是拿出我的iPhone上的“备忘录”应用，因为我知道ChatGPT Vision以后可以把它们转换成文本。

因为我可以使用一个现实世界的物体——比如一辆经典的汽车——作为一个项目的起点，我不需要花那么多时间去搜索引擎或者翻阅图像库。

而且我更可能会真正参与到我儿子完成作业的过程中，因为我知道，即使我忘了什么是长元音或者其他我一年级学过的具体内容，我还是能在他完成后检查我的工作。

奇怪的是，ChatGPT Vision不仅仅是一个将现实世界转化为机器可读文本的系统。它实际上使与现实世界互动——而不是立即转向传统的电脑界面——变得更容易，更有趣。

这个系统也揭示了我们与机器互动有多么奇怪。手写一直是人类记录信息的主要方式，已经有几千年了。

从什么时候起，我们决定用拇指轻轻敲击一个小小的发光的玻璃和金属片是更好的方法呢？

借助ChatGPT Vision，我发现我可以保留传统、真实世界信息和格式的所有优点，同时还能充分利用电脑和先进人工智能带来的所有好处。

这是一个令人惊讶，也让人振奋的转折——有了世界上最强大的视觉AI系统，我想做的只是拿出一支笔和一张纸，开始涂涂写写。

（全文完）