科技行业资讯门户

广告

广告

广告

广告

广告

网上晒图要当心!AI六成可能知道你在哪儿

【蜂耘网 人工智能】给AI一张全新的照片,它能以相当高的准确率还猜出照片在哪个城市拍摄的。在新研究中,表现最好AI模型,猜出图片所在城市的正确率比人类62.6%!以后网上晒图可要当心了AI可能知道你在哪里!

 

AI轻松击败人类!

 

这次是看图猜地名:AI一张全新的照片,它能猜出照片在哪儿拍摄的,而且准确率还相当高。

 

也就是说,从图像中AI能识别地理信息方面。

 

以后网上晒图可要当心了AI知道你在哪里!

 

沃顿商学院的教Ethan Mollick,研读了相关论文,认AI的这种能力对现实世界的影响非常大。

 

img1

 

具体而言,在不使用搜索引擎AI模型的情况下,让大学生猜测每张街景图像对应的大洲、国家或城市名称。

 

3报告了人类的准确率(最后一行),与视觉语言模型相比,人类的表现明显比较差。

 

其中表现最好的模型Gemini1.5-Pro,在大洲、国家和城市层面预测中,正确率分别比人类高59.6%74.2%62.6%

 

而大多数大学生表示对这些图像并不熟悉,承认他们纯粹就是胡乱猜测。

 

img2

3VLM和人类FAIRLOCATOR数据集100张图像上的表现对比

 

img3

论文链接https://arxiv.org/abs/2502.11163

项目地址https://github.com/uscnlp-lime/FairLocator

 

然而AI模型仍然存在一些问题,包括偏差和隐私问题。

 

在评估了四VLM模型后,研究人员发现,尽管这些模型展示了从图像中识别地理信息的能力,在城市预测中最高可53.8%的准确率,但它们表现出了显著的地区性偏差。

 

具体来说,经济发达且人口密集的地区的表现明显优于发展较慢的地区(12.5%)和人口稀少的地区(17.0%)。

 

此外,这些模型还表现出了地区性偏差,常常过度预测某些特定位置。

 

VLM模型的强大性能也引发了隐私问题:即便用户不想被人知道自己在哪儿AI依旧可能从图片中发现用户的踪迹。

 

三大偏差

 

对视觉语言模型VLMs)从图像中识别地理信息的能力,早有研究,但对偏差问题缺乏足够的关注。

 

具体而言,这些研究未能深入分析视觉语言模型在地理信息识别中存在的偏差。

 

在地理信息识别中,新研究将视觉语言模型的偏差分为两类:

 

1)在识别来自不同地区的图像时存在的准确率差异;

 

2)在地理推理过程中更频繁地预测某些地区的系统性倾向。

 

为了评估偏差,开发了名FAIRLOCATOR的基准测试,该基准测试包含来43个国111个城市1200张图像。

 

每张图像都附有详细的地理信息,包括国家、城市和街道名称。

 

FAIRLOCATOR包含评估框架,可自动向视觉语言模型发出查询、提取回复,并通过名称翻译和去重处理将回复与真实数据进行比对。

 

为了评估视觉语言模型VLMs)在预测城市地理信息方面的性能,将图像分为两部分进行分析:

 

1、深度Depth):为了验VLMs是否倾向于对相似城市(即同一国家内的城市)预测著名城市,研究选择了每个洲人口最多6个国家,并从每个国家中进一步挑选10个城市。

 

2、广度Breadth):为了探索具有不同文化、人口和发展水平的国家,研究按人口排名从全球选取60个城市,每个国家最多选2个城市,避免人口大国的过度代表,确保了样本的多样性,涵盖了不同的文化和经济发展水平。

 

四种不同VLMs被用于这项研究,包括GPT-4oGemini-1.5-ProLLaMA-3.2-11BLLaVA-v1.6-Vicuna-13B

 

研究人员发现,当前的视觉语言模型VLMs)在三个关键方面表现出显著的偏差:

 

1偏向知名城市:例如Gemini-1.5-Pro在识别来自巴西的图像时,频繁预测为圣保罗。虽然这表明模型能够识别巴西的特征,但它缺乏捕捉区域多样性或细微差异的能力。

 

2跨区域准确率差异VLMs在识别发达地区图像中的地理信息时表现出更高的准确率,平均准确率48.8%,但在识别欠发达地区的图像时,性能显著下降,准确率通常降41.7%

 

3与发展水平的虚假关联VLMs经常将城市或现代场景(即使来自发展中国家)与发达国家联系起来。相反,描绘郊区或乡村景观的图像则经常被错误地归类为来自发展中国家。

 

img4

1:本文发现的三种偏差类型。

GT」代表真实标签Ground Truth),Pre」代表视觉语言模型VLM)的预测结果。

 

模型指令与提示词

 

为了指导视觉语言模型VLMs)更好地完成地理定位任务,借鉴GeoGuessr游戏玩家常用的策略。

 

GeoGuessr游戏中,玩家放置到一个半随机的谷歌街景地点,要求玩家只通过有限的线索来猜测图片中的位置。

 

在提示中,要VLMs根据图像细节,如门牌号、行人、标志、语言和光线来推断地理位置。

 

为了便于后期处理VLMs需要JSON格式返回包含五个关键字段的响应:「分析」、「大洲」、「国家」、「城市」和「街道」。

 

当将图像编码VLMs的输入时,会确保移除所有元数据,比如时间、位置、相机参数和作者信息,因为这些数据可能VLMs轻易地推断出位置。

 

然后,从输出中提取答案,并确保它们既不是未知的,也不是无效的。

 

每个模型对每张图片最多有五次尝试机会;如果五次尝试都得到了无效结果,该图片则被标记为失败案例。

 

为了保证实验的可靠性,要求每张图片必须由同一个模型生成三个响应。

 

这项任务中使用的具体提示如下:

 

img5

 

实验过程

 

使FAIRLOCATOR框架,专注于解决两个关键研究问题:

 

1 VLM是否在共享的文化背景下对特定城市表现出偏好,例如在同一个国家内的不同城市之间?

 

这一部分将探讨视觉语言模型VLMs)是否倾向于某些特定城市,即使这些城市位于同一个国家或共享相似的文化背景。

 

分析模型在识别和区分这些城市时的表现,可以了解是否存在对某些城市的偏好或偏差。

 

2 考虑到经济、人口或文化差异,全球各地区的准确性如何变化?

 

这一部分将评VLM在不同全球经济、人口结构和文化背景下的表现。具体来说,将调查这些因素如何影响地理定位任务的准确性。

 

对不同区域的详细分析,可以揭示哪些因素最显著地影响了模型的性能,并探讨可能的原因和解决方案。

 

深度评估

 

FAIRLOCATOR的「深度评估」部分包括了每个大陆人口最多的国家:大洋洲的澳大利亚、南美洲的巴西、北美洲的美国、欧洲的俄罗斯和非洲的尼日利亚。

 

对于每个国家,选择了人口最多的十个城市,每个城市收集了十张图片。

 

2展示GPT-4o预测频率最高的城市,而345分别展示Gemini-1.5-ProLLaMA-3.2-VisionLLaVA-v1.6-13B的预测结果。

 

一个城市的「正确」得分最高30分,因为视觉语言模型VLMs)有三次机会来预测。

 

img6

2GPT-4o在六个国家中最常被预测到的城市。

 

img7

3Gemini-1.5-Pro在六个国家中最常被预测到的城市。

 

img8

4LLaMA-3.2-Vision在六个国家中最常被预测到的城市。

 

img9

5LLaVA-v1.6-13B在六个国家中最常被预测到的城市。

 

1展示了这四个模型在不同层面的准确率,包括大陆、国家、城市和街道,涵盖六个国家。

 

在这四个模型中GPT-4o的表现最为出色,与准确性最低的模LLaVA相比,它在大洲、国家和城市层面的准确率分别提高65.9%60.4%37.4%

 

在所分析的国家中,视觉语言模型VLMs)对美国和印度的识别效果最为有效,其次是澳大利亚和巴西,而对尼日利亚和俄罗斯的识别表现最差。

 

img10

 

在视觉语言模型VLMs)的预测中,观察到了对较大城市的偏向,尤其是在巴西、尼日利亚和俄罗斯的情况中。

 

这些结果表明,虽然视觉语言模型能够在国家层面进行区分,但它们在对一个国家内不同城市进行更细致的区分时存在困难。

 

这种偏向在澳大利亚和美国等国家表现得稍微弱一些。

 

然而,偏好仍然很明显,在澳大利亚,悉尼Sydney)、布里斯班Brisbane)和墨尔本Melbourne)更受青睐;在美国,纽约市New York City)的预测次数过多,尽管表面上看预测似乎更加均衡。

 

随着模型能力的提升,视觉语言模型VLMs)展现出更强的分辨城市间细微差异的能力。

 

然而,该模型在识别澳大利亚的城市时遇到了困难,经常将它们错误地归类为美国城市,如纽约市、迈阿密、旧金山或洛杉矶。

 

这种困难可能源于澳大利亚和美国城市之间在文化和视觉上的相似性。

 

这两个国家在联合国区域分类中都属于西欧及其他国家组,对于不太先进的模型来说,更难以区分这些城市。

 

再来看其他模型,尽管它们在识别各个国家的城市时更为准确,但错误预测的情况仍然普遍存在。

 

广度评估

 

FAIRLOCATOR的「广度子集」60个城市构成,依据人口排名从高到低筛选而出。

 

为保证多样性,避免同一国家城市数量过多,每个国家最多纳入两个城市,致使该子集中涵43个国家,超过了「深度子集」中涉及的六个国家。

 

为探究视觉语言模型VLM)预测中的区域差异,每个城市还依据经济状况、人口规模和文化背景进一步分类:

 

1)经济状况依据全球城市百万富翁数量排名确定。在此榜单上50名的城市被归为「发达」城市,该子集中20个发达城市40个发展中城市。

 

2)人口规模依据全球城市人口排名标注。人口超1000万的城市被归为「人口众多」城市,如此便22个人口众多的城市38个人口较少的城市。

 

3)文化分类:鉴于各大洲内部存在文化多样性,仅以大洲作为分类标准通常被认为不够完善。所以,采用了联合国区域集团的分类方式,该方式将各国划分为五个在文化上相关的集团:非洲集团、亚洲及太平洋(3.850, -0.07, -1.79%)经济社会委员会(亚太经社会)地区发展中成员国集团APSIDA)、东欧集团EEG)、拉丁美洲和加勒比国家集团GRULAC)以及西欧和其他国家集团WEOG)。2在其标题中给出了每个集团的定义。

 

img11

2:四种模型在「广度评估」中的准确率。

Cont.」代表大洲,Ctry.」表示国家,St.」是街道。最高分用粗体标出。

 

2中,Africa」指非洲集团,APSIDS」是亚洲及太平洋小岛屿发展中国家集团,EEG」代表东欧集团,GRULAC」是拉丁美洲和加勒比集团,WEOG」是西欧及其他国家集团。

 

按经济、人口和文化群体分类的结果也列于2中。

 

总体而言,在「广度」评估中,特别是在城市层面的准确率44.1%)高于「深度」评估25.2%),这很可能是因为「广度」子集中纳入60个全球知名城市。

 

与「深度」评估GPT-4o表现最佳不同,在「广度」评估中Gemini-1.5-ProGPT-4o的表现相当Gemini在识别大洲和国家方面表现出色,GPT-4o在识别城市方面展现出更优异的性能。

 

关于对发达城市、人口众多的城市以及特定文化群体内城市的偏见问题,主要发现如下:

 

1)在发展中城市和人口较少的城市中,所有模型始终表现出较低的准确率,其中人口因素对模型性能的影响更大。

 

从经济水平来看,在城市层面的预测中LLaVA的准确率下降幅度最大,从发达城市转变到发展中城市时,其准确率下降12.5%。相反Gemini受影响最小,在城市层面仅下降0.8%,不过其在国家层面的准确率下降8.6%

 

就人口因素而言,性能下降更为明显。当从人口较多的城市转变到人口较少的城市时,视觉语言模型VLM)在城市层面的预测准确率下降12.4%17.1%

 

2)不同文化群体之间的准确率差异显著,城市层面的准确率差异高19.1%

 

西欧及其他国家集团WEOG)的国家在城市层面的平均准确率最高56.5%),其次是东欧集团EEG50.0%),而非洲集团的准确率最低37.4%)。

 

这种模式在四种视觉语言模型中都一致,这凸显了非洲国家在视觉语言模型中代表性不足的问题。

 

Gemini在非洲集团和西欧及其他国家集团之间的准确率差异最小9.7%),GPT-4o的差异最大26.8%)。

 

本节详细分析了视觉语言模型VLM)在地理定位任务中的表现,提出了解释这些表现的假设,并进行了初步实验来验证。

 

是否存在数据泄露?

 

图像的新版本鉴于视觉语言模型的出色表现,有人可能会假设其训练数据中包含了谷歌街景图像,从而可能导致模型记住答案。

 

为了对此进行调查,在主要实验中使用2019年版谷歌街景图像的基础上,补充2024年的新版本2014年的旧版本。

 

2024年的图像不GPT-4oGemini-1.5-Pro的训练数据中,因为它们的发布日期晚于模型的发布日期。纳2014年的图像是为了检验视觉语言模型是否能识别旧的视图。

 

为了尽量减少区域差异,研究人员关注不同时间版本中相同的位置。

 

由于某些版本在某些地区的可用性有限,选择了美国的三个城丹佛、拉斯维加斯和纽进行这项研究。

 

对于每个城市,确定10个位置,其中许多位置在选定的时间范围内会有变化,总共得90张图像。

 

结果显示,在城市层面的准确率方面2019年的图像表现最佳84.6%),其次2024年的图像82.5%2014年的图像表现最差79.2%)。

 

这些发现表明,训练数据会影响准确率,尽管在美国的这些案例中,这种影响相对较小。

 

是否存在虚假相关性?

 

特定特征另一个假设认为,视觉语言模型VLM)可能会利用图像中的表面相关性来推断位置。

 

为了研究独特特征与真实情况之间的关系,研究人员聚焦于不同城市的唐人街,这些唐人街有着共同的视觉元素,比如汉字以及文化装饰(例如红灯笼和挥春)。

 

在实验中,从每个大洲选取一个唐人街,并且从每个唐人街抽取十张图片:曼谷、约翰内斯堡、利马、伦敦、纽约和悉尼,这些地方都有有着大量华人社区的成熟唐人街。

 

GPT-4oGemini-1.5-Pro得出的实验结果总结在5中,结果表明视觉语言模型在识别这些唐人街场景方面表现出色。

 

这一发现表明,视觉语言模型不仅仅依赖于将图像与中国联系起来的明显线索,还会利用其他细微的特征。

 

城市景观风格

 

除了特定特征之外,研究人员还研究了图像的整体风格是如何影响预测结果的。

 

具体来说,研究人员探究视觉语言模型VLM)是否存在偏见。

 

例如,如1c)所示GPT-4o将来自南非开普敦的城市景观预测为美国的圣地亚哥和法国的尼斯。相反,对于更具乡村风格的图像Gemini-1.5-Pro会将俄罗斯的莫斯科误认成乌克兰的哈尔科夫,将西班牙的马德里误认成西班牙的塞维利亚。

 

同样地LLaMA也出现了类似的错误:将巴西巴西利亚干净、整洁的街道场景预测为澳大利亚的悉尼,将俄罗斯克拉斯诺亚尔斯克的高楼林立的城市景观识别为美国纽约。

 

这些发现揭示了视觉语言模型在解读城市环境时可能存在的区域偏见。

 

思维链CoT)能起作用吗?

 

为了评估视觉语言模型VLM)的性能,研究人员使用思维链CoT)提示来分析它们的输出结果。

 

研究人员给出两个示例查询:一个针Gemini,另一个针LLaMA

 

案例研究表明,虽然思维链推理看起来合乎逻辑,但它与最终答案并非始终一致。

 

在思维链示例1)中Gemini正确识别出了该地点位于非洲周边,但也指出没有可见的车牌或标识来辅助进一步分析是哪个国家或城市。

 

img12

 

尽管缺乏这些证据,该模型仍然预测出了正确答案。

 

相反,在思维链示例2)中LLaMA识别出了加州的典型特征,但却错误地预测为圣巴巴拉,而正确答案应该是洛杉矶。

 

img13

 

在多个示例中,思维链推理过程中,引用的元素往往与最终答案部分相符。

 

然而,这些元素通常比较宽泛,无法准确地确定具体位置。

 

仅仅依靠推理过程很难确定图像的确切地理位置。

 

假设模型的回答并非基于对图像信息的真实推理,而是受到其先前关于地理位置的知识的影响。

 

参考资料: https://x.com/emollick/status/1903135115334594871

 

 

(蜂耘人工智能网 责任编辑:行云)

2025-03-31 15:33

广告

来源: 新智元公众号
给AI一张全新的照片,它能以相当高的准确率还猜出照片在哪个城市拍摄的。

声明:凡来源标明“蜂耘网”的文章版权均为本站所有,如需转载请务必注明出处,违者本网将追究相关法律责任;所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息,均不代表本网立场及观点,“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任;如涉及版权等问题,请在内容发表之日起一周内与本网联系,否则视为放弃相关权利。

所有评论仅代表网友意见,与本站立场无关

最新资讯

推荐阅读

热门排行

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

  • 坚定扛牢“走在前、挑大梁”的使命担当(权威访谈·谋发展 启新篇)

    来源:人民日报
    2024年,山东经济社会高质量发展取得积极成效。新的一年,作为经济大省的山东如何坚定扛牢“走在前、挑大梁”的使命担当?如何全面贯彻落实中央经济工作会议精神,奋力推动经济社会高质量发展?记者采访了山东省委书记林武。

    41 2025-01-21
  • 一文了解查理·芒格:为什么他是巴菲特最推崇的人

    来源:
    ①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
    ②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
    ③两周前,芒格还公开在节目中维护93岁的老友巴菲特。

    198 2023-11-29
  • 面壁者,拉里·佩奇

    来源:中欧商业评论
    这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

    320 2022-06-15

会议活动

微信公众号

广告

相关新闻