在上一篇文章中我们已经介绍了人肉计算的定义。这篇文章我们来谈谈人肉计算中的「意图博弈」(Game With A Purpose, GWAPs)。
所谓「意图博弈」,指让玩家进行互相博弈,并从博弈过程中收集数据,并用于某种意图。
ESP 游戏
为了说明意图博弈,我们以图像标注这个问题来作为例子。
图像标注是一种对人类来说非常容易,但对计算机视觉算法(目前)来说依然非常困难的一种行为,需要大量的图像搜索和分析。
ESP 游戏[1]的目的是提供并激励人们进行图像标注,放置低质量的标签。
ESP 游戏具有下面的规则:
- 两个随机选择的玩家会显示相同的图像
- 这两个玩家不知道他们在玩什么
- 玩家每次输入同一个标签后会获得一个评分
- 一段时间之后,图像会发生变化
- 一段时间之后,游戏会自动结束
- 一个标签被足够多玩家输入之后,将成为「敏感词」(Taboo word)并显示在图像上,不能在被输入
- 单数或复数形式的「敏感词」不能被输入(对英文游戏来说)
在这样一个规则下的博弈中,标签的质量是能够被保证的,这是因为:
- 互相博弈的玩家不能彼此通信(除了他们输入的标签之外)
- 这个规则一个「良好的标签阈值」,因为若干个标签会被匹配的玩家所接受
- 如果需要的话,可以通过跟踪图像的独立标签约定,玩家可能会同意
ESP 游戏的评估
在 ESP 游戏推出一年之后,大约有三万人参与了这个博弈,在八十五万张图片上产生了四百万多个标签,其中大约 80% 的玩家游戏时间超过一天,甚至一些人每个星期玩二十个小时。
结果表明,玩家输入的标签是有意义的,而我们所期望获得的标签也已经被玩家输入了。
我们先尝试分析一个简化版本的 ESP 游戏:
- 没有「敏感词」
- 标签一致的得分独立
并假设:
- 对于每个图片都有一个相关标签集合
- 每个图片都有一个表示它似然值的频率
在这种情况下,以频率递减的方式输入标签的策略最终将导致贝叶斯纳什均衡,因此,每个玩家都能够获得最高分[3]。
对于 ESP 游戏的实验评估来说,有以下结果:
- 同义词冗余:标记为「guy」的图片同时又有 81% 的标记了「man」
- 同时出现:标记为「clouds」的 85 章图片中,有 68% 的也被标记了「sky」
- 频繁的颜色匹配:超过 10% 的「敏感词」都是颜色(其中黑色占所有标签的 3.3%)
- 越抽象的词约有可能出现「building」比「terraced house」更可能。
当一个机器人只利用显示的敏感词且不使用显示的图像,来预测下一个标签来执行 ESP 博弈时候,能够很好的对每张图片提出 4.3 个标签,并且标签的一致率为 95%。
建模
对于文章的标签预测来解释是不够的,我们需要重新建模:
- T: 到目前为止图像的「敏感词」集合
- t: 机器人的下一个标签
考虑下面几点
-
根据贝叶斯公式,我们有
$$ P(t|T) = \frac{P(T|t)P(t)}{P(T)} $$
-
T 中的标签假设是互相独立的,那么根据最大似然估计的思想我们有(如果图像的种类非常之多,那么这是可以接受的):
$$ P(T|t) = \Pi_{s\in T}{P(s|t)} $$
-
如果图像的数量和种类都非常大,那么对于所有的 T, P(T) 通过相同的值 C 来估计,其中 C 是归一化尝试,使所有 t 之和为 1。
-
t, P(t) 和 P(t|T) 从文本集合中产生。
结合上面的几点,我们不难得到[4]:
$$ P(t|T) = \Pi_{s\in T}{P(s|t)P(t)\frac{1}{C}} $$
接收者设计
「接收者设计」解释了为什么 ESP 游戏搜集的标签是一般的[5]:
「接收者」设计表示人们如何将他们的交际信号传递给其他人:
- 向中央车站发出的指示取决于询问者以及他是步行还是驾车
- ESP 游戏对于一个年轻人和一个计算机科学学生来说是不一样的
在 ESP 游戏中,接收者设计产生了许多合适的标签,因为玩家的线索非常少。
ESP 游戏的其他例子
TagATune
TagATune 是一个基于音频的 ESP游戏,收集了音频和音乐的描述。TagATune 指示玩家有以下八个类别之一,他们应该输入什么样的标签[3]:
- 对象/地点/行动/颜色/心情/电影类型/是否是音乐/无限制内容。
Verbosity
Verbosity 是一个在线的 GWAP,通过以下游戏来收集常识知识:
- “叙述者”和“猜猜者”配对。
- 叙述者被给了一个秘密的话,让猜测者通过给她提示来发现这个词。
- 提示具有预定义句子的形状,空白填充而不使用秘密单词。
- 叙述者可以看到猜猜的猜测,可以告诉猜测者“热”还是“感冒”。
- 演员轮流作为叙述者和猜猜。
Verbosity 的提示模板:
- …用于…
- …通常接近于…
- …通常位于…
- …通常在…
- …是…的反面
- …与…相关
- 「…」是相关词的通配符(例如「Oxford」对于「University」)
Listen Game
[TBA]
US Patent 8,140,518
Common Consensus
OntoPronto, SpotTheLinks, OntoTube, OntuBay
Jinx
ARTigo
Combino
Timeline
GWAP 的设计
GWAP 的数据收集机制有:
-
输出约定(Output-agreement)[13]:
- 两个玩家彼此不知道对方都是被随机选取的
- 两个玩家给定相同输入时必须得出相同的输出(不一定同时)
- 结果匹配时得分
-
反转问题(Inversion-problem)[13]游戏的例子有 Peekaboom, Phetch, Verbosity 和 Karido:
- 两个玩家彼此不知道对方都是被随机选取的
- 一个玩家是「描述者」,另一个玩家是「猜测者」
- 描述者会给定一个输入
- 描述者应该描述这个输入,以便猜测着能够在几个类似的加工品上识别出它们
- 当猜测者正确识别时,两个玩家得分
-
输入约定(Input-agreement)[14]游戏的例子有 TagAtune:
- 两个玩家彼此不知道对方都是被随机选取的
- 它们都被显示为游戏知道的输入(但不是由玩家)被认为是相同或不同的
- 玩家应该产生描述输入的输出,所以他们的合作伙伴可以评估他们的投入是相同还是不同的
- 两个玩家评估正确时得分
-
补充约定(Complementary agreement)[14]游戏有 Polarity:
- 两个玩家彼此不知道对方都是被随机选取的
- 每个玩家被要求输出一些其他玩家不能输入的内容
- 当两个玩家的输出内容匹配时,彼此得分
-
链式模型(Chain Model)[15]游戏的例子有 GiveALink Slider, Great Minds Think Alike:
-
玩家应该建立一系列语义相关的对象
-
一个玩家会被展示一个对象 O
-
玩家应该选择与对象 O 相关的其他对象
-
模型不修正玩家的得分情况
下面的几个分类解释了 ARTigo Gaming Ecosystem 是如何收集数据的[16]:
- 描述游戏是收集有关人造物(如图像)的描述的游戏,例如 The ESP Game, Polarity
- 传播游戏是将已经收集到的标签传播到一个新颖的环境(如将标签转换成另一种语言)的游戏,例如 Eligo
- 多元化游戏产生更精确的标签和/或更深层次的标签,例如 Karido
- 聚合游戏:例如 TagATag, Sentiment
- 描述游戏是收集有关人造物(如图像)的描述的游戏,例如 The ESP Game, Polarity
-
-
**单人 GWAPs (Single player GWAPs) **[17] 介绍了单个玩家的 GWAPs,提供游戏 Odd Leaf Out 来发现语料库中的分类错误。找茬游戏也也是一种单独的娱乐活动。
-
预录游戏(Prerecorded games)[13]使得有单个玩家也可能同时与多个玩家进行游戏。这时候我们需要一个播放机器人,满足:
- 记录游戏过程
- 具备 GWAPS 游戏的冷启动问题的解决方法
- 很难将游戏设计得有趣,可能导致抵触
- 可能影响数据收集的质量
- 对于输入约定来说比较容易
- 对于反转问题来说很难设计
-
**玩家测试(Player testing)**包括想玩家提供已知的正确解决方案
- 检测作弊玩家
- 评估玩家贡献的真实性
GWAP 生态系统
游戏平台 Artigo 是一个生态系统,某些 GWAP 所需的数据由其他 GWAP 收集[16]:
- Artigo 游戏和 ARTigo Taboo 收集一般标签
- Karido 收集更多的具体标签,将艺术作品分开,与ESP游戏变体ARTigo游戏或Artigo Taboo类似
- Eligo 将标签翻译成其他语言
- TagATag要求玩家标注一对(艺术品L),其中L是使用ARTigo游戏或Artigo Taboo收集的作品的标签
- Combino 将标签进行组合
参见 [16]。
进一步阅读的参考文献
[1] Luis von Ahn and Laura Dabbish: “ESP: Labeling Images with a Computer Game”, Proceedings of CHI
[2] Stephen Robertson, Milan Vojnovic, and Ingmar Weber: “Rethinking the ESP Game”, Proceedings of CHI 2009
[3] Shaili Jain and David C Parkes: “A Game-theoretic Analysis of Games with a Purpose”, ACM Transactions on Economics and Computation, 1(1), Article 3, 2013
[4] Stephen Robertson, Milan Vojnovic, and Ingmar Weber: “Rethinking the ESP Game”, Proc. CHI 2009
[5] H. Sacks, E. Scheglo, and G. Jeerson: “A Simplest Systematics for the Organization of Turn-taking for Conversation”, Language, vol. 50, pages 696–735, 1974
[6] Edith Law, Luis von Ahn, Roger B. Dannenberg, and MikeCrawford: “TagATune: A Game for Music and Sound Annotation”, Proc. ISMIR, 2007
[7] L. von Ahn, M. Kedia, and M. Blum: “Verbosity: A Game for Collecting Common-Sense Facts”, Proc. CHI, 2006
[8] Douglas Turnbull, Ruoran Liu, Luke Barrington, and Gert Lanckriet: “A Game-Based Approach for Collecting Semantic Annotations of Music”, Proc. ISMIR, 2007
[9] A. Dasdan, S. Kolay, and C. Drome: “System and Method for Optimizing Search Results Ranking Through Collaborative Gaming”, US Patent 8,140,518, 2012
[10] H. Lieberman, D. Smith, and A. Teeters: “Common Consensus: A Web-based Game for Collecting Commonsense Goals”, Proc. Workshop on Common Sense for Intelligent Interfaces, ACM Int. Conf. Intelligent User Interfaces (IUI), 2007
[11] K. Siorpaes and M. Hepp: “Games with a Purpose for the Semantic Web”, Intelligent systems, 23 (3), 2008
[12] N. Seemakurty, J. Chu, L. von Ahn, and A. Tomasic: “Word Sense Disambiguation via Human Computation”, 2nd KDD Human Computation Workshop, 2010
[13] L. von Ahn and L. Dabbish: “Designing Games With a Purpose”, CACM, Vol. 51, Issue 8, pages 58–67, 2008
[14] E. Law and L. von Ahn L: “Input-Agreement: A New Mechanism for Collecting Data Using Human Computation Games”, Proc. CHI, 2009
[15] L. Weng, R. Schifanella, and F. Menczer: “Design of Social Games for Collecting Reliable Semantic Annotations” Proc. Computer Games (CGAMES), 2011
[16] Christoph Wieser, Francois Bry, Alexandre Berard, and Richard Lagrange: “ARTigo: Building an Artwork Search Engine With Games and Higher-Order Latent Semantic Analysis”, Proc. Disco 2013, Workshop at HComp, 2013
[17] D.L. Hansen, D.W. Jacobs, D. Lewis, A. Biswas, J. Preece, D. Rotman, and E. Stevens: “Odd Leaf Out: Improving Visual Recognition with Games”, Proc. Privacy, security, risk and trust (passat), Social Computing (socialcom), 2011