
在机器学习领域,教AI系统以尽可能完整的方式了解视频中发生的事情是最艰巨的挑战之一,也是最大的潜在突破。今天,Facebook宣布了一项新计划,希望借此在这项后续工作中占优势:在Facebook用户的公共视频上训练其AI。
访问培训数据是AI的最大竞争优势之一,通过从数以百万计的用户那里收集资源,Facebook,Google和Amazon等技术巨头已经在各个领域取得了进步。尽管Facebook已经对从Instagram收集的数十亿张图像进行了机器视觉模型的训练,但它先前尚未宣布具有类似雄心的视频理解项目。
“通过学习遍及几乎每个国家和数百种语言的全球公开视频流,我们的AI系统不仅可以提高准确性,还可以适应我们快速发展的世界,并认识到不同文化和地区之间的细微差别和视觉提示,”他说。公司在博客中。这个名为“从视频中学习”的项目也是Facebook“为构建像人类一样学习的机器而做出的更大努力”的一部分。
Facebook说,由此产生的机器学习模型将用于创建新的内容推荐系统和审核工具,但将来可能会做得更多。能够理解视频内容的AI可以使Facebook对用户的生活有空前的洞察力,使他们能够分析自己的爱好和兴趣,品牌和服装的偏好以及无数其他个人详细信息。当然,Facebook已经可以通过其当前的广告定位操作来访问此类信息,但是能够通过AI解析视频将为其商店添加难以置信的丰富(且具有侵入性)数据源。
Facebook对其在用户视频上训练的AI模型的未来计划含糊其词。该公司告诉The Verge,这些模型可以用于多种用途,从字幕视频到创建高级搜索功能,但都没有回答有关是否将其用于收集广告定位信息的问题。同样,当被问及用户是否必须同意将其视频用于训练Facebook的AI或是否可以退出时,该公司仅通过指出其数据政策指出用户上传的内容可用于“产品研发”来做出回应。 ” Facebook也没有回答这样的问题:询问将收集多少视频以训练其AI系统,或者如何监督公司研究人员对这些数据的访问。
不过,在宣布该项目的博客文章中,该社交网络确实指出了一种未来的投机用途:使用AI检索智能眼镜捕获的“数字记忆”。
Facebook计划在今年的某个时候发布一副消费者智能眼镜。有关设备的详细信息含糊不清,但这些眼镜或将来的眼镜很可能会包含集成的摄像头,以捕捉佩戴者的观点。如果可以训练AI系统理解视频的内容,那么它将允许用户搜索过去的记录,就像许多照片应用程序允许人们搜索特定的位置,对象或人一样。(顺便说一下,这是经常由经过用户数据训练的AI系统索引的信息。)

Facebook说,随着使用智能眼镜录制视频“已成为常态”,“人们应该能够像捕捉它们一样容易地从其庞大的数字存储中回忆起特定时刻。” 它以用户进行搜索为例,该用户使用短语“每次我们向奶奶唱生日快乐时请向我展示”进行搜索,然后提供相关剪辑。正如该公司指出的那样,这样的搜索将要求AI系统在数据类型之间建立联系,并教它们“使短语“生日快乐”与蛋糕,蜡烛,唱歌各种生日歌曲的人等等相匹配。” 就像人类一样,人工智能需要理解由不同类型的感觉输入组成的丰富概念。
展望未来,智能眼镜和机器学习的结合将实现所谓的“世界抓取”-通过将智能眼镜的佩戴者变成闭路电视摄像机,捕获有关世界的细粒度数据。正如《卫报》去年在一份报告中所描述的那样:“每次有人浏览超市时,他们的智能眼镜都会记录实时定价数据,库存水平和浏览习惯;每当他们打开报纸时,他们的眼镜就会知道他们读了哪些故事,看了什么广告,看了哪些名人沙滩照。”
这是一个极端的结果,而不是Facebook表示正在探索的研究途径。但这确实说明了将高级AI视频分析与智能眼镜配对的潜在意义-社交网络显然渴望这样做。
相比之下,Facebook当前公开的其新AI视频分析工具的唯一用途是相对平凡的。随着今天宣布从视频中学习的消息,Facebook表示已根据其TikTok克隆卷轴中的视频工作部署了新的内容推荐系统。“流行的视频通常包含相同的音乐和相同的舞步,但由不同的人创作和表演,” Facebook说。通过分析视频的内容,Facebook的AI可以向用户建议类似的剪辑。
但是,这样的内容推荐算法并非没有潜在的问题。一个从最近的一份报告MIT技术评论强调如何在社交网络的增长和用户参与重点已经停止了AI团队充分处理算法如何传播错误的信息,并鼓励政治极化。正如《技术评论》的文章所述:“使参与度最大化的[机器学习]模型也有利于争议,错误信息和极端主义。” 这在Facebook的AI伦理研究人员的职责与该公司最大化增长的信条之间造成了冲突。
Facebook并不是唯一一家进行高级AI视频分析的大型科技公司,也不是唯一一家利用用户数据进行这项技术的公司。例如,Google维护着一个可公开访问的研究数据集,其中包含800万个精选的且带有部分标签的YouTube视频,以“帮助加速对大规模视频理解的研究”。即使最终结果只是在YouTube中投放更相关的广告,这家搜索巨头的广告运营也可以从能够理解视频内容的AI中受益。
不过,Facebook认为它比竞争对手更具优势。它不仅具有足够的训练数据,而且还将越来越多的资源投入到称为自我监督学习的AI方法中。
通常,当对AI模型进行数据训练时,这些输入必须由人工标记:例如,标记图片中的对象或转录录音。如果您曾经解决过识别消防栓或行人过路处的验证码,那么您可能已经标记了有助于训练AI的数据。但是自我监督式学习消除了标签,加快了培训过程,并且,一些研究人员认为,随着AI系统自学成才,将导致更深入,更有意义的分析。Facebook对自我监督式学习如此乐观,被称为“智慧的暗物质”。
该公司表示,其未来在AI视频分析方面的工作将集中在半监督和自我监督的学习方法上,并且这种技术“已经改善了我们的计算机视觉和语音识别系统。” Facebook的28亿用户拥有如此丰富的视频内容,因此跳过AI培训的标签部分当然是有道理的。而且,如果社交网络可以教会其机器学习模型无缝地理解视频,那么谁知道他们可能会学到什么呢?