在过去的几年里,图像识别已经取得了长足的进步,b谷歌可能是在这个领域做得比其他任何人都多的人;它为用户带来了一些显著的进步。试着搜索你自己的b谷歌照片,看看我们已经走了多远。但识别物体和基本场景只是第一步。
今年9月,谷歌利用目前流行的深度学习技术,展示了它的方法不仅可以识别和命名图片中单个物体的图像,还可以从一张图片中对多个物体进行分类。
一旦实现了这一点,就可以尝试为图像创建一个完整的自然语言描述,这也是谷歌当前的目标。根据一份新的bbb研究报告,该公司最近开发了一种人工智能系统,这样它可以自学如何描述一张照片的高精度。
实现这种识别训练的典型方法是,向计算机输入图片,视觉算法完成它们的工作,然后使用自然语言处理为指定项目创建描述。这听起来很合理,但现在随着技术的发展,科学家们想出了一种新的方法,而不是传统的方法,他们将最新的计算机视觉和语言模型合并到一个联合训练的系统中,获取图像并直接产生人类可读的单词序列来描述它。b谷歌说:“在两个循环神经网络的帮助下,这在机器翻译中表现得很好。”字幕系统略有不同,但基本上使用相同的方法。
这并不意味着b谷歌的方法是完美的。BLEU分数,用于比较机器翻译与人类翻译的效率,将这些字幕标记在27到59分之间,而人类的得分往往在69分左右。尽管如此,这仍然是一个巨大的成功,并且比那些得分不超过25分的方法向前迈进了一步。很酷,不是吗?