谷歌的新技术可以自动说明复杂的图像使用

在过去的几年里，图像识别已经取得了长足的进步，b谷歌可能是在这个领域做得比其他任何人都多的人;它为用户带来了一些显著的进步。试着搜索你自己的b谷歌照片，看看我们已经走了多远。但识别物体和基本场景只是第一步。

今年9月，谷歌利用目前流行的深度学习技术，展示了它的方法不仅可以识别和命名图片中单个物体的图像，还可以从一张图片中对多个物体进行分类。

一旦实现了这一点，就可以尝试为图像创建一个完整的自然语言描述，这也是谷歌当前的目标。根据一份新的bbb研究报告，该公司最近开发了一种人工智能系统，这样它可以自学如何描述一张照片的高精度。

实现这种识别训练的典型方法是，向计算机输入图片，视觉算法完成它们的工作，然后使用自然语言处理为指定项目创建描述。这听起来很合理，但现在随着技术的发展，科学家们想出了一种新的方法，而不是传统的方法，他们将最新的计算机视觉和语言模型合并到一个联合训练的系统中，获取图像并直接产生人类可读的单词序列来描述它。b谷歌说:“在两个循环神经网络的帮助下，这在机器翻译中表现得很好。”字幕系统略有不同，但基本上使用相同的方法。

这并不意味着b谷歌的方法是完美的。BLEU分数，用于比较机器翻译与人类翻译的效率，将这些字幕标记在27到59分之间，而人类的得分往往在69分左右。尽管如此，这仍然是一个巨大的成功，并且比那些得分不超过25分的方法向前迈进了一步。很酷，不是吗?

谷歌的新技术可以使用自然语言自动为复杂的图像添加标题

留言回复取消回复