《表2 Con-Text数据集上不同方法结果对比》

《表2 Con-Text数据集上不同方法结果对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于文本与视觉信息的细粒度图像分类》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
(注:*表示使用Con-Text子集测试)

为了验证本文的解决方法,模型整体训练之后在Con-Text数据集上做测试,测试结果见表2。其中带有星号的栏目表示使用Con-Text子集来测试,不带星号的栏目表示使用全部数据集进行训练并测试。在整个数据集24 255张图像当中,对每一类随机抽取10%的图像作为测试图像总共2 426张。包含有文字的子数据集中,共有7 589张训练图像,844张测试图像。从实验结果来看视觉结合文本的方法进一步提升了图像分类的效果,同时相比文献[7]的结果又有4个百分点的提升,从而验证图像文本行检测较图像单词检测更能帮助提升图像细分类。表2纵向上对应的类别分别为:热点、宠物店、电影院、学校、餐车、按摩中心、宾馆、面包店、葬礼、电脑中心、买酒、小卖部、洗衣店、烟草店、修理部、当铺、茶馆、小酒馆、咖啡、酒馆、牛排餐厅、折扣店。