论文笔记:Fine-grained Image Classification by Visual-Semantic Embedding
来源:东南&电子科技&西交&南京邮电,IJCAI-18,paper
摘要
细粒度图像分类(fine-grained image classification, FGIC),难点在于很大的类内多样性与微妙的类间不同点
现有的方法限制在利用图像中的视觉信息嵌入
本文使用了一些先验知识,来自于结构化知识基础或者非结构化的文本信息,来简化FGIC问题。建立了一个视觉语义嵌入模型来从知识基础和文本中探索语义嵌入,然后训练一个CNN线性的将图像特征映射到语义嵌入空间当中。
Introduction
细粒度图像分离目标是子基础的类别中识别物体的子类别(例如辨识鸟的物种)。难点在于不同的类别之间相似度极高,而且同一类别的物体也会因为不同的动作、尺度等造成极高的不相似性。
此前的工作:
学习可区分的视觉表示
尝试将物体的不同部分局部化
思考人类的识别机制:人类识别图像中的物体时,不仅仅关注视觉信息,而且会考虑通过经验或者物体的文字描述获取的先验信息,这样的外部先验信息有两种:
文本信息:文字上下文中图片的类别标签经常有严格定义的内部结构,标签经常和相关的信息一同 ...
论文笔记:Multi-Label Zero-Shot Learning with Structured Knowledge Graphs
来源:CVPR-2018,台湾国立&CMU,paper
概述
问题描述:针对每一个输入预测多个见过的和没见过的标签
motivation:人类利用兴趣物体之间的语义信息的方式。提出了一个结合知识图谱的框架来描述多标签之间的关系。
模型中学习了一种在语义标签空间的信息传播方式,以此来建模见过的和没见过的label之间的相互依赖。
Introduction
自然图片的标注工作要求神经网络应该具有多标签的识别能力,这不仅需要将image与多标签关联起来,同时也需要发掘标签之间的关系,因为兴趣标签(labels of interest)是经常共同出现的。
目前对于多标签标注的工作:
二元相关性的分类建模:缺乏建模label共同出现的能力
通过假设标签先验来衡量label之间的关联的方法
基于label-embedding将images和labels映射到潜在的空间中去发现label之间的关联
BPPMLL首次提出使用loss函数建模label之间的依赖关系
多标签与zero-shot(ML-ZSL)
关键点在于预测出训练过程中并未定义的标签
二元相关性或者增加先验的方 ...
TensorFlow中的模型保存文件
文件构成
由TensorFlow保存的训练模型文件由四个文件组成:
12345.├── checkpoint├── v18.ckpt-2333.data-00000-of-00001├── v18.ckpt-2333.index└── v18.ckpt-2333.meta
每个文件的内容为:
文件
描述
checkpoint
指示文件夹中多个不同训练结果的属性,即如果在训练过程中保存了多次相同模型,在checkpoint文件中会保留每次保存的对应文件名
data
保存模型的中参数的值
index
保存模型中参数的名称和维度,相当于将模型中的参数名称和参数值关联起来
meta
保存计算图
模型保存与加载
通过以下语句可以实现当前模型的保存:
12345init = tf.global_variables_initializer()saver = tf.train.Saver()sess = tf.Session()sess.run(init)saver.save(sess, 'path_to_save')
需要注意的是,模型保存必须 ...
【转】 在 Linux 上如何清除内存的 Cache、Buffer 和交换空间
转载自Linux中国,原文:在 Linux 上如何清除内存的 Cache、Buffer 和交换空间
像任何其他的操作系统一样,GNU/Linux 已经实现的内存管理不仅有效,而且更好。但是,如果有任何进程正在蚕食你的内存,而你想要清除它的话,Linux 提供了一个刷新或清除RAM缓存方法。
Clear RAM Cache and Swap in Linux
如何在 Linux 中清除缓存(Cache)?
每个 Linux 系统有三种选项来清除缓存而不需要中断任何进程或服务。
(LCTT 译注:Cache,译作“缓存”,指 CPU 和内存之间高速缓存。Buffer,译作“缓冲区”,指在写入磁盘前的存储再内存中的内容。在本文中,Buffer 和 Cache 有时候会通指。)
仅清除页面缓存(PageCache) 1sync; echo 1 > /proc/sys/vm/drop_caches
清除目录项和inode 1sync; echo 2 > /proc/sys/vm/drop_caches
清除页面缓存,目录项和inode 1sync; echo 3 > / ...
CentOS生成CelebA-HQ数据集
正文
CelebA-HQ数据集是通过CelebA原始的未裁剪数据集生成的不同分辨率的版本。
数据集下载 Large-scale CelebFaces Attributes (CelebA) Dataset,注意要下载img_celeba.7z这个未裁剪的原始版本
数据集转化方式可以参考:CelebA-HQ的jpg格式版转化
下载img_celeba.7z,共计14个分卷压缩文件
解压文件,先合并文件再进行解压
1cat img_celeba.7z.0* > img_celeba.7z
解压文件可以直接使用unzip,但我处理时遇到了一些问题,见后文。
下载CelebA_hq_deltas,Google Drive,百度云地址见下文。
下载celebA的人脸标注list_landmarks_celeba.txt,和数据集在同一文件夹中
图片生成脚本 willylulu/celeba-hq-modified 中的 h5tool.py
遇到的问题:
使用cat链接之后再centos下无法使用unzip解压,报错如下:
1234567Archive: ...
论文笔记:Learning Region Features for Object Detection
来源:paper, MSRA & PKU, ECCV 2018
一些讲解
作者讲解
作者认为数据驱动的方式讷讷够提高准确性并且带来更强的适应性,即将原来人工智能系统各个模块中手工设置的部分改由可学习的参数。本文主要针对特征提取部分,例如ROI Pooling方法。
区域特征提取的一般化视角
基于区域的物体检测方法步骤总结为:图像特征生成、候选区域生成、区域特征提取、区域识别和重复检测去除。在区域特征提取步骤中会根据候选区域和图像特征通过人为的方式(池化、对齐池化、可形变池化等)提取出子区域的特征。但需要注意的是子区域可能并不具有固定的形状,甚至需要考虑相邻区域的特征。
数据驱动的区域特征学习
普通池化和对齐的区域池化完全是人工设计的,可形变的区域池化引入了可学习模块,但形式仍然限制在规则的网格形状。本文尝试用最少的人工设计学习权重的设置。建模时引入了注意力模型,希望能够衡量远距离或者性质各异的元素间的依赖关系。大量实验表明,注意力模型可以很好地对区域和图像位置间的几何关系进行建模。
论文阅读
Abstract
提出了一种统一观点整合了所有的区域特征提取方法
提出了 ...
论文笔记:Edge-Labeling Graph Neural Network for Few shot Learning
来源:paper, code,CVPR 2019, 韩国高等科技研究所&蒙特利尔大学
Abstract
EGNN: edge-labeling graph neutral network
学习预测边的label,使得网络可以利用对于类内相似性和类间不相似性的直接连接状态的探索,通过迭代更新边的标签,使得聚类表示是可以进化的
适合在各种数量的类别之间迁移并且不需要重新训练
Introduction
meta-learning:few-shot learning, learn-to-learn, non-stationary reinforcement learning, continual learning
使用GNN和深度神经网络来解决富连接结构的数据
GNN可以通过消息传递迭代地完成邻居的数据聚合,从而表述数据实体之间的复杂关系。
小样本算法需要更加全面的发掘support和query之间的关系
现有的方法
Few-shot learning with graph neural networks:先建立一个从support到query的全连接的图,节点使用嵌 ...
论文笔记:Relation Networks for Object Detection
来源:论文,code,MSRA & PKU,2018 CVPR
知乎笔记
主要贡献:
提出了一种relation module,可以将常见的物体特征融合进物体之间的关联性信息,同时不改变特征维数,因此可以很方便加入已有的网络框架
提出了一种代替NMS的去重模块设计,避免NMS需要手动设置参数的问题,真正实现模型的end-to-end训练
论文阅读
Introduction
NMS模块被设计用来消除重复的检测结果,作者认为这样的一个后处理步骤是heuristic and hand crafted。一直以来人们都认为图片的上下文信息或者物体之间的关系能够帮助检测,但深度学习方法中还没有关注到物体之间的关系。
object relation module 本文受到NLP领域的attention模型的启发,注意力模块可以通过元素集合影响单独元素的表现,这样就能得到一个聚合的表征【提到了图像加标题的工作】。对比object和sentence的attention设置,可以看做是维度上的变化(2D/1D),因此由两部分组成:the original weight和new geome ...