0%

2020年左右小样本问题顶会论文笔记

一些论文的笔记,不会写的很详细,只会列出核心思想和我认为的优缺点,miniImageNet中5-way,1-shot的准确率,不会详细解读每一篇论文。

  1. Meta-Transfer Learning for Few-Shot Learning, CVPR, 2019
  2. Adaptive Cross-Modal Few-shot Learning, NIPS, 2020
  3. Meta-Learning of Neural Architectures for Few-Shot Learning, CVPR, 2020
  4. Charting the Right Manifold: Manifold Mixup for Few-shot Learning, IEEE(WACV), 2020
  5. A BASELINE FOR FEW-SHOT IMAGE CLASSIFICATION, ICL, 2020
  6. Zero and Few Shot Learning with Semantic Feature Synthesis and Competitive Learning, IEEE transactions on pattern analysis and machine intelligence, 2020

Warning:优缺点仅代表个人意见。

第一篇

Meta-Transfer Learning for Few-Shot Learning, CVPR, 2019

准确率

$61.2\pm1.8\%$。

核心思想

  1. 迁移学习获取预先的知识,将已有的知识用到小样本中;
  2. 对于表现很差的查询数据,进行反复训练。就像高中那会儿,整理错题本并反复做错题一个道理。

优缺点

优点

类似错题本的想法,通过错误和困难来学习到更好的网络。

缺点

引用论文原话:

Specifically, for a particular few-shot dataset, we merge all-class data $D$ for pretraining. There are totally 64 classes in the training split of $D$ and each class contains 600 samples used to pre-train a 64-class classifier.

“pre”means pre-trained for a single classificationtask using all training datapoints.

意思是,对于一个具体任务。提前把任务中的所有样本都训练了一遍获取了知识,然后又用训练好的经验去做同一个任务的小样本问题。

个人感觉这并不是很好的处理小样本的方式。利用迁移学习无可厚非,但,知识应该来源于其他领域,而非目标领域。对目标领域预训练获取知识后,就不叫小样本了。所以我感觉论文里提到的$SS$操作并没有什么用处,完全是前期经验好,也没继续去做实验来验证我的想法。

第二篇

Adaptive Cross-Modal Few-shot Learning, 2019, NIPS

准确率

$65.3\pm0.49\%$。

核心思想

在图像分类问题中,图像本身带有视觉信息。当视觉模态的信息很少时,可以尝试利用语义模态的信息。利用 GloVe 获得词嵌入矩阵,这样就能得到标签的语义表示。于模态对齐相反的是,将数据的视觉信息和语义表示同时扔进两个网络,语义的网络学习得到一个参数$\lambda$,将语义空间的表示和视觉空间的表示进行线性加权,得到最后的结果:

\begin{equation}
\lambda \textbf{p}_c + (1-\lambda) \textbf{w}_c
\end{equation}

优缺点

优点

  1. 这是一种通用的方法,并不涉及网络结构的设计,因此这种方法可以扩展到任何基于度量的小样本学习方法中。
  2. 通过参数$\lambda$的学习,能自适应的结合视觉模态和语义模态。当图片样本多时,语义模态的权重就少,当图片样本少时,语义模态的权重就大。

缺点

暂时想不到,个人认为是这些论文里思想最好的。

第三篇

Meta-Learning of Neural Architectures for Few-Shot Learning, CVPR, 2020

准确率

$61.7\pm0.3\%$

核心思想

个人对 NAS(neural architecture search) 不太熟,但愿我没理解错。NAS 的方法中有一类是基于梯度下降来调整网络结构的,而 meta-learning 中也有基于梯度下降来调整网络参数的。那么以 meta-learning 为框架,在训练数据的时候同时对这两者进行梯度下降,学到最后的网络结构和参数。

然后如果没看错:后面的章节应该是调节 softmax 的方式,使得网络中节点边之间的权重(DARTS算法)快速的向 0 或 1靠近,避免网络结构难以训练时需要重新训练 meta-learning 的参数。实在对 NAS 不太熟,但愿没理解错。

优缺点

和 NAS 结合了起来,但,总感觉偏应用。

第四篇

Charting the Right Manifold: Manifold Mixup for Few-shot Learning, IEEE, MACV, 2020

准确率

$64.93\pm0.18\%$

核心思想

该论文设计的算法的目标就是在迁移学习的第一个阶段(即训练模型$f$的参数), 能够学习到一个模型, 该模型能够学习到丰富的, 通用的, 有意义的特征表示, 对数据分布的微小变化具有鲁棒性.

使用了自监督学习的方法, 来首先学习到一个丰富, 通用, 有意义的特征表示(特征流形). 使用了两个辅助任务(可以任选其一): rotation和exemplar. (表现为损失函数)。我的理解: 特征流形就是一个特征空间, 这个特征空间中的特征向量是低维的, 没有冗余, 丰富的, 表示强。使用正则化技术(流形混合(manifold mixup)), 通过插值法实现的, 原理: 使决策边界更加光滑, 每个类的数据表示在一个更低的维度空间, 可以泛化到新任务中.

第五篇

A BASELINE FOR FEW-SHOT IMAGE CLASSIFICATION, ICL, 2020

准确率

$68.11\%$

核心思想

对经过标准交叉熵损失训练的深度网络进行微调,是进行少量学习的坚实基础。如果对它们进行超导地微调,它的性能将优于标准数据集中具有相同超参数的最新技术。传统交叉熵:

\begin{equation}
\theta^*(D_s)=\arg\min_\theta\frac{1}{N_s}\sum_{(s,y)\in D_s} -\log p_\theta(y|x)
\end{equation}

其中$D_s$代表训练集,$N_s$表示训练集中数据量。传导式微调:假设有一个查询样本$(x,y)$属于$D_q$,
\begin{equation}
\theta^*=\arg\min_\theta\frac{1}{N_s}\sum_{(s,y)\in D_s} -\log p_\theta(y|x)+\frac{1}{N_q}\sum_{(x,y)\in D_q} H(p_\theta(\cdot|x))
\end{equation}
其中,$H$代表香农熵,作为损失函数的正则化项。

第六篇

Zero and Few Shot Learning with Semantic Feature Synthesis and Competitive Learning, IEEE transactions on pattern analysis and machine intelligence, 2020

准确率

$62.28\pm0.13\%$

核心思想

通过两个方法来进行零样本学习,即: unseen classes 数据合成和健壮的投影函数学习。通过一定的策略从seen classes 数据生成 unseen classes 数据, 然后通过投影函数模型来最好的利用合成的unseen classes数据。

  1. 合成的特征向量不能被认为属于第 $j$ 个unseen class. 也就是说, 生成的样本比较混乱. 不能正确归类。
  2. BPL(竞争双向投影学习): 进行label correction. 所谓的竞争就是每个合成的样本应该更接近更可能的 unseen class centre, 同时原理次好的(候选的)unseen class centre。 所谓双向是指loss既有正向的(从语义空间投影到特征空间)又有反向(从特征空间投影到语义空间)的投影误差。
感谢上学期间打赏我的朋友们。赛博乞讨:我,秦始皇,打钱。

欢迎订阅我的文章