异常检测

问题

已知训练数据找到一个函数，判断输入x是否与训练数据相似

(anomaly不一定是不好的，也被称为novelty，outlier，exceptions detection)

什么是anomaly

取决于训练数据，与训练数据不同的就是异常的。

应用

fraud detection

训练数据：正常刷卡行为异常数据：盗刷

network instrusion detection

训练数据：正常连线异常数据：攻击行为

cancer detection

训练数据：正常细胞异常数据：癌细胞

如何做异常检测

binary classification?

类1：正常数据类2：异常数据 不能解决

原因1：异常数据太多，无法穷举原因2：异常数据不好收集

with label

例子——辛普森一家分类器

方法

使用现成分类器

训练一个分类器，给出每个类比的confidence

设置一个阈值大于该阈值是辛普森，小于该阈值是异常。

可行的方法 confidence：给出最大的confidence entropy：给出熵（乱度），entropy越大说明分布平均，不确定是哪个类别。

训练一个可以直接输出confidence的网络

框架

训练集：辛普森一家的图片，每个图片x有标签y。训练分类器。获得confidence，根据是否超过阈值判断是否为anomaly 验证集（模仿测试集）：图片中有辛普森一家的人，也有不是的。可以通过验证集来计算f（x）的表现，确定超参数的值（比如阈值）测试集：输入图片x，判断是不是辛普森一家。

评估

方式：在dev set上对模型评价注意：使用正确率不是一个好的指标。因为正负样本的比例悬殊。一个系统可能正确率很高，但是并没有意义。 False alarm：正常被侦测为异常。 mising：异常被侦测为正常。一个系统的好与坏，取决于False alarm比较重要，还是mising比较重要。可以利用cost table来衡量系统的好坏。