Поиск аномалий с помощью евклидова расстояния

Метод на основе меры расстояния удобен при поиске аномальных значений в многомерных данных. С помощью евклидова расстояния можно анализировать степень сходства объектов.

Исходные данные

Импортируемая таблица

Имя поля Метка поля
 code Код анкеты
 summ СуммаКредита, руб
 age Возраст

Переменные пользователя

Имя поля Метка поля
 dLimit Нижнее пороговое значение
 pLimit Верхнее пороговое значение

Алгоритм

  1. Импорт входных данных;
  2. Подготовка данных: приведение к единому порядку, добавление полей;
  3. Расчет евклидова расстояния;
  4. Нахождение аномалий.

Сценарий

Сценарий поиска аномалий с помощью евклидова расстояния.
Рисунок 1. Сценарий поиска аномалий с помощью евклидова расстояния.

 Исходные данные

В этом узле импортируются данные из LGD-файла для дальнейшей обработки.

 Уменьшение порядка

Для того, чтобы расчеты были корректными, все параметры должны быть одного порядка, иначе влияние одной из величин на результат может оказаться более существенным. Поэтому в этом узле порядок исходных данных приводится к одному виду.

 Слияние

Далее производится полное внешнее слияние данных для получения всех возможных комбинаций исходных данных.

 Евклидово расстояние и определение значений меньше порога

С помощью математического аппарата рассчитывается значение евклидова расстояния для каждой полученной комбинации. Также определяются записи, в которых евклидово расстояние меньше либо равно заданному порогу dLimit.

 Фильтрация значений меньше порога

Определенные на предыдущем шаге записи, в которых значение евклидова расстояния меньше порогового, отфильтровываются для дальнейшей обработки.

 Группировка

Далее для каждой записи считается, сколько раз расчетное евклидово расстояние не попало в необходимый диапазон.

 Поиск аномалий

Для всех полученных записей рассчитываются аномальные значения. Если определенное на предыдущем шаге количество меньше либо равно пороговому значению pLimit, то такая запись считается аномальной.

 Найденные аномалии

В конце найденные аномалии выделяются из основного набора для дальнейшего анализа аналитиком.

Полученные в ходе выполнения сценария аномальные значения приведены на рисунке:

Полученные аномалии.
Рисунок 2. Полученные аномалии.

Компоненты

Файлы

Скачать

results matching ""

    No results matching ""