М. Рамеш и Шрути Виджаякумар, Национальный центр таможенного контроля, Центральное управление косвенных налогов и таможни, Индия
Опубликовано в журнале Новости ВТамО № 102, 2023г.
Отбор грузов для досмотра с использованием базовых методов имеет ограничения, поэтому для повышения эффективности правоприменения таможенным администрациям необходимо изменить парадигму того, как они справляются с отбором (targeting) (нацеливанием, выбором объекта – варианты перевода). Им необходимо использовать науку о данных, междисциплинарную академическую область, которая использует статистику, научные вычисления, научные методы, процессы, алгоритмы и системы для извлечения или экстраполяции знаний и идей из зашумленных данных, как структурированных, так и неструктурированных. Чтобы применять инструменты обработки данных, вам необходимо иметь надежную архитектуру данных, и в этой статье мы углубимся в сложную архитектуру, разработанную индийской таможней.
Архитектура анализа данных относится к проектированию различных систем данных внутри организации и правилам, регулирующим сбор и хранение данных. Она лежит в основе операций по обработке данных и приложений искусственного интеллекта (ИИ). Индийская таможня разработала архитектуру для автоматического анализа данных, которая включает в себя пять взаимозависимых уровней, каждый из которых способствует целостному и динамичному подходу к таможенному нацеливанию (выбору объекта) и обнаружению. Целью этой статьи является освещение возможностей архитектуры в области анализа больших данных с целью точного выбора объекта (контроля).
Надежность архитектуры подкреплена ее способностью сочетать множество передовых компонентов обработки данных с человеческим интеллектом. Это позволяет индийской таможне интегрировать несколько источников данных, генерировать значимую информацию и использовать цели, полученные как на основе науки о данных, так и на основе человеческого опыта. Повторяющийся цикл обратной связи означает, что стратегии обнаружения могут быть адаптированы, что делает модель устойчивой перед лицом развивающихся методов контрабанды. Эти различные элементы представлены ниже.
УРОВЕНЬ 1: ЗАДЕКЛАРИРОВАННЫЕ И НЕДЕКЛАРИРОВАННЫЕ ДАННЫЕ
Первый уровень включает сбор, сопоставление (сборку письменной информации в стандартный порядок или последовательность) и перекрестную проверку имеющихся данных во время импорта товаров. Сюда входят как задекларированные (заявленные), так и незадекларированные данные.
Заявленные данные (declared data), которые обеспечивают исходные данные, включают, среди прочего, данные, представленные в импортной декларации (import declaration) и общем импортном манифесте (import general manifest), а также данные, содержащиеся в счете-фактуре, коносаменте и лицензиях. Если документы, представленные импортерами и перевозчиками, представлены в бумажном формате или в формате PDF, данные недоступны для автоматического анализа рисков, и для разработки автоматизированных решений, большое внимание уделяется использованию инструментов оптического распознавания символов (optical character recognition, OCR), в результате чего имеющиеся данные преобразуются в машиночитаемые форматы для системного анализа рисков.
«Незаявленные» данные (undeclared data) – это данные, полученные из открытых источников (Open-Source Intelligence, OSINT) и собственных хранилищ данных. Они образуют дополнительные источники для более точной настройки анализа. Они также включают данные отсканированного изображения, полученные с помощью оборудования неинтрузивного контроля. Данные можно отследить до исходных систем с помощью контрольного журнала.
Целью этого уровня является сопоставление необработанных данных (первичных данных, собранных из источника), связанных с указанной импортной декларацией. Диапазон данных выходит за рамки отдельного импорта и включает информацию из многочисленных сопоставимых импортов. Этот коллективный набор данных становится входными данными для алгоритмов или моделей, размещаемых на последующих уровнях, включая анализ изображений, автоматическую классификацию и генеративные модели на основе оценок. Благодаря входным данным этого уровня эти алгоритмы и модели распознают уникальные закономерности и аномалии, имеющие отношение к указанному импорту.
УРОВЕНЬ 2: РАЗРАБОТКА ФУНКЦИОНАЛЬНОСТИ
Необработанные данные не подходят для обучения алгоритмов машинного обучения. Вместо этого специалисты по данным уделяют много времени разработке функций. Это процесс преобразования необработанных данных в функции (также известные как переменные или атрибуты), подходящие для моделей машинного обучения. Понимание обучающих данных и целевой проблемы является неотъемлемой частью разработки функций, которая не является исключительно ручным процессом. Это выполняется с использованием алгоритмов анализа и кластеризации немаркированных наборов данных без вмешательства человека (машинное обучение без учителя (unsupervised machine learning, ML)), методов расширения признаков и эконометрических моделей.
Уровень 2 состоит из многочисленных «тем», которые существуют в каждой импортной транзакции: например, импортер, поставщик, страна происхождения и страна отгрузки. В результате исследования и всестороннего понимания объединенного набора данных на уровне 1 для каждой из этих тем было создано множество «функций». Таким образом, уровень 2 имеет несколько тем и связанных с ними функций, содержащих важную информацию, полученную на основе необработанных данных.
Основная цель этого уровня – включить широкий спектр торговых аспектов, прямо или косвенно отраженных в данных. Например, тема «импортер» может включать такие характеристики, как частота импорта, импортируемый товар и тип импортера. Такие атрибуты, как геодемографические данные импортера, принимаются во внимание для разработки возможных оценок рисков в структуре импорта импортера.
Функции могут быть созданы с использованием машинного обучения без учителя. Кодификация сведений о поставщиках и описаний товаров для последующего эффективного отбора является важнейшей производной функцией, создаваемой такими инструментами.
УРОВЕНЬ 3: ЦЕЛЕВОЕ РАЗВИТИЕ
Контрабандная деятельность часто маскируется под устоявшиеся модели торговли, однако в пределах одной или нескольких точек данных существуют небольшие отклонения. Надежная конструкция уровня 3 эффективно помечает такие подозрительные импортные декларации с помощью «целей», тщательно созданных для выявления этих отклонений или аномалий. Цели создаются машинами и людьми посредством анализа тенденций контрабанды, предыдущих изъятий и возникающих угроз. Они объединяются с алгоритмами, которые затем кодируются в машину с использованием функций уровня 2.
Например, цели, сгенерированные машиной, отмечают случаи неправильной классификации и занижения стоимости товара. Сопоставление шаблонов с базой данных о правонарушениях в системе обеспечивает автоматический выбор объекта. Таким образом, уровень 3 представляет собой ключевой шаг, на котором различные цели предназначены для устранения и автоматического оповещения о различных типах рисков. Широкий набор целей обеспечивает надежность модели.
УРОВЕНЬ 4: УРОВЕНЬ ПРИНЯТИЯ РЕШЕНИЙ – ГЕНЕРАЦИЯ ИССЛЕДОВАНИЙ
Уровень 4 объединяет машинно-генерируемую информацию о рисках и целевые показатели для точной идентификации рискованных импортных партий и создает «панель мониторинга» (dashboard). Эта информационная панель, в которой в качестве входных данных используются цели предыдущего уровня, представляет собой модель принятия решений, созданную с помощью машинного обучения, которая выделяет рискованные поставки в качестве выходных данных.
Информация о рисках формируется в результате анализа набора данных уровня 1 в сочетании с обработкой данных на уровнях 2 и 3.
Данные автоматически генерируются машиной по каждой целевой импортной декларации через сетевые ассоциации. Они подчеркивают потенциальные факторы риска, такие как закономерности, показывающие, что импортер «прыгает» между различными параметрами, например, портом, товаром, поставщиком и таможенным брокером, корреляцией между импортером и поставщиком и анализом рисков поставщика. На основе анализа на этом уровне принимается решение о том, подлежит ли груз задержанию. Результаты затем передаются на уровень 5.
УРОВЕНЬ 5: ГЕНЕРАЦИЯ ПРЕДУПРЕЖДЕНИЙ
Последний уровень превращает анализ, идеи и выводы в легко понятные, удобочитаемые отчеты. Сотрудники таможни получают полный обзор обнаруженных аномалий и закономерностей, что позволяет быстро принимать решения и действовать. Читабельность отчетов, создаваемых системой, имеет решающее значение: хорошо продуманный и легко понятный отчет служит мостом между аналитическими данными, полученными с помощью архитектуры, и таможенниками в портах, которые полагаются на эти данные для принятия решительных действий.
ДИНАМИЧЕСКИЙ ЦИКЛ ОБРАТНОЙ СВЯЗИ: СОВЕРШЕНСТВОВАНИЕ СТРАТЕГИЙ выбора объекта
Отличительным аспектом этой архитектуры является ее способность динамически реагировать за счет включения повторяющегося цикла обратной связи. Этот повторяющийся процесс обеспечивает постоянное развитие аналитической модели, адаптируясь к новым тенденциям контрабанды. Данные, относящиеся к импортным декларациям, которые помечены как «правонарушения» и хранятся в базе данных о правонарушениях, передаются обратно на уровни 2, 3, 4 и 5. В базу данных включаются все правонарушения, независимо от того, были ли они выявлены с помощью модели выбора объекта или с помощью другого метода.
Например, на уровне 2 успешное обнаружение контрабанды, а также ложные срабатывания дают ценную информацию о характеристиках, которые наиболее указывают на потенциальную контрабанду. Обратная связь служит для переоценки ряда функций, включенных в анализ, и потенциально вводит новые функции, которые оказались более эффективными в точном выявлении незаконной торговли. Это, в свою очередь, помогает в реконструкции экспертных целей на уровне 3, что впоследствии приводит к уточнению принятия решений на уровне 4 и повышению точности удобочитаемых отчетов уровня 5.
ПРОИЗВОДИТЕЛЬНОСТЬ
Эта архитектура обработки данных, объединяющая передовой анализ данных с человеческим интеллектом, доказала свою эффективность и результативность в обнаружении случаев контрабанды, а также запрещенных и ограниченных к ввозу товаров. Эта модель позволила обнаружить около 3000 кг героина, контрабандно ввезенного из Афганистана морским импортным грузом в порту Мундра, штат Гуджарат. В число других успешных случаев обнаружения входят 7,2 миллиона пачек сигарет иностранных марок, спрятанных в импортной партии в Нхаве. Порт Шева и семена мака, спрятанные в партии, прибывшей в порт Ченнаи, и это лишь некоторые из них.
Модель продемонстрировала свою способность значительно повысить потенциал таможенных администраций в борьбе с контрабандой. Многоуровневая архитектура и непрерывный цикл обратной связи гарантируют, что модель остается динамичной и актуальной. По мере развития ландшафта угроз эта модель может по-новому определить борьбу с незаконной торговлей, тем самым защищая экономику и общество от угрозы контрабанды.
Дополнительная информация
sruti.vijayakumar@gov.in
Mramesh.irs@gov.in
Перевод: Мозер С.В.
Telegram: https://t.me/teloneum
28.10.2023