О проекте – что мы делаем и зачем
Наша agile-команда создает информационную платформу GM TA (Global Markets Trading Analytics) в интересах Департамента Глобальных Рынков (ДГР).
ДГР – предоставляет корпоративным и розничным клиентам широкий спектр продуктов и услуг на локальных и зарубежных финансовых рынках. Ключевые направления бизнеса – Fx trading, Commodities, Equity, Founding, Fixed Income, Rates, Credit Valuation Adjustment, Structured Products, Investment Banking.
Этот бизнес потребляет и порождает огромное количество данных, которые должны обрабатываться c целью:
- поддержки регулярных бизнес-операций
- проведения Ad hoc анализа
- подготовки регулярной аналитической / управленческой отчетности
- разработки моделей машинного обучения, направленных на решение широкого спектра прикладных задач прогнозирования, классификации, кластеризации, выявления поведенческих паттернов и отклонений от них, сентимент-анализ и т.д.
Разрабатываемая нами информационная платформа – высоконагруженное решение, призванное обеспечить достижение всех этих целей.
Текущий инструментальный стек платформы:
- Python-скрипты, Java
- Kafka, AirFlow
- MS SQL, Greenplum, PostgreSQL, InfluxDB
- Grafana, Qlik Sense
- Python ML/DL libraries, PySpark, PyTorch, TensorFlow
Вот примеры некоторых наших задач:
- Анализ чатов трейдеров. Чаты трейдеров представляют собой поток текстовых сообщений (переписку), которыми обмениваются трейдеры в процессе проведения торгов. Переписка содержит много сокращений и аббревиатур, причем один и тот же объект может обозначаться по-разному. Необходимо анализировать этот поток в режиме near-real-time (не реже 1 раз в 5 секунд) и извлекать из полученных сообщений данные о торговых фактах, в том числе: инструменты, цены, объемы сделок, начало/конец аукционов, текущие котировки, факты продаж и любую другую информацию, которая может быть выделена и систематизирована. Полученные результаты должны быть обработаны и приведены к единому формату (инструменты, даты, факты) с целью профилирования и сегментации трейдеров, формирования объемного представления о рынке и принятия оптимальных решений о проведении сделок
- Анализ новостного потока. Необходимо в приходящем из разных источников новостном потоке определять тематику каждой новости и ее эмоциональную окраску (позитив/негатив), выделять в контенте новости объекты, с которыми она связана – компании, государства и т.п. Кроме того, необходимо отслеживать каждую тему во времени, находить дубликаты новостей, оценивать интенсивность новостного потока и его влияние на спрос и котировки финансовых инструментов, прямо или косвенно связанных с объектами новостей
- Анализ отклонений в поведении клиентов. Клиенты, совершающие операции на валютном рынке, характеризуются определенными паттернами своих операций. Количество таких клиентов огромно, соответственно каждый день возникает значимый поток транзакций, связанных с ошибками/проблемами на стороне клиентов – выбор не той валютной пары, ошибка в порядке суммы операции, несвойственное клиенту отсутствие активности (как правило, из-за проблем с доступом к торговому терминалу). Необходимо выявлять отклонения от паттернов клиентских операций и формировать сигналы, позволяющие нормализовать ситуацию
- Сегментация клиентов для оптимизации продуктового предложения и цены. Клиенты характеризуются набором атрибутов, включающих принадлежность к отрасли, размер выручки, потребляемые финансовые продукты, паттерны движения денег на счетах, связанные с этим операции и т.д. Необходимо анализировать такие данные о клиентах с целью их сегментации и определения для сформированных сегментов перечней наиболее подходящих финансовых продуктов в допустимых ценовых диапазонах. Также необходимо выявлять факторы, сигнализирующие о наиболее подходящем моменте для предложения сделки клиенту
- Выявление фрода. Клиенты на валютном рынке, могут совершать операции, характеризуемые как fraud в отношении банка. Необходимо выявлять паттерны таких операций и своевременно реагировать на их появление в клиентском профиле, регулируя, соответствующим образом, ценовое предложение для таких клиентов
- Анализ данных аукционов. Во время проведения аукционов на различных торговых площадках необходимо, в режиме near-real-time (не реже 1 раз в 5 секунд), извлекать и анализировать данные об инструментах и ценах, опубликованных на этих торговых площадках с целью формирования объемного представления о рынке и принятия оптимальных решений о проведении сделок
- Хеджирование риска курсовых разниц по карточным операциям. Риск курсовых разниц возникает при оплате товаров и услуг в валюте, отличной от валюты счета карты. Валютные куры на день авторизации платежа и день расчета с международной платежной системой (МПС), как правило, разные, что может приводить к финансовым потерям. Необходимо в день авторизации прогнозировать объемы резервирования валют для будущих расчетов с МПС и сроки такого резервирования, учитывая, что авторизуемые суммы и суммы фактических платежей отличаются разнонаправленно
Теоретические знания
- Математика
- Теория вероятностей и статистика
- Машинное обучение
- Прикладное программирование
Уверенные практические навыки (hand zone)
- Иностранный язык. Понимание разговорного английского языка и свободное ведение деловой переписки
- Языки программирования ANSI SQL и Python
- Постановка задач, работа с бизнес-заказчиком
- Разработка полнофункционального прототипа ML/DL модели
- Операционализация модели и ввод ее в эксплуатацию (ОЭ/ПЭ)
Условия
- Развитая IT архитектура. Мощный GPU кластер, возможность расчётов на суперкомпьютере top-30 в мире
- Комфортный офис по ул. Вавилова, 19
- Скидки на продукты банка и экосистемы
- Постоянное развитие: обучающие курсы от лучших университетов и компаний, участие в международных конференциях
- Развитое DS community