Мы продуктовая компания ПрессИндекс. Ищем ML/AI инженера, который будет развивать интеллектуальное ядро продукта по мониторингу СМИ и соцмедиа: от обработки текстов до построения аналитики по компаниям, событиям и информационным волнам.
Чем предстоит заниматься
- Разрабатывать и развивать модули обработки текстов:
1. извлечение сущностей (компании, персоны, бренды, объекты)
2. определение тональности и полярности
3. тематическая классификация и рубрикация
4. определение типа и характера упоминаний (новость, отзыв, инсайд и т.п.).
- Строить аналитические характеристики:
1. метрики и скоринги для компаний, брендов, отраслей,
2. профили упоминаний, рисковые индикаторы, динамику и аномалии.
- Работать с векторным представлением текстов:
1. модели эмбеддингов, семантический поиск, кластеризация событий,
2. поиск похожих публикаций, построение цепочек распространения.
- Участвовать в полном цикле ML-разработки:
1. формирование датасетов, разметка и подготовка данных,
2. обучение, валидация, подбор гиперпараметров,
3. интеграция моделей в прод: API/сервисы, оптимизация, мониторинг качества.
- Вместе с командой архитектуры и backend:
1. продумывать, как встроить модели в существующую инфраструктуру,
2. обеспечивать масштабируемость и стабильность работы ML-сервисов.
Наш стек (ML / данные)
- Python (pandas, numpy, scikit-learn).
- PyTorch / TensorFlow, HuggingFace Transformers.
- Инструменты для работы с текстом русскоязычными и англоязычными моделями.
- Хранение и обработка данных: PostgreSQL, Elasticsearch, S3-совместимые хранилища.
- Docker, базовый MLOps (CI/CD для моделей, трекинг экспериментов — MLflow и аналоги).
Кого мы ищем:
- 2–3+ года опыта в ML / DS, фокус на NLP или желание туда уйти полноценно.
- Наличие понимания классических и современных подходов в обработке текста:от TF-IDF и линейных моделей до трансформеров и эмбеддингов.
- Умение формализовать задачу: от бизнес-проблемы к ML-постановке.
- Опыт подготовки и чистки данных, построения метрик качества и их интерпретации.
- Практический опыт вывода моделей в прод (как минимум участие в этом процессе).
Плюсом будет:
- опыт работы с медиа-данными (новости, Telegram, соцсети, отзывы),
- опыт построения векторного поиска, кластеризации событий,
- участие в RAG-сценариях или чат-ботах поверх корпоративных данных.
Что предлагаем:
- Возможность влиять на то, как бизнес видит и измеряет информационное поле.
- Реальные данные: новости, соцмедиа, телеграм-каналы, сложные кейсы по компаниям и отраслям.
- Возможность выбирать и обосновывать методы и модели, а не только «допиливать чужой код».
- Ну и, конечно, стандартно: белая зп, дмс, хороший офис с бариста в штате как в кофейне
- Классная команда молодых мотивированных ребят в качестве коллег.