EVO — продуктова українська IT-компанія.
19 ноября 2019

Lead Data Scientist (проект Prom.ua)

Киев

Prom.ua — провідний торговий майданчик в Україні, майже 50 000 продавців і 120 000 000 пропозицій, кожна 5-а гривня в уанеті витрачається на нашому prom.ua.

Prom.ua в цифрах:
по навантаженню 20 млн переглядів сторінок в день (180 млн подій при цьому),
5.5 млн запитів на пошукову видачу,
трафік в місяць близько 70 млн сесій,
в онлайні в піку одночасно 21к користувачів, близько 3 тис запитів в секунду на основний додаток,
близько 5 тис запитів зображень в секунду,
4 млн завдань виконується за добу,
близько 120 млн товарів в PostgreSQL/Elasticsearch
Розробкою Prom.ua займається 5 команд, кожна з них відповідає за свою частину проекту і сервіси

Ми в пошуках Lead Data Scientist’a в команду Marketplace.

Команда Marketplace займається такими напрямками:
каталог товарів (робота з картками товару, з видачею товарів, seo оптимізація, антиспам)
робота з рекомендаціями товарів
seo
пошукова система
система аналітики та великих даних
сервіс обробки/віддачі зображень

Що вже в нас є/Що пробували і що вийшло:
— Зробили генерацію і валідацію ключових слів для товарів. Після запуску на продакшені повернули модель на доопрацювання
— Кластеризація товарів в модель — готова модель, чекає черги для реалізації на продакшені
— Пошук по зображеннях (схожі, ідентичні) в процесі викочування на продакшен
— Детекція фродових відгуків в процесі викочування на продакшен
— Детекція фродової поведінки компанії працює на продакшені
— Рекомендаційна система в процесі розробки
— Виділення контексту з тексту — модель готова, чекає чергу для реалізації на продакшені
— Визначення предмету пошуку — модель готова, чекає чергу для реалізації на продакшені

Що хочемо побудувати в напрямку Data Science? Які виклики і чому це може бути вам цікаво?
Ми віримо в smart бізнес і розуміємо, що за допомогою даних можемо побудувати краще рішення для підприємництва на території України. Тому хочемо побудувати систему, яка дозволятиме легко створювати і перевіряти гіпотези в напрямку data science.

У напрямку data science використовуємо:
Оскільки ми переходимо до мікросервісної архітектури, то обмежень на стек технологій немає, окрім резонних потреб під конкретне завдання. На даний момент легасі стеку не існує, починаємо використовувати бібліотеки scikit-learn, scikit-image, FastText, зв’язка keras+tensorflow, pytorch, Spark MLlib.
Стосовно даних: для опрацювання зібраної аналітики використовується Hadoop кластер (HDFS+Yarn+Hive), над яким Spark працює движком виконання тасок (досвід роботи зі стеком буде як +, але не є необхідним). Ми збираємо дані аналітики з 2014р і на сьогодні зосередили 14Тб, які можна використовувати при навчанні моделей.

Навіщо нам TL Data Scientist? І хто в команді вже є?
Нам потрібна нова експертиза і потрібна людина, яка готова взяти відповідальність за реалізацію амбітних цілей, яка має бачення побудови Data Science команди. Бажано і важливо бути t-shaped person, тобто з глибокими знаннями в одному напрямку і загальним розумінням всіх сфер діяльності data science. У команді зараз є два data scientist-a тому важливо вміти розвивати і давати конструктивний зворотний зв’язок.

Наші кандидати:
— мають досвід роботи з Python (Pandas, NumPy, scikit-learn, алгоритми, структури даних);
— мають навички візуалізації даних (дослідження, інтерпретування результатів, а також знання основних python бібліотек matplotlib, seaborn)
— мають теоретичні знання машинного навчання (можуть пояснити, як працюють функції стандартних бібліотек);
— мають бачення стосовно поставленої задачі (яким буде підхід до вирішення; що робити, якщо вибраний підхід не спрацював; які критерії оцінки успішності розв’язку)
— мають бажання вести задачу від етапу прототипу моделі до деплою на прод і корекції при отриманих результатах (звісно, з деплоєм буде необхідна допомога)
— не бояться витратити час на підготовку даних (розібратися, що потрібно і зробити необхідний препроцесинг), мають досвід роботи з SQL

Про технічний департамент в EVO і всі наші рішення:
Основні мови програмування: Python, JavaScript, TypeScript, Golang.
Нові Python-проекти починаємо на aiohttp.
Для JavaScript на бекенді використовуємо express або koa. Все більша частина API переходить на GraphQL, тому регулярно підключаємо Apollo Server. Значна частина сервісів на Node.js написана на TypeScript. Фронтенд пишемо в основному на React.
В основному базою даних беремо PostgreSQL. В сервісах також використовуються MongoDB, ClickHouse. Для пошуку використовуємо ElasticSearch. Для асинхронних завдань — RabbitMQ або Kafka.
CI / CD реалізуємо через GitLab. Продакшн працює на kubernetes (istio, prometheus, elk stack, grafana).
Онлайн аналітика на Spark Streaming (Scala) + Clickhouse + GraphQL.

LinkedIn

Горячие вакансии

Все вакансии

Похожие вакансии

Все похожие вакансии