Сучасна диджитал-освіта для дітей — безоплатне заняття в GoITeens ×
EVO— продуктова українська IT-компанія. Центральний офіс знаходиться в Україні (м.Київ). 900+ співробітників, технічний департамент понад 300 осіб, розробників понад 200 осіб. Ми працюємо віддалено та в гібридному форматі. Місія EVO — створювати можливості для розвитку підприємництва.
12 червня 2018

Middle Machine Learning Engineer (проект Prom.ua) (вакансія неактивна)

Київ

Проект Prom.ua компанії EVO в пошуках Middle Machine Learning Engineer’a
Prom.ua — провідний торговий майданчик в Україні, майже 40 тис. продавців та 90 млн пропозицій. Кожна 5-а гривня в уанеті витрачається саме на prom.ua.

Prom.ua в цифрах:
по навантаженню 20 млн переглядів сторінок в день (162 млн подій при цьому)
5.5 млн запитів на пошукову видачу
трафік в місяць близько 60 млн сесій
в онлайні в піку одночасно 17 тис користувачів, близько 1 тис. запитів в секунду на основний додаток
близько 5 тис. запитів зображень в секунду,
4 млн завдань виконується за добу,
близько 100 млн товарів в PostgreSQL/Elasticsearch
Розробкою Prom.ua займається 5 команд, кожна з них відповідає за свою частину проекту і сервіси

Щотижня в компанії проходять внутрішні доповіді від технічних фахівців EVO (dev-club і js-club).

Ми шукаємо Middle Machine Learning Engineer’a в команду Marketplace (1 з 5 команд розробників проекту Prom.ua)

Наша команда Marketplace займається такими напрямками:
— каталог товарів prom.ua і пошукова система
— система відгуків
— система імпорту / експорту товарів
— бекенд мобільного додатка Prom.Покупкі
— система аналітики і великих даних
— сервіс обробки / віддачі зображень

У напрямку data science використовуємо:
Оскільки ми переходимо до мікросервісної архітектури, то обмежень на стек технологій нема, окрім резонних потреб під конкретне завдання. На даний момент легасі стеку не існує, починаємо використовувати бібліотеки scikit-learn, scikit-image, gensim, зв’язка keras+tensorflow, Spark MLlib.

Стосовно даних: для опрацювання зібраної аналітики використовується Hadoop кластер (HDFS+Yarn+Hive), над яким Spark працює движком виконання тасок (досвід роботи зі стеком буде як +, але не є необхідним). Ми збираємо дані аналітики з 2014р і на сьогодні зосередили 7Тб, які можна використовувати при навчанні моделей.

Наш кандидат:
— має досвід роботи з Python (Pandas, NumPy, scikit-learn, алгоритми, структури даних);
— має навички візуалізації даних (дослідження, інтерпретування результатів, а також знання основних python бібліотек matplotlib, seaborn)
— має не тільки розуміння, які функції в конкретній бібліотеці реалізують необхідні йому моделі, але й — розуміє що лежить всередині використання цієї моделі (переваги та недоліки, обмеження, які — встановлюють використані для обрахунку алгоритми)
— має бачення стосовно поставленої задачі (яким буде підхід до вирішення; що робити, якщо вибраний підхід не спрацював; які критерії оцінки успішності розв’язку)
— має бажання вести задачу від етапу прототипу моделі до деплою на прод і корекції при отриманих результатах (звісно, з деплоєм буде необхідна допомога)
— не боїться витратити час на підготовку даних (розібратися, що потрібно і зробити необхідний препроцесинг), має досвід роботи з SQL

Буде перевагою:
— хороша математична підготовка (теорія ймовірності, статистика, лін. алгебра, методи оптимізації)
— розуміння принципів роботи різних архітектур нейромереж;
— досвід використання DL фреймворків (TensorFlow, PyTorch);
— досвід вирішення завдань NLP;
— досвід застосування моделей в production;
— досвід роботи зі стеком технологій Big Data (Hadoop, Spark, Hive) і вирішення задач машинного навчання в ньому;
— участь на kaggle змаганнях та хакатонах (додавайте лінк на профіль в резюме) ;
профіль на github з прикладами вирішених кейсів (додавайте лінк на профіль в резюме)

Завдання, для яких ми шукаємо людей:
1. Збільшення релевантності пошукової видачі, шляхом тюнінгу параметрів, що впливають на фінальний скор позиції у видачі (оцінка валідності тексту, відповідно до заданих параметрів; класифікація текстів; можливо named entity recognition)
2. Визначення ключових слів для товарів по фото/опису
3. Робота з аномаліями
4. Ранжування в подібних товарних блоках на підставі поведінки користувача, а не схожості товарів
5. Робота з неякісним контентом

Точно буде в роботі:
— робота по налагодженим процесам (стенд-апи, ретро, ​​планування, оne2one ..)
— експерименти з новими технологіями та сервісами
— менторство
— команда і її традиції
— робота з великими даними (100+ млн продуктів з характеристиками в різних категоріях)

Точно НЕ буде в роботі:
— нудно
— тайм-трекінгу завдань

З технічного боку Prom.ua:

Python 2.7 (перехід на 3.6 / aiohttp з поділом на мікросервіси), є кілька продуктів / сервісів, написаних на Go, Node.js, Scala.
Стандартна база — PostgreSQL (експериментуємо c CockroachDB);
Для нашого пошуку використовуємо ElasticSearch. Під вирішення окремих завдань існують кастомні плагіни. Експериментуємо з Clickhouse.
React, рухаємося в бік GraphQL + Apollo і плавно Мігруємо на серверний пререндерінг.
Webpack 2, GitlabCI, Kibana, Сelery + RabbitMQ, Kafka, GRPC, Grafana, Memcached.
більше подробиць про тех рішення в EVO: goo.gl/7huXZR

Гарячі вакансії

Всі вакансії