Data Engineer (CV)

В **Neiro.ai** мы ****занимаемся Generative AI в разных модальностях (Computer Vision, Speech, NLP), пишем диалоговый движок для создания цифровых AI-аватаров, и упаковываем это как в развлекательные Mobile Apps, так и в B2B продукты (наши технологии можно найти в Canva и Adobe Express)

Деньги от инвесторов Looksery и AI Factory (приобретены компанией Snap за $150+ млн и $200+ млн соотвественно). Получили грант от Nvidia Inception

Запустили ряд Generative AI приложений с социальными функциями. Научились портировать наши нейросетки на мобильные устройства и оптимизировать Inference

У нас сильная команда (ex Nvidia, Google, Amazon, Samsung AI, Lyft, Mail.Ru, VK, PicsArt, VisionLabs), и мы ищем мотивированного Python или Data Engineer-а, который будет отвечать за создание и подготовку датасетов, использующихся для обучения всех наших нейронок.

🤓 Задачи

Искать и скачивать датасеты ручками
Писать пайплайны для автоматического сбора данных
Создавать пайплайны по очистке и фильтрации данных с использованием ML моделей
Ставить задачи для студий разметки данных
Создавать проекты на Yandex Toloka, Amazon Mechanical Turk

📦 Задачи на 3 месяца

Структурировать данные о уже имеющихся датасетах
1. Изучить имеющиеся датасеты
2. Составить табличку с характеристиками каждого датасета: где какие данные, в каком кол-ве и с какими особенностями?
Подготовить датасет с лицами
1. Отфильтровать картинки, где лицо больше чем 512x512
2. Отфильтровать плохие картинки: темно, смазанная фотография, есть артефакты сжатия
3. Посмотреть на распределение данных: женский пол, мужской пол, кластеризовать данные по признакам
4. Проанализировать домейн гэп между изображениями полученными с телефона и картинками из датасета
Написать пайплайн для создания диалогового датасета
1. Используя ML модель, определить для каждого момента в записи какой спикер разговаривает
2. Распознать речь на каждом куске аудио
3. Обьединить находящиеся рядом реплики в диалог
Написать пайплайн для создания датасета с репликами нужного персонажа
1. Используя ML модель, определить куски, где говорит искомый спикер
2. Вырезать эти куски

👩‍💻 Требования

Уверенное владение Python, Bash
Понимание современного Web (JS), чтобы писать работающие скраперы при необходимости (Selenium)
Проактивность. Если тебе нужно подкидывать мотивации, давать задачки и спрашивать "когда будет готово?", то нам с тобой не по пути 🙅🏻‍♀️