В **Neiro.ai** мы ****занимаемся Generative AI в разных модальностях (Computer Vision, Speech, NLP), пишем диалоговый движок для создания цифровых AI-аватаров, и упаковываем это как в развлекательные Mobile Apps, так и в B2B продукты (наши технологии можно найти в Canva и Adobe Express)
Деньги от инвесторов Looksery и AI Factory (приобретены компанией Snap за $150+ млн и $200+ млн соотвественно). Получили грант от Nvidia Inception
Запустили ряд Generative AI приложений с социальными функциями. Научились портировать наши нейросетки на мобильные устройства и оптимизировать Inference
У нас сильная команда (ex Nvidia, Google, Amazon, Samsung AI, Lyft, Mail.Ru, VK, PicsArt, VisionLabs), и мы ищем мотивированного Python или Data Engineer-а, который будет отвечать за создание и подготовку датасетов, использующихся для обучения всех наших нейронок.
🤓 Задачи
- Искать и скачивать датасеты ручками
- Писать пайплайны для автоматического сбора данных
- Создавать пайплайны по очистке и фильтрации данных с использованием ML моделей
- Ставить задачи для студий разметки данных
- Создавать проекты на Yandex Toloka, Amazon Mechanical Turk
📦 Задачи на 3 месяца
- Структурировать данные о уже имеющихся датасетах
- Изучить имеющиеся датасеты
- Составить табличку с характеристиками каждого датасета: где какие данные, в каком кол-ве и с какими особенностями?
- Подготовить датасет с лицами
- Отфильтровать картинки, где лицо больше чем 512x512
- Отфильтровать плохие картинки: темно, смазанная фотография, есть артефакты сжатия
- Посмотреть на распределение данных: женский пол, мужской пол, кластеризовать данные по признакам
- Проанализировать домейн гэп между изображениями полученными с телефона и картинками из датасета
- Написать пайплайн для создания диалогового датасета
- Используя ML модель, определить для каждого момента в записи какой спикер разговаривает
- Распознать речь на каждом куске аудио
- Обьединить находящиеся рядом реплики в диалог
- Написать пайплайн для создания датасета с репликами нужного персонажа
- Используя ML модель, определить куски, где говорит искомый спикер
- Вырезать эти куски
👩💻 Требования
- Уверенное владение Python, Bash
- Понимание современного Web (JS), чтобы писать работающие скраперы при необходимости (Selenium)
- Проактивность. Если тебе нужно подкидывать мотивации, давать задачки и спрашивать "когда будет готово?", то нам с тобой не по пути 🙅🏻♀️