Как ИИ делает создание профессиональных видео доступным для всех: интервью с экспертом Степаном Михайлюком

0 0

Как ИИ делает создание профессиональных видео доступным для всех: интервью с экспертом Степаном Михайлюком

В современном мире технологии стремительно меняют все отрасли, и видеопроизводство не является исключением.

 Искусственный интеллект становится ключевым инструментом, способным трансформировать процесс создания видеоконтента, делая его более доступным и эффективным. О том, как AI трансформирует видеоиндустрию, мы поговорили со Степаном Михайлюком, главным инженером-программистом компании Lumen5 — ведущим специалистом в области разработки видеотехнологий с элементами искусственного интеллекта. Степан поделился техническими вызовами интеграции AI в видеопроизводство, рассказал о процессах внедрения инноваций и раскрыл «внутреннюю кухню» разработки инновационных архитектурных решений. 

— Степан, вы работаете главным инженером-программистом в компании Lumen5, внедряющей передовые AI-инструменты в видеопроизводство. Расскажите, каких инновационных результатов удалось достичь вашей команде за последнее время при интеграции искусственного интеллекта в процесс создания видео?

Мы создаем платформу, которая делает процесс создания профессионального видео доступным каждому. Основное инновационное решение, которое мы разрабатываем — видеоредактор с элементами искусственного интеллекта, работающий непосредственно в браузере. Суть нашего продукта заключается в том, что пользователь может загрузить контент с веб-сайта, и система автоматически проанализирует его, используя алгоритмы обработки естественного языка. Затем ИИ подбирает релевантные медиаэлементы, создает динамичные переходы, добавляет титры и даже генерирует закадровый голос. По сути, обычное коммерческое видео, состоящее из медиаэлементов, аудиодорожек и текстовых элементов, создается практически автоматически.

Мы также значительно продвинулись в разработке технологий рендеринга видео. Я работаю в core-команде Luminary, которая отвечает за все, что связано с видеорендерингом и интеграцией AI-функций. Недавно мы внедрили экспериментальный запуск рендеринга на стороне клиента с использованием веб-кодеков, что позволило сократить расходы на облачные вычисления и ускорить получение результатов.

— Вам также удалось значительно уменьшить расходы Lumen5 на инфраструктуру рендеринга видео. Это впечатляющий результат. Какие технические подходы и решения позволили добиться такой значительной оптимизации?

Действительно, оптимизация инфраструктуры рендеринга — одно из важнейших достижений нашей команды. Мы осуществили переход на микросервисную архитектуру и оптимизировали алгоритмы обработки видео. Ключевым техническим решением стало использование NW.js, который позволил объединить быстрые API браузера, такие как 2D Canvas и WebGL, с производительным декодером видео на C++. Мы также внедрили более эффективные кодеки, например H.265/HEVC, обеспечивающие лучшее сжатие без потери качества. Переход на оборудование с GPU-ускорением тоже внес значительный вклад в снижение расходов.

Для оптимизации облачных затрат мы начали использовать виртуальные машины SPOT — это позволило вдвое сократить расходы на рендеринг без потери скорости масштабирования. Я также автоматизировал процесс сбора данных о производительности рендеринга в различных системах, что позволяет принимать информированные решения об обновлении оборудования. В итоге все эти технические улучшения в комплексе привели к трехкратному снижению затрат на инфраструктуру, при этом пользователи отметили значительное повышение скорости работы системы.

— Интересно узнать, а какие самые сложные технические задачи приходится решать при создании AI-инструментов для работы с видео? С чем сталкиваются разработчики при внедрении искусственного интеллекта в видеопроизводство?

Разработка видеоредактора с использованием ИИ в веб-среде сопряжена с целым рядом непростых технических вызовов. Современные браузеры имеют серьезные ограничения при работе с видео. Песочница браузера ограничивает доступ к аппаратным ресурсам и файловой системе, что необходимо для безопасности пользователей, но создает препятствия для обработки видео, особенно больших файлов. Также производительность JavaScript часто недостаточна для ресурсоемких алгоритмов обработки в реальном времени. Еще одна проблема проблема — недостаток специализированных библиотек для работы с видео в браузере. В отличие от нативных приложений, веб-среда имеет ограниченный функционал. Например, многие операции с видео, которые легко выполняются в нативных приложениях, требуют нестандартных решений в браузере.

Дополнительным вызовом являются высокие требования к вычислительным ресурсам для алгоритмов ИИ. Обработка видео сама по себе требует значительных ресурсов, а добавление ИИ многократно увеличивает эту нагрузку. Нам приходится постоянно искать баланс между качеством результата и производительностью системы. Мы решаем эти проблемы, используя различные подходы: оптимизируем алгоритмы, применяем современные веб-технологии, такие как WebAssembly, Web Workers, WebGL, WebGPU, и активно участвуем в разработке open-source библиотек. Недавно я разработал новый метод выделения текстур в WebGL, который значительно сокращает объем используемой видеопамяти, делая Lumen5 доступным для пользователей с менее мощными компьютерами.

— Степан, немаловажно, что вы смотрите на этот вопрос с позиции не только разработчика, но и преподавателя университета ИТМО. Как считаете, насколько сегодняшнее высшее образование успевает за развитием искусственного интеллекта в индустрии? Какие навыки, связанные с AI, вы считаете наиболее востребованными в ближайшие годы?

Преподавая в университете ИТМО, я наблюдаю за тем, как академическое образование адаптируется к стремительному развитию технологий ИИ. Должен отметить, что существует определенный разрыв между теоретическим образованием и практическими требованиями индустрии, особенно в такой динамичной области, как искусственный интеллект. Высшее образование обычно фокусируется на фундаментальных знаниях, что, несомненно, важно, но часто не успевает за быстро меняющимися технологиями и инструментами. Поэтому я в своем преподавании стараюсь дополнять теоретическую базу практическими заданиями, максимально приближенными к реальным условиям разработки.

Что касается наиболее востребованных навыков в области ИИ, я бы выделил несколько ключевых направлений. Во-первых, это понимание основ машинного обучения и глубоких нейронных сетей — фундаментальные знания никогда не устаревают. Во-вторых, владение инструментами для работы с данными и их анализа, поскольку качество данных напрямую влияет на эффективность алгоритмов ИИ. Также крайне важны практические навыки работы с современными фреймворками для ИИ, такими как TensorFlow, PyTorch или Keras. И, наконец, крайне важно умение интегрировать модели ИИ в производственные системы — это требует знания DevOps, микросервисной архитектуры, контейнеризации и облачных технологий. Думаю, что в контексте видеопроизводства особенно востребованы будут специалисты, понимающие как ИИ, так и принципы обработки медиаданных. Синергия этих областей открывает огромный потенциал для инноваций.

— В вашем профессиональном опыте есть работа над проектом Альфа-Онлайн, который стал лидером среди банковских интерфейсов. Какие принципы из банковской разработки оказались полезны при создании видеотехнологий с AI? Существуют ли общие подходы к масштабным проектам в разных сферах?

Да, опыт работы в Альфа-Банке оказался ценным при разработке видеотехнологий с ИИ, несмотря на кажущуюся разницу между этими сферами. Главный принцип, который оказался универсальным для любого масштабного проекта — это декомпозиция сложных систем на независимые модули с четко определенными интерфейсами взаимодействия. В Альфа-Банке мы использовали микросервисную архитектуру, что позволяло разным командам работать над своими частями системы независимо. Тот же подход мы применяем в Lumen5, разделяя компоненты рендеринга, ИИ и пользовательского интерфейса. Второй принцип — внимание к производительности и оптимизации. В банковской сфере критически важны отзывчивость интерфейса и минимальное время отклика. В видеотехнологиях производительность еще более критична из-за высоких вычислительных требований. Методы профилирования и оптимизации, которые я применял в Альфа-Банке, оказались очень полезны при работе над рендерингом видео.

Также в любом проекте важен адаптивный подход к разработке. В 2022 году, когда мобильные приложения Альфа-Банка были удалены из магазинов приложений, мы быстро адаптировали веб-версию Альфа-Онлайн для мобильных устройств. Этот опыт научил меня быстро реагировать на изменения рыночных условий, что крайне важно и в сфере видеотехнологий, где требования пользователей и технологические возможности постоянно эволюционируют. Наконец, в обеих сферах критически важны безопасность и надежность. Методы тестирования и мониторинга, которые мы использовали в банке, я адаптировал для обеспечения стабильной работы видеоредактора Lumen5.

— Это действительно универсальные подходы, которые можно адаптировать на пользу любым проектам. Степан, в своей деятельности вы работаете не только над коммерческими проектами, но и вносите вклад в open-source. Какие преимущества дает участие в открытых проектах для компаний, занимающихся разработкой AI-технологий? 

Я убежден, что open-source играет критически важную роль в развитии современных технологий, особенно в сфере искусственного интеллекта. В Lumen5 мы активно используем открытые библиотеки и фреймворки, а также вносим вклад в их развитие. Участие в open-source проектах дает компаниям, разрабатывающим AI-технологии, несколько существенных преимуществ. Во-первых, это доступ к коллективному интеллекту сообщества — вы получаете возможность использовать наработки тысяч талантливых разработчиков со всего мира. Во-вторых, открытые проекты обычно проходят более тщательное тестирование и проверку, что повышает качество и безопасность кода. 

Для компаний вклад в open-source — это также возможность привлечь талантливых специалистов, поскольку многие разработчики выбирают работодателя, исходя из его активности в сообществе. Кроме того, это способ улучшить корпоративную репутацию и продемонстрировать экспертизу команды.

— Степан, говоря о внедрении AI в видеопроизводство, в завершении интервью я не могу не спросить: какие этические вопросы встают перед разработчиками? Существуют ли технические ограничения, которые вы сознательно устанавливаете для предотвращения злоупотреблений технологиями?

Этические вопросы стоят очень остро, и это одна из наиболее серьезных проблем, с которыми мы сталкиваемся при разработке AI-решений для видео. В Lumen5 мы уделяем этому особое внимание. Ключевая этическая дилемма заключается в балансе между расширением возможностей пользователей и предотвращением потенциальных злоупотреблений. Мы сознательно устанавливаем технические ограничения, которые помогают предотвратить использование нашей платформы для создания дезинформирующего контента. 

Огромное внимание мы уделяем вопросам авторского права. Наши модели обучаются только на легально доступном контенте, и мы строго контролируем, чтобы генерируемые материалы не нарушали интеллектуальные права третьих лиц. Ответственность разработчиков перед обществом — это не просто красивые слова. Я считаю, что технологические компании должны устанавливать четкие границы использования AI и активно сотрудничать с регуляторами для разработки стандартов, которые обеспечат безопасное и этичное применение искусственного интеллекта в видеопроизводстве.

 

Поделиться Поделиться ВКонтакте Telegram Whatsapp Одноклассники Cсылка

Источник: argumenti.ru

Оставьте ответ

Ваш электронный адрес не будет опубликован.