
Искусственный интеллект
Stability AI опубликовала открытую модель Stable Audio
Stability AI опубликовала открытую модель Stable Audio для генерации музыки
Stability AI опубликовала в открытом доступе модель Stable Audio, предназначенную для генерации музыки, звуковых эффектов и окружения.
Модель на HF
Источник
Даббинг c ИИ это просто?
Решили проверить популярные ИИ инструменты для даббинга (перевода и дубляжа) видео.
Выбрали 3 сервиса: Elevenlabs.io, Rask.ai и Maestra.ai. Почему их? Потому что уже есть опыт работы с ними и анализ более 10 схожих сервисов, на наш взгляд эти одни их лучших.
Тестируем только в бесплатном режиме - все 3 сервиса позволяют это сделать с рядом ограничений:
- нет возможности редактировать текст речи
- 10 000 символов или около 3-х минут видео
- нет возможности выгрузить видео с субтитрами, отдельно аудио или субтитры
- 3 видео по 1 минуте
- нет возможности выбрать функцию клонирования голоса, необходимо выбирать из существующих голосов
- нет функции автодетекта количества голосов на видео (считаем и выбираем руками)
- 6 000 символов или около 10 минут видео
Итак, на входе у нас одинаковое видео для всех троих участников: 30-секундный трейлер английской постановки пьесы “Гарри Поттер и Проклятое дитя”.
Условия теста: никаких ручных правок, все по умолчанию.
Результат удивил! Явный лидер в СМИ, Elevenlabs, уступил первенство Rask по качеству дубляжа. При этом, лидер Rask - явно позиционирует себя в другой ценовой категории, при этом, ТУТ ВНИМАНИЕ: Rask и Maestra используют API Elevenlabs для функции клонирования голоса 😂
Основной вывод: все сервисы требует ручного вмешательства для обработки финального результата!
Большим преимуществом в этом случае выглядит наличие возможности редактирования текста, в том числе под скорость речи, а также, применение ИИ для адаптации перевода, именно в этом качестве себя хорошо показывает Maestra, но мы ведь проводим тест без “ручных” правок.
Результаты нашего батла вы можете увидеть и оценить сами. Пишите в комментариях, кто вам понравился больше!
Версия Rask
Версия Elevenlabs
Версия Maestra
Читайте нас в Telegram
Не является рекламой. Все данные взяты в открытом доступе. Все выводы и соображения, содержащиеся в посте, являются мнением авторов блога.
ИИ: шокирующие прогнозы от инсайдера OpenAI
Сенсация! В руки журналистов попал документ с прогнозами о будущем искусственного интеллекта, составленный бывшим сотрудником OpenAI. Автор, пожелавший сохранить анонимность, ссылается на свой опыт работы в одной из ведущих мировых компаний в сфере ИИ и делится своим видением того, что нас ждет в ближайшие годы.
Главные тезисы:
AGI (искусственный общий интеллект) – ИИ, способный мыслить и действовать на уровне человека – станет реальностью уже к 2027 году .
Гонка за AGI будет не менее ожесточенной, чем в свое время гонка за атомной бомбой. Любая страна будет стремиться стать первой, кто создаст такой ИИ, понимая его колоссальный потенциал.
Стоимость создания AGI составит около триллиона долларов . Для этого потребуется создать единый вычислительный кластер, подобный тому, который сейчас строит Microsoft для OpenAI. ️
Энергопотребление AGI будет превосходить энергогенерацию всех США ⚡.
Инвестиции в ИИ уже сегодня исчисляются сотнями миллиардов долларов в квартал . Nvidia, Microsoft, Amazon и Google – лишь некоторые из компаний, вкладывающих колоссальные средства в эту область.
Создание AGI станет катализатором для стремительного развития ASI (сверхинтеллекта) . AGI будет настолько умён, что сможет самостоятельно обучаться и совершенствоваться, что приведет к взрывному росту его возможностей.
К 2030 году ежегодные инвестиции в ИИ достигнут 8 триллионов долларов .
Прогнозы инсайдера OpenAI рисуют одновременно захватывающую и пугающую картину будущего. С одной стороны, ИИ обладает потенциалом решить многие из самых pressing problems of humanity . С другой стороны, его стремительное развитие сопряжено с серьезными рисками , которые необходимо учитывать и к которым нужно быть готовыми.
Данные прогнозы должны стать стимулом для открытой ️ и честной ⚖️ дискуссии о будущем ИИ. Необходимо выработать международные правила и этические нормы ⚖️, которые позволят нам безопасно и ответственно использовать эту мощную технологию на благо всего человечества.
Стоит отметить, что прогнозы инсайдера OpenAI носят спекулятивный характер и не могут быть гарантированы. Однако, его опыт и знания в этой сфере делают его мнение заслуживающим внимания.
Следите за новостями! Тема ИИ будет становиться все более актуальной по мере его развития.
Stable Diffusion 3
Мир генеративных моделей готовится к значительному прорыву, поскольку разработчики Stable Diffusion объявили о выпуске Stable Diffusion 3, которое произойдет 12 июня. Мы в свою очередь постараемся дать Вам возможность протестировать Stable Diffusion 3 на нашей платформе HubAi. Эта новейшая версия нейросети обещает поразить пользователей улучшенным фотореализмом и более глубоким пониманием промтов.
Stable Diffusion 3 представляет собой результат кропотливой работы команды разработчиков, стремящихся повысить качество и реалистичность создаваемого контента. В новой версии были внедрены передовые алгоритмы и методы обучения, позволяющие нейросети создавать изображения, которые сложно отличить от реальных фотографий.
Одно из основных улучшений в Stable Diffusion 3 - это более глубокое понимание промтов и их взаимосвязей. Нейросеть научилась лучше понимать промты и создавать более точные и реалистичные композиции. Это означает, что пользователи смогут создавать изображения с более сложными сценами и множеством предметов, которые будут выглядеть естественно и гармонично.
Кроме того, разработчики уделили особое внимание улучшению фотореализма. В Stable Diffusion 3 используются новые методы обработки изображений, позволяющие создавать более четкие и детализированные изображения с реалистичными текстурами и освещением. Пользователи смогут создавать фотографии, которые будут неотличимы от тех, что сделаны профессиональным фотографом.
"Мы невероятно рады представить Stable Diffusion 3 сообществу, - сказал один из разработчиков. - Наша команда упорно работала над улучшением качества и реалистичности создаваемого контента. Мы уверены, что новая версия поразит пользователей своими возможностями и откроет новые горизонты в мире генеративного искусства".
Пользователи, которые уже знакомы с предыдущими версиями Stable Diffusion, с нетерпением ждут выхода Stable Diffusion 3. Они готовы погрузиться в новый уровень фотореализма и исследовать безграничные возможности, которые предоставляет эта новейшая версия нейросети.
Выпуск Stable Diffusion 3 знаменует новый этап в эволюции генеративных моделей, открывая двери в мир еще более реалистичного и впечатляющего контента. Пользователи готовы погрузиться в этот новый мир фотореализма и раскрыть свой творческий потенциал с помощью передовых технологий Stable Diffusion 3.
Попробовать нейросеть Stable Diffusion 3 можно будет тут с 12 июня
Камень-навигатор, кулон-диктофон и другие AI-гаджеты
Хотелось бы завести робота-помощника на базе языковой модели как можно скорее, но инженеры пока что скептичны. По их словам, "люди просто не понимают, насколько сложно развертывать роботов этого типа". Даже робототехники-оптимисты считают, что это потребует много денег и времени. Да что там роботы… Похожая на тамагочи говорилка Rabbit R1 с искусственным интеллектом оказалась Android-приложением в красивом корпусе. AI Pin критикуют все, кому не лень.
Вот, скажем, OpenGlass — дешевые самодельные умные очки, к которым подключаются Groq, Chat GPT или Ollama. Другой пример — Friend — миниатюрный носимый диктофон–суммаризатор, который анализирует все записанное.
Или TERRA — похожий на камень AI–компас с занятной философией. Он самостоятельно составляет закольцованный маршрут для прогулки и подсказывает, куда идти. В результате пользователь не залипает в навигатор, а смотрит по сторонам и исследует окружающий мир.
Итак, новые перспективные форм–факторы AI–гаджетов могут родиться на GitHub. И хотя у таких проектов нет серьезного финансирования, на их стороне подход Open Source. Например, я трижды подумаю, прежде чем покупать носимый диктофон с подключением к серверам техногиганта, но с интересом испытаю гаджет, работающий на базе локальной языковой модели. Проекты, которые вызывают опасения по части конфиденциальности в Open Source–исполнении выглядят уже не так страшно.
А вы как думаете?
Если хотите больше годного контента — переходите в телеграм.
Инструмент для deepfake
FaceFusion — это open-source от создателя проекта Roop, инструмент для замены лица на фотографии и для общего улучшения изображения.
GitHub
Документация
Китайские власти представили ИИ, обученного полит философии Си Цзиньпина
Chat Xi PT — новый чат-бот, предназначенный на распространении идей Си Цзиньпина о политике, экономике и культуре. Бот поддерживает китайский и английский языки и умеет отвечать на вопросы, делать отчеты, саммари и перевод.








