
Искусственный интеллект
Deepseek теперь распознает рукописный ввод
Китайцы выпустили новую модель DeepSeek-VL2-small.
В нее можно загрузить любой скриншот или фото с надписями от руки, а она перепишет весь текст или ответит на вопросы по нему. Понимает также графики и таблицы.
Для студентов это вообще имба. Пользуемся абсолютно БЕСПЛАТНО — здесь.
QwenLM научился генерировать видео
Правда 5 секунд всего. Иногда такая дичь получается, но этот видос мне понравился.
Большие популяционные модели (LPM): как ИИ симулирует социальное поведение?
В знаменитой серии «Основание» Айзека Азимова математик Хари Сэлдон создает «психоисторию» — науку, способную предсказывать будущее человечества на основе законов массового поведения. Хотя это художественная выдумка, идея отражает глубокую истину: чтобы формировать наше общее будущее, нам необходимо понимать коллективное человеческое поведение.
Сегодня мы стоим на пороге революции в изучении общества. Большие популяционные модели (Large Population Models, LPMs) предлагают нам постоянно обновляющийся портрет человечества, который отражает сложные взаимодействия миллионов отдельных людей.
Большие языковые модели (LLMs) уже продемонстрировали способность генерировать связный текст, предсказывая следующее слово (токен) в предложении. LPMs берут эту концепцию, но вместо предсказания следующего слова, они предсказывают неизвестные атрибуты людей на основе известных данных. Это позволяет моделировать поведение целых обществ, заполняя пробелы в данных и создавая более полную картину человеческого взаимодействия.
Например, если мы знаем возраст, пол и место жительства человека, модель может предсказать его уровень дохода, образование или поведенческие привычки.
Потенциальные области применения больших популяционных моделей обширны:
- Здравоохранение: В период пандемии LPMs могут помочь моделировать распространение заболеваний, основываясь на передвижениях и контактах людей;
- Социальные исследования: Предупреждение о возможных социальных волнениях или гуманитарных кризисах путем анализа настроений и поведения больших групп людей;
- Экономика: Правительства и корпорации могут использовать модели для прогнозирования экономических тенденций и адаптации политик в соответствии с динамикой местных экономик.
Недавно ученые разработали модель под названием «Кентавр». Эта модель способна предсказывать и симулировать человеческое поведение в различных экспериментах, выраженных на естественном языке. Центавр создан путем дообучения Llama 3.1 70B методом QLoRA на уникальном наборе данных Psych-101. Этот набор данных охватывает более 60 000 участников, совершивших более 10 миллионов выборов в 160 различных экспериментах.
Интересно, что дообучение модели также улучшает согласованность внутренних представлений Кентавра с нейронной активностью человека. Это означает, что модель не только предсказывает поведение, но и демонстрирует внутренние процессы, схожие с теми, что происходят в человеческом мозге. Это не просто шаг вперед в когнитивных науках, но и пример того, как большие модели могут помочь нам понять сложность человеческого поведения.
Сегодня в сфере маркетинговых исследований появляются так называемые синтетические респонденты — искусственные персоны для имитации человеческих ответов. Они могут использоваться для быстрой оценки новых продуктов или идей без необходимости проведения масштабных опросов.
AgentTorch - открытая платформа для создания и запуска масштабных симуляций популяций с использованием больших популяционных моделей. Долгосрочная цель платформы — «переизобрести перепись населения», создав полностью симулированную, но точно отражающую реальное население систему.
LPMs предлагают нам инструменты для более глубокого понимания общества для принятия обоснованных решений. С такой мощной технологией приходит и большая ответственность. Важно обеспечить, чтобы использование LPMs было этичным и уважало конфиденциальность людей. Цель должна быть не в том, чтобы манипулировать обществом, а в том, чтобы лучше его понимать и принимать обоснованные решения. Будущее не предопределено, поэтому с помощью LPMs у нас есть возможность формировать его в лучшую сторону, используя знания для общего блага и прогресса всего человечества.
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
В Hailuo появился новый режим управления камерой
Видеогенератор пополнился моделью T2V-01-Director, которая позволит точно настроить движение виртуальной камеры:
- Пишем текстовую подсказку для видео;
- Нажимаем иконку камеры и попадаем в меню управления;
- В Free selection выбираем до 3 эффектов (зум, движение в стороны/вверх/вниз, поворот камеры, наезд и т.д);
- В Cinematic shots выбираем кинематографичные эффекты.
Большие поведенческие модели (LBM): новый этап в развитии ИИ
Представьте робота, который изучает, как вы готовите еду, и с каждым приготовленным вами блюдом он сам становится всё более искусным поваром. Разбираемся, как большие поведенческие модели (LBM) помогут роботу в этом деле.
Несмотря на впечатляющие достижения больших языковых моделей (LLM) в обработке и генерации текста, они не умеют обрабатывать изображения или сенсорные данные, необходимые роботу для ориентации в физическом пространстве, “понимания” объектов и обучения действиям пользователя. Так Visual Language Models (VLM), обрабатывающие визуальные данные, могут “понимать” содержимое изображений и отвечать на вопросы по изображениям.
Large Action Models (LAM) обучены на данных о действиях (в том числе из сенсоров). LAM превращают LLM в автономных агентов, способных выполнять комплексные задачи, ориентированные на вызов определённых функций, улучшенное понимание и планирование.Salesforce уже начали выпускать такие модели для автоматизации процессов.
Visual Language Action Models (VLA) обучены на визуальных данных и данных о действиях. Они дают LLM возможность быть “воплощённым” агентом (Embodied Agent) в физическом мире. Например, RT-2 демонстрирует способность робота выполнять сложные команды благодаря использованию цепочки рассуждений. PaLM-E — мультимодальная языковая модель с 562 миллиардами параметров, демонстрирующая высокую универсальность и эффективность. А OpenVLA — открытая модель с 7 миллиардами параметров поддерживает управление несколькими роботами одновременно.
Для обучения агентов применяется обучение с подкреплением. Существуют различные RL-методы, но в целом обучение агента построено на политике вознаграждений и наказаний за совершение определённых действий. Среди RL-методов также есть обучение с подкреплением на основе обратной связи от пользователя.
Комплексно задачу по обучению роботов действиям человека решают LBM (Large Behavior Models) — большие мультимодальные поведенческие модели, представляющие новое направление в ИИ. LBM направлены на понимание, моделирование, адаптивное обучение и генерацию человеческого поведения в физическом мире (похоже на RLHF на основе данных из физического мира).
Большие поведенческие модели уже используются на практике:
1. В Lirio разработали первую в мире LBM для здравоохранения. Их модель создаёт гиперперсонализированные рекомендации для пациентов на основе медицинских данных и данных о поведении пациента от различных датчиков.
2. Toyota Research Institute совершил прорыв в обучении роботов новым сложным навыкам с помощью метода Diffusion Policy. Их роботы могут быстро осваивать новые действия, такие как наливание жидкостей или использование инструментов, без необходимости перепрограммирования.
3. Стартап Physical Intelligence привлёк $400 миллионов инвестиций от Джеффа Безоса, OpenAI и других крупных игроков. Они стремятся создать роботов, которые смогут выполнять любые задачи по запросу пользователя, будь то уборка, сборка мебели или обслуживание клиентов.
Однако, как отмечал философ Людвиг Витгенштейн в своём "Логико-философском трактате": "Границы моего языка означают границы моего мира". Это актуально для LBM, так как они всё ещё ограничены данными, на которых обучены. Их "мир" определяется теми модальностями, что они могут воспринимать через сенсоры и понимать с помощью алгоритмов.
Для обучения качественной поведенческой модели нужно больше датчиков для сбора данных из различных модальностей. Так данные электроэнцефалографа позволили бы лучше распознавать и имитировать эмоции. А обучение моделей с помощью синтетических данных из симуляций делает "картину мира" LBM более разнообразной.
В реальном мире мы пока можем отличить робота от человека. Но возникает вопрос: а как мы будем отличать человеческое поведение от ИИ в цифровом мире?
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Вопрос к специалистам ИИ
Всем доброго времени суток! Подскажите возможно ли дообучить LLM такую как deepseek на пользовательских данных (данные которых нет в интернете, данные на которых почему то не обучали LLM) ?
Есть ли для этого инструменты доступные не специалистам или за такой задачей нужно обращаться в сбер или яндекс?
ИИ-ассистент для кодеров
ИИ-ассистент для кодеров от основателя Твиттера — Джек Дорси дропнул Goose, который заберет ВСЮ рутину кодеров и сократит даже самые сложные задачи до пары минут.
• Нейропомощник пишет ЛЮБЫЕ программы за один промпт, САМ меняет код в файлах, тестирует скрипты, делает СКРИНШОТЫ, фиксит баги.
• Работает полностью локально — никакие данные не просочатся в сеть.
• За секунду подключается к GitHub, Google Drive, всем популярным IDE и другим инструментам.
• На выбор целая куча LLM.
• Ограничений — НЕТ. Подключаем ассистента к любым серверам и API.
Может ли ИИ помочь нам стать счастливее?
Нобелевский лауреат по физике Лев Ландау считал, что быть счастливым — это обязанность каждого человека. Но что значит «быть счастливым»?
С точки зрения нейрофизиологии, в моменты счастья у нас вырабатываются серотонин, дофамин и эндорфины. Но на биохимическом уровне история не заканчивается: если в жизни есть хронический стресс, отсутствие социальных связей и негативные установки, «укол эндорфинов» дает лишь кратковременный эффект. Именно поэтому так важен комплексный подход — от мыслей и привычек до физических нагрузок и здоровых отношений.
Хотя базовый уровень счастья предопределен генетически, все же интересно провести эксперимент с целью проверить, сможет ли ИИ помочь нам стать чуть счастливее. Для этого я разработал Landao AI — бесплатного ИИ-коуча по счастью.
Landao AI предлагает годовой курс по практике стоицизма с ежедневными уроками. Стоицизм — древнегреческая философия, которая помогает отделять внешние обстоятельства от нашей реакции на них. Стоики учили, что «страдания порождаются скорее нашими суждениями, чем самими событиями». А еще призывали отличать то, на что мы можем повлиять (собственные мысли и поступки), от того, что нам неподвластно (погода, слова других людей, репутация). Практики стоицизма позволяют сохранять спокойствие, не зацикливаться на негативе и жить более осмысленно.
Вторая важная функция ИИ-коуча — побуждение к самоанализу и возможность смотреть на свои мысли в формате когнитивно-поведенческой терапии (КПТ). КПТ основывается на идее, что наши эмоции и действия во многом зависят от мыслей, которые мы не всегда осознаем — так называемых «автоматических мыслей», которые нужно проверять на «реальность» и заменять более конструктивными. Этот подход давно и успешно применяется психологами: он помогает снизить тревожность, избавиться от непродуктивных шаблонов мышления и, как следствие, повысить общий уровень счастья.
ИИ-коуч предоставляет возможность анонимно делиться своими эмоциями, получать поддержку от других людей и знакомиться с единомышленниками. Согласно «Гарвардскому исследованию счастья», которое ведется с 1938 года, ключевым фактором счастья оказались не деньги и не громкие достижения, а социальные связи. Исследователи наблюдали за 724 участниками, собирали медицинские данные, разговаривали с семьями испытуемых и выяснили, что люди с крепкими социальными связями более здоровы, дольше живут и в целом ощущают себя счастливее.
В планах — расширение функционала в сторону дейтинга и нетворкинга, ведь, по мнению Ландау, счастье складывается из трех главных слагаемых: работа, любовь и общение с людьми.
Нельзя забывать и о том, как влияет на наше самочувствие и другие факторы:
Физические нагрузки и прогулки на свежем воздухе помогают «выключать» стресс-реакцию и восстанавливать нервную систему.
Здоровый сон: хронический недосып — прямой путь к выгоранию.
Питание: равномерное снабжение мозга питательными веществами связано с когнитивной устойчивостью.
Цифровой детокс: хотя бы 15–30 минут в день без гаджетов — маленькая, но мощная перезагрузка для мозга.
Отделять эмоции от внешних обстоятельств — важный навык для человека любой эпохи. Надеюсь, в совокупности с другими методами ИИ-коуч поможет многим людям. Главное, помните: ИИ — лишь помощник. Главная работа происходит в ваших мыслях, привычках и повседневных решениях. Но с хорошим коучем этот путь пройти легче и интереснее.
Я уже использую Landao AI и собираю обратную связь от первых участников. Приглашаю и вас присоединиться к эксперименту по ссылке, буду рад обратной связи. Помогает ли регулярная «инъекция» стоицизма и КПТ стать чуть счастливее?
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.



