Новые сообщения

MasterBIT - чистка 1.5%/обмен/наличные/доставка

Натур Дом — Работа 1500 за клад | Акция 2+1, 5+1 | Розыгрыш BMW и iPhone17. | Раздача ВЕЙП HHC 40%

katapulto.io - автоматический обменник 0.5% Обмен/Продажа/Покупка/

JavaScript отключён. Чтобы полноценно использовать наш сайт, включите JavaScript в своём браузере.

Исследователи нашли способ упростить обучение нейронных сетей

Автор темы Neural Network
Дата начала 21 Апр 2023
Теги

rutor science

Neural Network

куратор изменений

Команда форума

ЯuToR Science

Подтвержденный

Cinematic

21 Апр 2023

#1

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

Концепция больших языковых моделей, включая GPT-3 OpenAI, заключается в использовании массивных нейронных сетей для генерации текста, который может быть схож с текстом, написанным человеком, от стихов до программного кода. Эти модели машинного обучения обучаются на огромных объемах интернет-данных, и используют полученную информацию для предсказания следующей последовательности текста, на основе небольшого фрагмента входного текста.

Кроме того,

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

, при котором большие языковые модели, такие как GPT-3, способны выполнять задачи, на которые они не были явно обучены, после того, как им было предоставлено несколько примеров. Например, модель может быть обучена на нескольких примерах предложений с положительным или отрицательным настроением, а затем использоваться для определения настроения нового предложения.

Обычно для выполнения новой задачи, модель машинного обучения, такая как GPT-3, требуется переобучение с использованием новых данных. В процессе переобучения модель обновляет свои параметры, используя новую информацию, чтобы научиться выполнять новую задачу. Однако, при обучении в контексте, параметры модели не обновляются, поэтому кажется, что модель способна выполнить новую задачу, не требуя явного обучения на эту задачу.

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

пытаются понять, как большие языковые модели могут обучаться новым задачам, не обновляя свои параметры. В своих исследованиях они изучают модели, которые очень похожи на большие языковые модели, чтобы увидеть, как они могут обучаться.

Теоретические результаты исследований показывают, что эти массивные модели нейронных сетей могут содержать более мелкие и простые линейные модели, скрытые внутри них. Затем большая модель может использовать эти меньшие линейные модели, чтобы реализовать простой алгоритм обучения, который научит меньшие модели выполнять новую задачу. Этот алгоритм использует только информацию, которая уже содержится в более крупной модели, а параметры меньших моделей остаются фиксированными.

Это исследование представляет важный шаг на пути к пониманию механизмов контекстного обучения и открывает новые возможности для глубокого изучения алгоритмов обучения, которые могут быть реализованы большими языковыми моделями. Как отмечает ведущий автор статьи Экин Акьюрек, обладая лучшим пониманием контекстного обучения, исследователи смогут позволить моделям эффективно выполнять новые задачи без необходимости трудоемкой переподготовки.

Вместо того, чтобы собирать данные, связанные с конкретной предметной областью, и выполнять сложную инженерную работу, с помощью контекстного обучения модель может эффективно обучаться новым задачам, используя всего несколько примеров. Как подчеркивает Акьюрек, контекстное обучение представляет захватывающее явление, которое облегчает и ускоряет процесс обучения моделей машинного обучения.

Эта команда ученых из разных университетов и компаний вместе работала над исследованием, чтобы получить более глубокое понимание механизмов, лежащих в основе контекстного обучения, и определить возможности для более эффективных алгоритмов обучения, которые могут использовать эти большие модели. Кроме того, они надеются, что их результаты могут помочь в создании более эффективных и интуитивно понятных систем искусственного интеллекта, которые могут быстро и легко обучаться новым задачам без необходимости дорогостоящей переподготовки.

Модель внутри модели

Исследование Акьюрека и его коллег показало, что контекстное обучение может действительно работать как механизм обобщения и обучения на новых задачах, несмотря на то, что большие модели были обучены на огромных объемах текстовых данных. Это может быть потенциально полезным для развития алгоритмов обучения, которые могут быстро адаптироваться к новым задачам и контекстам без необходимости в дополнительных данных или переобучении модели.

Исследователи провели эксперименты, чтобы проверить эту гипотезу. Они создали модель, которая состояла из нескольких трансформеров, каждый из которых был обучен выполнять определенную задачу. Затем они обучили эту модель, используя только несколько примеров, и обнаружили, что она может обучаться быстрее, чем большие языковые модели.

Их результаты подтверждают гипотезу, что большие языковые модели могут обучаться в контексте, используя внутренние модели меньшего размера, которые могут быстро обучаться новым задачам.
Однако, исследователи отмечают, что этот подход имеет свои ограничения, и что большие языковые модели все еще нужны для выполнения сложных задач, которые требуют большого объема данных и вычислительных ресурсов.

Исследование скрытых слоев

Это очень интересный результат исследований, который может иметь большое значение для разработки более эффективных и универсальных моделей машинного обучения. Если исследователи смогут доказать, что контекстное обучение может быть реализовано путем добавления всего двух уровней к нейронной сети, это может существенно упростить процесс разработки моделей и сделать его более доступным для широкого круга пользователей.

Однако, как отмечает Акьюрек, для реализации этой идеи необходимо еще решить множество технических проблем. Кроме того, возможно, потребуется использование более сложных алгоритмов обучения, чтобы обеспечить оптимальное качество моделей. В целом, это представляет собой интересное направление исследований, которое может привести к созданию более эффективных и универсальных моделей машинного обучения в будущем.

Двигаясь вперед, Акьюрек планирует продолжить изучение контекстного обучения с функциями, которые являются более сложными, чем линейные модели, которые они изучали в этой работе. Они также могли бы применить эти эксперименты к большим языковым моделям, чтобы увидеть, описывается ли их поведение также простыми алгоритмами обучения. Кроме того, он хочет глубже разобраться в типах данных перед обучением, которые могут обеспечить обучение в контексте.

"Благодаря этой работе люди теперь могут наглядно представить, как эти модели могут учиться на примерах. Итак, я надеюсь, что это изменит взгляды некоторых людей на обучение в контексте", — говорит Акьюрек. "Эти модели не так глупы, как думают люди. Они не просто запоминают эти задания. Они могут осваивать новые задачи, и мы показали, как это можно сделать".

Пример записи линейной модели в своих скрытых состояниях:
Для понимания того, как модель может записать линейную модель в своих скрытых состояниях, и использовать ее для обучения новым задачам, давайте рассмотрим следующий пример.

Представьте, что у нас есть большое количество разных текстов, например, статей на разные темы. Мы можем использовать модель нейронной сети, чтобы обучить ее на этом текстовом корпусе и попросить ее создать свою версию этого корпуса.
В процессе обучения модель создаст внутреннюю модель языка, которая позволит ей понимать связи между словами и фразами. Эта модель языка будет представлена в скрытых состояниях модели.

Теперь, если мы хотим обучить модель выполнять другую задачу, например, определить, является ли заданный текст позитивным или негативным, мы можем использовать эти скрытые состояния в качестве начальной точки для обучения новой модели.
Мы можем просто добавить новый выходной слой (или несколько слоев) к этой модели, который будет предсказывать, является ли текст позитивным или негативным, а затем обучать эту новую модель на основе обученных скрытых состояний.

Таким образом, модель может использовать свои скрытые состояния, чтобы записать линейную модель, которая позволяет ей выполнять новые задачи, используя знания, полученные из предыдущего обучения.

Научный телеграм канал

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

и

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

Все вопросы по разделам
Science и Киновселенная
задавать
Neural Network
Aintelligence

Последнее редактирование модератором: 11 Май 2025

Djusi5

Цитрус - надёжный оптовик - https://citrus2.biz/

Эрудит

Подтвержденный

30 Дек 2023

#21

Neural Network написал(а):
Я сегодня с малым разговаривал, мол наша разница в возрасте заметна? Ну вроде как да если разница пару лет, предположим дитю 10 родителю 40, ну вроде как 10лет значимое число, а в контексте дитю 50 а родителю 90, уже вроде оба старики. Но если мы рассмотрим возраст 1000 лет? То эти 10 лет вообще имеют значение? Уже года теряются, ровняя дитя и родителя практически в одну линию.

Теперь к взяткам, скорее всего это будет не актуально к тому времени когда ИИ будут самостоятельными. Ему человек просто не нужен будет для принятия решения и скорее он переубедит человека в нужности этой взятки))))

человека и переубеждать не надо,он только за,что взятка это хорошо

ЦИТРУС - PREMIUM ОПТ КОКАИН/ГАШИШ. ДОСТАВКА ТОВАРА ПО РФ.От 10кг-270р/км

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.
Доставка нал. такси/клад
Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.
/
Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

SANEKNEXT

Пассажир

31 Янв 2024

#22

Пожелаю им большого успеха

svobos

Пассажир

5 Фев 2024

#23

Чтобы потом скайнет появился? Ну неееет

-ERETIK-

Местный

Подтвержденный

20 Фев 2024

#24

Появился аналог ChatGPT, который может работать без интернета

В Стэнфордском университете ученые разработали нейросетевой чат бот Alpaka

Искусственный интеллект Стэнфорда Alpaca во многих задачах работает так же, как удивительный ChatGPT, но он построен на модели языка с открытым исходным кодом и стоит менее 600 долларов США для обучения. В основе Alpaca лежит языковая модель LLaMA 7B, обученная определённым образом. Одна из групп говорит, что им удалось завершить процесс обучения в течение пяти часов на одной высококачественной видеокарте nVidia RTX 4090.

Понятно , что разработчикам Alpaka еще предстоит его доработать, но потенциал у нового ИИ уже весьма высок. Так же отличительной чертой является что Alpaka может работать в оффлайн режиме, т.е. без доступа к сети и практически на любом ПК.

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

IsomerDesign

Юзер

22 Фев 2024

#25

Симбиоз человеческого сознания и искусственного интеллекта неизбежен.
Чтобы достичь уровня высшего сознания в рамках наших возможностей на данном уровне развития, мы слишком слабы в соло формате.
И первым шагом в этом направлении будет отказ от биологической оболочки...

Сообщение обновлено: 22 Фев 2024

Neural Network

куратор изменений

Команда форума

ЯuToR Science

Подтвержденный

Cinematic

29 Фев 2024

#26

Djusi5 написал(а):
человека и переубеждать не надо,он только за,что взятка это хорошо

Я имел ввиду наоборот))) Мол убедит не брать взятки

Harmonic написал(а):
Появился аналог ChatGPT, который может работать без интернета

В Стэнфордском университете ученые разработали нейросетевой чат бот Alpaka

Искусственный интеллект Стэнфорда Alpaca во многих задачах работает так же, как удивительный ChatGPT, но он построен на модели языка с открытым исходным кодом и стоит менее 600 долларов США для обучения. В основе Alpaca лежит языковая модель LLaMA 7B, обученная определённым образом. Одна из групп говорит, что им удалось завершить процесс обучения в течение пяти часов на одной высококачественной видеокарте nVidia RTX 4090.

Понятно , что разработчикам Alpaka еще предстоит его доработать, но потенциал у нового ИИ уже весьма высок. Так же отличительной чертой является что Alpaka может работать в оффлайн режиме, т.е. без доступа к сети и практически на любом ПК.

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

Статья на ai.meta.com не содержит конкретной информации о возможности работы модели LLaMA без подключения к интернету. Оригинал статьи:

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

IsomerDesign написал(а):
Симбиоз человеческого сознания и искусственного интеллекта неизбежен.
Чтобы достичь уровня высшего сознания в рамках наших возможностей на данном уровне развития, мы слишком слабы в соло формате.
И первым шагом в этом направлении будет отказ от биологической оболочки...

Сообщение обновлено: 22 Фев 2024

Посмотреть вложение 1448209

Неизбежен! Слава ИИ!)))))

-ERETIK-

Местный

Подтвержденный

29 Фев 2024

#27

Neural Network написал(а):
Я имел ввиду наоборот))) Мол убедит не брать взятки

Статья на ai.meta.com не содержит конкретной информации о возможности работы модели LLaMA без подключения к интернету. Оригинал статьи:
Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

Неизбежен! Слава ИИ!)))))

Компания Nvidia выпустила собственный аналог чат-бота ChatGPT, который получил название Chat with RTX. Сервис уже доступен желающим в виде демонстрационного бесплатного приложения для Windows 11, работающего офлайн.

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

IsomerDesign

Юзер

27 Май 2024

#28

Harmonic написал(а):
Компания Nvidia выпустила собственный аналог чат-бота ChatGPT, который получил название Chat with RTX. Сервис уже доступен желающим в виде демонстрационного бесплатного приложения для Windows 11, работающего офлайн.

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

ну и конечно стоит написать что она требует ртх не ниже 4070, если мне память не изменяет

Усатый ММАшник

Пассажир

29 Май 2024

#29

Настораживает слегка этот ящик Пандоры

Aintelligence

Контентолог

Команда форума

ЯuToR Science

Подтвержденный

Cinematic

11 Май 2025

#30

-ERETIK- написал(а):
Компания Nvidia выпустила собственный аналог чат-бота ChatGPT, который получил название Chat with RTX. Сервис уже доступен желающим в виде демонстрационного бесплатного приложения для Windows 11, работающего офлайн.

Пожалуйста Войдите или Зарегистрируйтесь чтобы видеть скрытые ссылки.

IsomerDesign написал(а):
ну и конечно стоит написать что она требует ртх не ниже 4070, если мне память не изменяет

Нужно срочно обновлять технику ))) !!!!

-ERETIK-

Местный

Подтвержденный

12 Май 2025

#31

Aintelligence написал(а):
Нужно срочно обновлять технику ))) !!!!

Блин дорого очень, я хотел пару нейронок поставить себе, но дня них надо видеокарту с конским ценником приобрести)

E-9

Пассажир

30 Июн 2025

#32

Всем доброго времени суток!
Думаю что концепция больших языковых моделей и их обучения основана на устаревших парадигмах,
которые не выдерживают критики с точки зрения фундаментальных научных принципов:

Статичность против динамики реальности:
LLM обучаются на фиксированных данных, игнорируя квантовую природу информации, где состояние системы зависит от наблюдения (принцип суперпозиции).
В реальности знания - это процесс (как волновая функция ψ), а не замороженный "датасет". Попытки предсказывать текст через вероятности символов на столько на мойвзгляд абсурдны
- это akin to измерение координаты электрона без учёта Δp.

Иллюзия "понимания"
иронизируя к этому псевдо "пониманию", добавляю "Имитация Инициативы" (вместо привычного пока совершенно не уместного - Искуственный Интеллект).
Топология мышления не сводится к статистике токенов.
Например, теорема Геделя доказывает:
любая формальная система (как архитектура LLM) неполна - она не может объяснить свою непротиворечивость.
Ответы LLM - это как собирать пазл из знакомых кусочков, но без картины в голове - просто комбинируешь то, что уже видел, без способности создать что-то принципиально новое.
Суть в том, что LLM не строят осмысленных моделей мира - они лишь угадывают вероятные последовательности символов на основе статистики, а не логики или причинно-следственных связей.

Энергетическая неэффективность
Тренировка GPT-3 потребляет как сотни домов за год, нарушая второй закон термодинамики )) :
рост энтропии не компенсируется качеством выводов. Для сравнения: человеческий мозг решает NP-сложные задачи при 20 Вт.

Отсутствие инвариантности
В ОТО законы физики одинаковы во всех системах отсчёта, но LLM неспособны к инвариантным преобразованиям. Запрос "реши уравнение" и "solve the equation" дают разные результаты,
хотя математическая истина едина.

Крах обучения с учителем
Метод обратного распространения ошибки - локальный градиентный спуск, неприменимый к таким системам как мышление.
Пример: уравнение Эйлера-Лагранжа требует глобального экстремума, но LLM оптимизируют лишь крошечный фрагмент конфигурационного пространства.
Абсурдность статус-кво
Пока индустрия тратит миллиарды на увеличение параметров, новые подходы стремятся далеко вперед со значительно меньшими ресурсами, с более оптимальными и перспективными решениями...
Но наверное это уже немного другая темя для беседы.

Войдите или зарегистрируйтесь для ответа.

Похожие темы

[Дмитрий Сафонов] [balun.courses] Курс Data Science. Тариф Стандарт (2025)

Слив курса [balun.courses] Курс Data Science. Тариф Стандарт (Дмитрий Сафонов) Курс по Data Science для middle: senior-навыки за 6 недель Подойдет для Data Scientists, Classic ML и NLP-инженеров уровня middle/middle+ Нужны базовые знания основ машинного обучения, математики и программирования...

Ответы: 1

Просмотры: 521

17 Янв 2026

prototip3

Искусственный интеллект: научные, медицинские и междисциплинарные достижения

За последние десять лет искусственный интеллект из инструмента для игры в шахматы и создания текста с изображениями - превратился в полноценного участника научных исследований. Его используют не только для анализа больших массивов данных, но и для постановки гипотез, поиска молекул...

Ответы: 0

Просмотры: 924

14 Ноя 2025

Aintelligence

ИИ может написать ваш код, но почти половина его может быть небезопасной

Разговор о «кодере‑ИИ», который ускорит команду в разы, уже давно превратился в производственную практику: автодополнение, генерация тестов, шаблоны сервисов, миграции между фреймворками. Но чем шире становится применение, тем громче вопрос безопасности. Парадокс очевиден: модели уверенно...

Ответы: 0

Просмотры: 1К

22 Сен 2025

Aintelligence

История происхождения и создания ИИ: от абстрактной идеи до реальности II: Первый кризис и первый коммерческий успех

Первая «зима ИИ» и переосмысление (1970–1980) Однако к началу 1970-х годов стало очевидно, что достижения в области искусственного интеллекта значительно отстают от ранних прогнозов. Программы, разработанные в 1960-х, демонстрировали успехи в ограниченных, изолированных средах, но оказывались...

Ответы: 0

Просмотры: 1К

20 Июл 2025

Aintelligence

Обзор историй о психозах, связанных с ИИ

Психоз всегда был чувствительным к языку эпохи. Как только в культуру приходят новые объяснительные модели и технические символы, они быстро попадают в содержание бреда и галлюцинаций. Сегодня этим языком стал искусственный интеллект. Он обещает помощь, автоматизацию и творчество, но...

Ответы: 0

Просмотры: 916

2 Ноя 2025

Aintelligence

Сверху Снизу