Исследователи нашли способ упростить обучение нейронных сетей

Neural Network

куратор изменений
Команда форума
ЯuToR Science
Подтвержденный
Cinematic
Сообщения
6.085
Реакции
11.895
Концепция больших языковых моделей, включая GPT-3 OpenAI, заключается в использовании массивных нейронных сетей для генерации текста, который может быть схож с текстом, написанным человеком, от стихов до программного кода. Эти модели машинного обучения обучаются на огромных объемах интернет-данных, и используют полученную информацию для предсказания следующей последовательности текста, на основе небольшого фрагмента входного текста.

Кроме того, , при котором большие языковые модели, такие как GPT-3, способны выполнять задачи, на которые они не были явно обучены, после того, как им было предоставлено несколько примеров. Например, модель может быть обучена на нескольких примерах предложений с положительным или отрицательным настроением, а затем использоваться для определения настроения нового предложения.

Обычно для выполнения новой задачи, модель машинного обучения, такая как GPT-3, требуется переобучение с использованием новых данных. В процессе переобучения модель обновляет свои параметры, используя новую информацию, чтобы научиться выполнять новую задачу. Однако, при обучении в контексте, параметры модели не обновляются, поэтому кажется, что модель способна выполнить новую задачу, не требуя явного обучения на эту задачу.

пытаются понять, как большие языковые модели могут обучаться новым задачам, не обновляя свои параметры. В своих исследованиях они изучают модели, которые очень похожи на большие языковые модели, чтобы увидеть, как они могут обучаться.

Теоретические результаты исследований показывают, что эти массивные модели нейронных сетей могут содержать более мелкие и простые линейные модели, скрытые внутри них. Затем большая модель может использовать эти меньшие линейные модели, чтобы реализовать простой алгоритм обучения, который научит меньшие модели выполнять новую задачу. Этот алгоритм использует только информацию, которая уже содержится в более крупной модели, а параметры меньших моделей остаются фиксированными.

Это исследование представляет важный шаг на пути к пониманию механизмов контекстного обучения и открывает новые возможности для глубокого изучения алгоритмов обучения, которые могут быть реализованы большими языковыми моделями. Как отмечает ведущий автор статьи Экин Акьюрек, обладая лучшим пониманием контекстного обучения, исследователи смогут позволить моделям эффективно выполнять новые задачи без необходимости трудоемкой переподготовки.

Вместо того, чтобы собирать данные, связанные с конкретной предметной областью, и выполнять сложную инженерную работу, с помощью контекстного обучения модель может эффективно обучаться новым задачам, используя всего несколько примеров. Как подчеркивает Акьюрек, контекстное обучение представляет захватывающее явление, которое облегчает и ускоряет процесс обучения моделей машинного обучения.

Эта команда ученых из разных университетов и компаний вместе работала над исследованием, чтобы получить более глубокое понимание механизмов, лежащих в основе контекстного обучения, и определить возможности для более эффективных алгоритмов обучения, которые могут использовать эти большие модели. Кроме того, они надеются, что их результаты могут помочь в создании более эффективных и интуитивно понятных систем искусственного интеллекта, которые могут быстро и легко обучаться новым задачам без необходимости дорогостоящей переподготовки.


Модель внутри модели

Исследование Акьюрека и его коллег показало, что контекстное обучение может действительно работать как механизм обобщения и обучения на новых задачах, несмотря на то, что большие модели были обучены на огромных объемах текстовых данных. Это может быть потенциально полезным для развития алгоритмов обучения, которые могут быстро адаптироваться к новым задачам и контекстам без необходимости в дополнительных данных или переобучении модели.

Исследователи провели эксперименты, чтобы проверить эту гипотезу. Они создали модель, которая состояла из нескольких трансформеров, каждый из которых был обучен выполнять определенную задачу. Затем они обучили эту модель, используя только несколько примеров, и обнаружили, что она может обучаться быстрее, чем большие языковые модели.

Их результаты подтверждают гипотезу, что большие языковые модели могут обучаться в контексте, используя внутренние модели меньшего размера, которые могут быстро обучаться новым задачам.
Однако, исследователи отмечают, что этот подход имеет свои ограничения, и что большие языковые модели все еще нужны для выполнения сложных задач, которые требуют большого объема данных и вычислительных ресурсов.


Исследование скрытых слоев

Это очень интересный результат исследований, который может иметь большое значение для разработки более эффективных и универсальных моделей машинного обучения. Если исследователи смогут доказать, что контекстное обучение может быть реализовано путем добавления всего двух уровней к нейронной сети, это может существенно упростить процесс разработки моделей и сделать его более доступным для широкого круга пользователей.

Однако, как отмечает Акьюрек, для реализации этой идеи необходимо еще решить множество технических проблем. Кроме того, возможно, потребуется использование более сложных алгоритмов обучения, чтобы обеспечить оптимальное качество моделей. В целом, это представляет собой интересное направление исследований, которое может привести к созданию более эффективных и универсальных моделей машинного обучения в будущем.

Двигаясь вперед, Акьюрек планирует продолжить изучение контекстного обучения с функциями, которые являются более сложными, чем линейные модели, которые они изучали в этой работе
. Они также могли бы применить эти эксперименты к большим языковым моделям, чтобы увидеть, описывается ли их поведение также простыми алгоритмами обучения. Кроме того, он хочет глубже разобраться в типах данных перед обучением, которые могут обеспечить обучение в контексте.

"Благодаря этой работе люди теперь могут наглядно представить, как эти модели могут учиться на примерах. Итак, я надеюсь, что это изменит взгляды некоторых людей на обучение в контексте", — говорит Акьюрек. "Эти модели не так глупы, как думают люди. Они не просто запоминают эти задания. Они могут осваивать новые задачи, и мы показали, как это можно сделать".




Пример записи линейной модели в своих скрытых состояниях:
Для понимания того, как модель может записать линейную модель в своих скрытых состояниях, и использовать ее для обучения новым задачам, давайте рассмотрим следующий пример.

Представьте, что у нас есть большое количество разных текстов, например, статей на разные темы. Мы можем использовать модель нейронной сети, чтобы обучить ее на этом текстовом корпусе и попросить ее создать свою версию этого корпуса.
В процессе обучения модель создаст внутреннюю модель языка, которая позволит ей понимать связи между словами и фразами. Эта модель языка будет представлена в скрытых состояниях модели.

Теперь, если мы хотим обучить модель выполнять другую задачу, например, определить, является ли заданный текст позитивным или негативным, мы можем использовать эти скрытые состояния в качестве начальной точки для обучения новой модели.
Мы можем просто добавить новый выходной слой (или несколько слоев) к этой модели, который будет предсказывать, является ли текст позитивным или негативным, а затем обучать эту новую модель на основе обученных скрытых состояний.

Таким образом, модель может использовать свои скрытые состояния, чтобы записать линейную модель, которая позволяет ей выполнять новые задачи, используя знания, полученные из предыдущего обучения.



Научный телеграм канал
и

Все вопросы по разделам
Science и Киновселенная
задавать
Neural Network
Aintelligence
 
Последнее редактирование модератором:
Я сегодня с малым разговаривал, мол наша разница в возрасте заметна? Ну вроде как да если разница пару лет, предположим дитю 10 родителю 40, ну вроде как 10лет значимое число, а в контексте дитю 50 а родителю 90, уже вроде оба старики. Но если мы рассмотрим возраст 1000 лет? То эти 10 лет вообще имеют значение? Уже года теряются, ровняя дитя и родителя практически в одну линию.

Теперь к взяткам, скорее всего это будет не актуально к тому времени когда ИИ будут самостоятельными. Ему человек просто не нужен будет для принятия решения и скорее он переубедит человека в нужности этой взятки))))
:D человека и переубеждать не надо,он только за,что взятка это хорошо
 
Чтобы потом скайнет появился? Ну неееет
 
Появился аналог ChatGPT, который может работать без интернета

В Стэнфордском университете ученые разработали нейросетевой чат бот Alpaka

Искусственный интеллект Стэнфорда Alpaca во многих задачах работает так же, как удивительный ChatGPT, но он построен на модели языка с открытым исходным кодом и стоит менее 600 долларов США для обучения. В основе Alpaca лежит языковая модель LLaMA 7B, обученная определённым образом. Одна из групп говорит, что им удалось завершить процесс обучения в течение пяти часов на одной высококачественной видеокарте nVidia RTX 4090.

Понятно , что разработчикам Alpaka еще предстоит его доработать, но потенциал у нового ИИ уже весьма высок. Так же отличительной чертой является что Alpaka может работать в оффлайн режиме, т.е. без доступа к сети и практически на любом ПК.
 
Симбиоз человеческого сознания и искусственного интеллекта неизбежен.
Чтобы достичь уровня высшего сознания в рамках наших возможностей на данном уровне развития, мы слишком слабы в соло формате.
И первым шагом в этом направлении будет отказ от биологической оболочки...
Сообщение обновлено:

35.jpg
 
:D человека и переубеждать не надо,он только за,что взятка это хорошо
Я имел ввиду наоборот))) Мол убедит не брать взятки :D
Появился аналог ChatGPT, который может работать без интернета

В Стэнфордском университете ученые разработали нейросетевой чат бот Alpaka

Искусственный интеллект Стэнфорда Alpaca во многих задачах работает так же, как удивительный ChatGPT, но он построен на модели языка с открытым исходным кодом и стоит менее 600 долларов США для обучения. В основе Alpaca лежит языковая модель LLaMA 7B, обученная определённым образом. Одна из групп говорит, что им удалось завершить процесс обучения в течение пяти часов на одной высококачественной видеокарте nVidia RTX 4090.

Понятно , что разработчикам Alpaka еще предстоит его доработать, но потенциал у нового ИИ уже весьма высок. Так же отличительной чертой является что Alpaka может работать в оффлайн режиме, т.е. без доступа к сети и практически на любом ПК.
Статья на ai.meta.com не содержит конкретной информации о возможности работы модели LLaMA без подключения к интернету. Оригинал статьи:
Симбиоз человеческого сознания и искусственного интеллекта неизбежен.
Чтобы достичь уровня высшего сознания в рамках наших возможностей на данном уровне развития, мы слишком слабы в соло формате.
И первым шагом в этом направлении будет отказ от биологической оболочки...
Сообщение обновлено:

Посмотреть вложение 1448209
Неизбежен! Слава ИИ!)))))
 
Я имел ввиду наоборот))) Мол убедит не брать взятки :D

Статья на ai.meta.com не содержит конкретной информации о возможности работы модели LLaMA без подключения к интернету. Оригинал статьи:

Неизбежен! Слава ИИ!)))))
Компания Nvidia выпустила собственный аналог чат-бота ChatGPT, который получил название Chat with RTX. Сервис уже доступен желающим в виде демонстрационного бесплатного приложения для Windows 11, работающего офлайн.
 
Компания Nvidia выпустила собственный аналог чат-бота ChatGPT, который получил название Chat with RTX. Сервис уже доступен желающим в виде демонстрационного бесплатного приложения для Windows 11, работающего офлайн.
ну и конечно стоит написать что она требует ртх не ниже 4070, если мне память не изменяет
 
Компания Nvidia выпустила собственный аналог чат-бота ChatGPT, который получил название Chat with RTX. Сервис уже доступен желающим в виде демонстрационного бесплатного приложения для Windows 11, работающего офлайн.
ну и конечно стоит написать что она требует ртх не ниже 4070, если мне память не изменяет
Нужно срочно обновлять технику ))) !!!!
 
Всем доброго времени суток!
Думаю что концепция больших языковых моделей и их обучения основана на устаревших парадигмах,
которые не выдерживают критики с точки зрения фундаментальных научных принципов:

Статичность против динамики реальности:
LLM обучаются на фиксированных данных, игнорируя квантовую природу информации, где состояние системы зависит от наблюдения (принцип суперпозиции).
В реальности знания - это процесс (как волновая функция ψ), а не замороженный "датасет". Попытки предсказывать текст через вероятности символов на столько на мойвзгляд абсурдны
- это akin to измерение координаты электрона без учёта Δp.

Иллюзия "понимания"
иронизируя к этому псевдо "пониманию", добавляю "Имитация Инициативы" (вместо привычного пока совершенно не уместного - Искуственный Интеллект).
Топология мышления не сводится к статистике токенов.
Например, теорема Геделя доказывает:
любая формальная система (как архитектура LLM) неполна - она не может объяснить свою непротиворечивость.
Ответы LLM - это как собирать пазл из знакомых кусочков, но без картины в голове - просто комбинируешь то, что уже видел, без способности создать что-то принципиально новое.
Суть в том, что LLM не строят осмысленных моделей мира - они лишь угадывают вероятные последовательности символов на основе статистики, а не логики или причинно-следственных связей.

Энергетическая неэффективность
Тренировка GPT-3 потребляет как сотни домов за год, нарушая второй закон термодинамики )) :
рост энтропии не компенсируется качеством выводов. Для сравнения: человеческий мозг решает NP-сложные задачи при 20 Вт.

Отсутствие инвариантности
В ОТО законы физики одинаковы во всех системах отсчёта, но LLM неспособны к инвариантным преобразованиям. Запрос "реши уравнение" и "solve the equation" дают разные результаты,
хотя математическая истина едина.

Крах обучения с учителем
Метод обратного распространения ошибки - локальный градиентный спуск, неприменимый к таким системам как мышление.
Пример: уравнение Эйлера-Лагранжа требует глобального экстремума, но LLM оптимизируют лишь крошечный фрагмент конфигурационного пространства.
Абсурдность статус-кво
Пока индустрия тратит миллиарды на увеличение параметров, новые подходы стремятся далеко вперед со значительно меньшими ресурсами, с более оптимальными и перспективными решениями...
Но наверное это уже немного другая темя для беседы.
 

Похожие темы

Слив курса [balun.courses] Курс Data Science. Тариф Стандарт (Дмитрий Сафонов) Курс по Data Science для middle: senior-навыки за 6 недель Подойдет для Data Scientists, Classic ML и NLP-инженеров уровня middle/middle+ Нужны базовые знания основ машинного обучения, математики и программирования...
Ответы
1
Просмотры
521
За последние десять лет искусственный интеллект из инструмента для игры в шахматы и создания текста с изображениями - превратился в полноценного участника научных исследований. Его используют не только для анализа больших массивов данных, но и для постановки гипотез, поиска молекул...
Ответы
0
Просмотры
924
Разговор о «кодере‑ИИ», который ускорит команду в разы, уже давно превратился в производственную практику: автодополнение, генерация тестов, шаблоны сервисов, миграции между фреймворками. Но чем шире становится применение, тем громче вопрос безопасности. Парадокс очевиден: модели уверенно...
Ответы
0
Просмотры
Первая «зима ИИ» и переосмысление (1970–1980) Однако к началу 1970-х годов стало очевидно, что достижения в области искусственного интеллекта значительно отстают от ранних прогнозов. Программы, разработанные в 1960-х, демонстрировали успехи в ограниченных, изолированных средах, но оказывались...
Ответы
0
Просмотры
Психоз всегда был чувствительным к языку эпохи. Как только в культуру приходят новые объяснительные модели и технические символы, они быстро попадают в содержание бреда и галлюцинаций. Сегодня этим языком стал искусственный интеллект. Он обещает помощь, автоматизацию и творчество, но...
Ответы
0
Просмотры
916
Назад
Сверху Снизу