Большие языковые модели, такие как OpenAI GPT-3, представляют собой массивные нейронные сети, которые могут генерировать человекоподобный текст, от стихов до программного кода. Эти модели нейросети, обученные с использованием множества интернет-данных, берут небольшой фрагмент входного текста, а затем предсказывают текст, который, вероятно, будет следующим. Но это еще не все, на что способны эти модели. Исследователи изучают любопытное явление, известное как обучение в контексте, при котором большая языковая модель учится выполнять задачу, увидев всего несколько примеров, несмотря на то, что она не была подготовлена для этой задачи. Например, кто-то может передать модели несколько примеров предложений и их настроения (положительные или отрицательные), затем предложить ей новое предложение, и модель может дать правильное настроение. Как правило, модель машинного обучения, такая как GPT-3, должна быть переобучена с новыми данными для этой новой задачи. Во время этого процесса обучения модель обновляет свои параметры по мере обработки новой информации для изучения задачи. Но при контекстном обучении параметры модели не обновляются, поэтому создается впечатление, что модель изучает новую задачу самостоятельно. Ученые из Массачусетского технологического института, Google Research и Стэнфордского университета стремятся разгадать эту тайну. Они изучили модели, очень похожие на большие языковые модели, чтобы понять, как они могут обучаться без обновления параметров. Теоретические результаты исследователей показывают, что эти массивные модели нейронных сетей способны содержать более мелкие и простые линейные модели, спрятанные внутри них. Затем большая модель может реализовать простой алгоритм для обучения этой меньшей линейной модели выполнению новой задачи, используя только информацию, уже содержащуюся в более крупной модели. Его параметры остаются фиксированными. Важным шагом к пониманию механизмов обучения в контексте является то, что это исследование открывает двери для дальнейшего изучения алгоритмов обучения, которые могут реализовать эти большие модели, говорит Экин Акюрек, аспирант компьютерных наук и ведущий автор статьи, посвященной этому явлению. Благодаря лучшему пониманию контекстного обучения исследователи могут позволить моделям выполнять новые задачи без необходимости дорогостоящего переобучения. Обычно, если вы хотите точно настроить эти модели, требуется собрать данные, специфичные для предметной области и выполнить некоторые сложные инженерные работы. Но теперь достаточно просто ввести входные данные, пять примеров, и нейросеть будет выполнять то, что требуется. По словам Акюрека, в сообществе исследователей машинного обучения многие ученые пришли к выводу, что большие языковые модели могут выполнять обучение в контексте из-за того, как они обучаются. Например, GPT-3 имеет сотни миллиардов параметров и был обучен путем чтения огромных массивов текста в Интернете, от статей в Википедии до постов на Reddit. Таким образом, когда кто-то показывает модельные примеры новой задачи, он, скорее всего, уже видел что-то очень похожее, потому что его обучающий набор данных включал текст с миллиардов веб-сайтов. Он повторяет шаблоны, которые он видел во время обучения, а не учится выполнять новые задачи. Акьюрек выдвинул гипотезу, что обучающиеся в контексте не просто сопоставляют ранее увиденные шаблоны, но вместо этого фактически учатся выполнять новые задачи. Он и другие экспериментировали, давая этим моделям подсказки с использованием синтетических данных, которых они раньше нигде не видели, и обнаружили, что модели все еще могут учиться всего на нескольких примерах. Акьюрек и его коллеги подумали, что, возможно, в этих моделях нейронных сетей есть более мелкие модели машинного обучения, которые могут обучать выполнению новой задачи. Изучив архитектуру этого преобразователя, они теоретически доказали, что он может писать линейную модель в своих скрытых состояниях. Нейронная сеть состоит из множества слоев взаимосвязанных узлов, обрабатывающих данные. Скрытые состояния — это слои между входным и выходным слоями. Их математические оценки показывают, что эта линейная модель записана где-то в самых ранних слоях. Затем преобразователь может обновить линейную модель, реализуя простые алгоритмы обучения. По сути, модель имитирует и обучает уменьшенную версию самой себя. Исследователи проверили эту гипотезу с помощью экспериментов по зондированию, в ходе которых они заглянули в скрытые слои. В этом случае мы попытались восстановить фактическое решение линейной модели и смогли показать, что параметр записывается в скрытых состояниях. Это означает, что линейная модель где-то здесь, говорит он. Основываясь на этой теоретической работе, исследователи могут позволить преобразователю выполнять контекстное обучение, добавив всего два слоя в нейронную сеть. Акьюрек предупреждает, что еще предстоит проработать много технических деталей, прежде чем это станет возможным, но это может помочь инженерам создавать модели, способные выполнять новые задачи без необходимости переобучения с новыми данными. Двигаясь вперед, Акюрек планирует продолжить изучение контекстного обучения с более сложными функциями, чем линейные модели, которые они изучали в этой работе. Они также могут применить эти эксперименты к большим языковым моделям, чтобы увидеть, описывается ли их поведение простыми алгоритмами обучения. Кроме того, он хочет глубже изучить типы данных предварительного обучения, которые могут обеспечить обучение в контексте. Благодаря этой работе люди теперь могут визуализировать, как эти модели могут учиться на примерах. Поэтому я надеюсь, что она изменит взгляды некоторых людей на обучение в контексте. Эти модели не такие тупые, как думают люди. Они не просто запоминают эти задачи. Они могут выучить новые задачи, и мы показали, как это можно сделать, говорит Акюрек.

Наука

Ученые обнаружили способность к самообучению у нейросетей

Автор: Загудалина Диана

10:19 08-02-2023

Фото: © E. Vartanyan

Установите приложение "ЦСН"

Новое исследование показывает, как большие языковые модели, такие как GPT-3, могут изучать новую задачу всего на нескольких примерах без необходимости в каких-либо новых обучающих данных.

Большие языковые модели, такие как OpenAI GPT-3, представляют собой массивные нейронные сети, которые могут генерировать человекоподобный текст, от стихов до программного кода. Эти модели нейросети, обученные с использованием множества интернет-данных, берут небольшой фрагмент входного текста, а затем предсказывают текст, который, вероятно, будет следующим.

Но это еще не все, на что способны эти модели. Исследователи изучают любопытное явление, известное как обучение в контексте, при котором большая языковая модель учится выполнять задачу, увидев всего несколько примеров, несмотря на то, что она не была подготовлена для этой задачи. Например, кто-то может передать модели несколько примеров предложений и их настроения (положительные или отрицательные), затем предложить ей новое предложение, и модель может дать правильное настроение.

Как правило, модель машинного обучения, такая как GPT-3, должна быть переобучена с новыми данными для этой новой задачи. Во время этого процесса обучения модель обновляет свои параметры по мере обработки новой информации для изучения задачи. Но при контекстном обучении параметры модели не обновляются, поэтому создается впечатление, что модель изучает новую задачу самостоятельно.

Ученые из Массачусетского технологического института, Google Research и Стэнфордского университета стремятся разгадать эту тайну. Они изучили модели, очень похожие на большие языковые модели, чтобы понять, как они могут обучаться без обновления параметров.

Теоретические результаты исследователей показывают, что эти массивные модели нейронных сетей способны содержать более мелкие и простые линейные модели, спрятанные внутри них. Затем большая модель может реализовать простой алгоритм для обучения этой меньшей линейной модели выполнению новой задачи, используя только информацию, уже содержащуюся в более крупной модели. Его параметры остаются фиксированными.

Важным шагом к пониманию механизмов обучения в контексте является то, что это исследование открывает двери для дальнейшего изучения алгоритмов обучения, которые могут реализовать эти большие модели,
говорит Экин Акюрек, аспирант компьютерных наук и ведущий автор статьи, посвященной этому явлению. Благодаря лучшему пониманию контекстного обучения исследователи могут позволить моделям выполнять новые задачи без необходимости дорогостоящего переобучения.

Обычно, если вы хотите точно настроить эти модели, требуется собрать данные, специфичные для предметной области и выполнить некоторые сложные инженерные работы. Но теперь достаточно просто ввести входные данные, пять примеров, и нейросеть будет выполнять то, что требуется.

По словам Акюрека, в сообществе исследователей машинного обучения многие ученые пришли к выводу, что большие языковые модели могут выполнять обучение в контексте из-за того, как они обучаются. Например, GPT-3 имеет сотни миллиардов параметров и был обучен путем чтения огромных массивов текста в Интернете, от статей в Википедии до постов на Reddit. Таким образом, когда кто-то показывает модельные примеры новой задачи, он, скорее всего, уже видел что-то очень похожее, потому что его обучающий набор данных включал текст с миллиардов веб-сайтов. Он повторяет шаблоны, которые он видел во время обучения, а не учится выполнять новые задачи.

Акьюрек выдвинул гипотезу, что обучающиеся в контексте не просто сопоставляют ранее увиденные шаблоны, но вместо этого фактически учатся выполнять новые задачи. Он и другие экспериментировали, давая этим моделям подсказки с использованием синтетических данных, которых они раньше нигде не видели, и обнаружили, что модели все еще могут учиться всего на нескольких примерах. Акьюрек и его коллеги подумали, что, возможно, в этих моделях нейронных сетей есть более мелкие модели машинного обучения, которые могут обучать выполнению новой задачи.

Изучив архитектуру этого преобразователя, они теоретически доказали, что он может писать линейную модель в своих скрытых состояниях. Нейронная сеть состоит из множества слоев взаимосвязанных узлов, обрабатывающих данные. Скрытые состояния — это слои между входным и выходным слоями. Их математические оценки показывают, что эта линейная модель записана где-то в самых ранних слоях. Затем преобразователь может обновить линейную модель, реализуя простые алгоритмы обучения. По сути, модель имитирует и обучает уменьшенную версию самой себя. Исследователи проверили эту гипотезу с помощью экспериментов по зондированию, в ходе которых они заглянули в скрытые слои.

В этом случае мы попытались восстановить фактическое решение линейной модели и смогли показать, что параметр записывается в скрытых состояниях. Это означает, что линейная модель где-то здесь,
говорит он.

Основываясь на этой теоретической работе, исследователи могут позволить преобразователю выполнять контекстное обучение, добавив всего два слоя в нейронную сеть. Акьюрек предупреждает, что еще предстоит проработать много технических деталей, прежде чем это станет возможным, но это может помочь инженерам создавать модели, способные выполнять новые задачи без необходимости переобучения с новыми данными.

Двигаясь вперед, Акюрек планирует продолжить изучение контекстного обучения с более сложными функциями, чем линейные модели, которые они изучали в этой работе. Они также могут применить эти эксперименты к большим языковым моделям, чтобы увидеть, описывается ли их поведение простыми алгоритмами обучения. Кроме того, он хочет глубже изучить типы данных предварительного обучения, которые могут обеспечить обучение в контексте.

Благодаря этой работе люди теперь могут визуализировать, как эти модели могут учиться на примерах. Поэтому я надеюсь, что она изменит взгляды некоторых людей на обучение в контексте. Эти модели не такие тупые, как думают люди. Они не просто запоминают эти задачи. Они могут выучить новые задачи, и мы показали, как это можно сделать,
говорит Акюрек.