ChatGPT е навсякъде, но ето откъде започва всичко

ideindfoundation
8.01.2024 г.
време за четене: 4 мин.

Пробивът на OpenAI беше сензация, но той е изграден върху десетилетия изследвания.

ChatGPT е в своя пик. Пуснат в края на ноември миналата година, като уеб приложение от базираната в Сан Франциско фирма OpenAI, чатботът избухна почти за една нощ. Според някои оценки това е най-бързо развиващата се интернет услуга, достигайки 100 милиона потребители през януари, само два месеца след старта. Чрез сделката на OpenAI с Microsoft за 10 милиарда долара технологията вече се вгражда в софтуера на Office и търсачката Bing.

Подтикнат да действа от наскоро пробудилия се някогашен съперник в битката за търсене, Google ускорява внедряването на собствения си чатбот, базиран на собствен голям езиков модел PaLM.

Но пробивът на OpenAI не идва от нищото. Чатботът е най-усъвършенстваният до момента голям езиков модел, в сравнения с големите езикови модели, датиращи от години.

Но как се стигна до тук.

1980–90-те години: повтарящи се невронни мрежи

ChatGPT е версия на GPT-3, голям езиков модел, също разработен от OpenAI. Големият езиков модел (или LLM) е вид невронна мрежа, която е обучена върху огромно количество текст.

Невронните мрежи са софтуер, вдъхновен от начина, по който невроните в мозъците на животните си сигнализират.

Тъй като текстът е съставен от последователности от букви и думи с различна дължина, езиковите модели изискват тип невронна мрежа, която може да осмисли този вид данни. Повтарящите се невронни мрежи, изобретени през 80-те години на миналия век, могат да обработват поредици от думи, но се обучават бавно и могат да забравят предишните думи в поредица.

През 1997 г. компютърните учени Sepp Hochreiter и Jürgen Schmidhuber поправят това, като изобретяват мрежи LSTM (Long Short-Term Memory: дълга краткосрочна памет), повтарящи се невронни мрежи със специални компоненти, които позволяват предоставени по-рано данни във входна последователност да бъдат запазени за по-дълго време. Тези мрежи могат да обработват поредици от текст с дължина няколкостотин думи, но езиковите им умения са ограничени.

2017: Трансформатори

Пробивът зад днешното поколение големи езикови модели идва, когато екип от изследователи на Google изобретява трансформаторите, вид невронна мрежа, която може да проследява къде се появява всяка дума или фраза в последователност. Значението на думите често зависи от значението на други думи, които идват преди или след нея. Чрез проследяване на тази контекстуална информация, трансформаторите могат да обработват по-дълги редици от текст и да улавят значенията на думите по-точно. Например „хот-дог“ означава много различни неща в изреченията „На хот-дог трябва да се дава много вода“ и „Хот-дог трябва да се яде с горчица“.

2018–2019: GPT и GPT-2

Първите два големи езикови модела на OpenAI се появиха само с няколко месеца разлика. Компанията се стреми да разработи многофункционален изкуствен интелект с общо предназначение и вярва, че големите езикови модели са ключова стъпка към тази цел.

GPT (съкратено от Generative Pre-trained Transformer или Генеративен предварително обучен трансформатор) направи огромен пробив, надминавайки най-съвременните стандарти за обработка на естествен език, достъпни по онова време.

GPT комбинира трансформатори с неконтролирано обучение, което е начин за обучение на модели за машинно обучение върху данни (в този случай много и много текст), които не са анотирани предварително.

Това позволява на софтуера сам да открива модели в данните, без да се налага да му се казва какво да гледа. Много предишни успехи в машинното обучение разчитаха на контролирано обучение и анотирани данни, но етикетирането на данни на ръка е бавна работа и по този начин ограничава размера на наборите от данни, налични за обучение.

Но GPT-2 провокира много коментари. По онова време от OpenAI твърдяха, че са толкова загрижени, че хората биха могли да използват GPT-2 „за генериране на измамен, предубеден или обиден език“, че компанията няма да пусне пълния модел. Как се променят времената!

2020: GPT-3

GPT-2 е впечатляващ, но продължението на OpenAI, GPT-3, накара ченетата да паднат! Способността му да генерира човешки текст беше огромен скок напред. GPT-3 може да отговаря на въпроси, да обобщава документи, да генерира истории в различни стилове, да превежда между английски, френски, испански и японски и др. Мимикрията му е невероятна.

Един от най-забележителните изводи е, че успехите на GPT-3 идват от увеличаване на съществуващите техники, вместо от изобретяването на нови. GPT-3 има 175 милиарда параметъра (стойностите в мрежа, които се коригират по време на обучение), в сравнение с 1,5 милиарда на GPT-2. Освен това, е обучен на много повече данни.

Но обучението върху текст, взет от интернет, носи нови проблеми. GPT-3 погълна голяма част от дезинформацията и предразсъдъците, които намери онлайн, и ги възпроизведе при поискване.

Както OpenAI признава: „Интернет обучените модели имат пристрастия в интернет мащаб.“

Декември 2020 г.: Токсичен текст и други проблеми

Докато OpenAI се бореше с пристрастията на GPT-3, останалата част от технологичния свят беше изправена пред проблема да се ограничат токсичните тенденции в изкуствения интелект.

Не е тайна, че големите езикови модели могат да избълват фалшиви - дори омразни - текстове, но изследователите са открили, че отстраняването на проблема не е в списъка с приоритети на повечето големи технологични фирми.

Януари 2022 г.: InstructGPT

OpenAI се опита да намали количеството дезинформация и обиден текст, който GPT-3 произвежда, като използва подсилващо обучение, за да обучи версия на модела на предпочитанията на човешките тестери (техника, наречена „обучение за подсилване от човешка обратна връзка“).

Резултатът, InstructGPT, беше по-добър в следването на инструкциите на хората, които го използват и създаде по-малко обиден език, по-малко дезинформация и по-малко грешки като цяло. Накратко, InstructGPT се държи много по-добронамерено, освен ако не е помолен да направи обратното.

Май–юли 2022 г.: OPT, BLOOM

Често срещана критика към големите езикови модели е, че цената на обучението им затруднява изграждането на такива, освен за най-богатите лаборатории. Това поражда опасения, че подобен мощен изкуствен интелект се изгражда от малки корпоративни екипи зад затворени врати, без подходящ контрол и без приноса на по-широка изследователска общност.

В отговор няколко съвместни проекти разработиха големи езикови модели и ги пуснаха безплатно за ползване от всеки изследовател, който иска да изучава и подобрява технологията.

Декември 2022 г.: ChatGPT

Дори OpenAI останаха поразени от това как беше приет ChatGPT. В първата демонстрация на компанията, направена ден преди ChatGPT да бъде пуснат онлайн, чатботът беше представена като постепенна актуализация на InstructGPT.

Подобно на този модел, ChatGPT беше обучен с помощта на обучение за подсилване на обратна връзка от човешки тестващи, които оцениха държанието му като естествен, точен и безобиден събеседник.

На практика OpenAI обучи GPT-3 да овладее играта на разговор и покани всички да дойдат и да играят. Милиони от нас играят оттогава.

Октомври 2023

GPT-4: може да общувате с него не само с текст, но и с изображение. Това означава, че след въвеждане на изображение в GPT-4, той ще изведе естествен език, код, инструкции или мнения като отговор на снимката, която сте публикували в прозореца за чат. Уникално, нали?

Ако ви е станало интересно, може да се запишете в нашето обучение ChatGPT за възрастни 60+! Представете си това обучение като дигитално приключение, в което ще откриете какво представлява ChatGPT и как да чатите като професионалист с ChatGPT, да задавате въпроси и да получавате отговори.

ChatGPT е навсякъде, но ето откъде започва всичко

Последни публикации

Коментари