Генеративен изкуствен интелект

Големи езикови модели

Напредъкът в машинното обучение, нарастващата нужда от автоматизация и наличието на много текстови данни в интернет и социалните мрежи дават възможност за развитието на т.нар. големи езикови модели (LLM, Large Language Models). Те са вид изкуствен интелект, който може да разбира човешки език.
Всъщност под „разбира“ се има предвид, че LLM използват алгоритми, за да предсказват следващите думи в изречение или текст.
Тъй като за обучението на LLM се използват милиарди думи и фрази, обработката изисква значителна изчислителна мощност. Графичните видеокарти се оказват изключително полезни за тази обработка. Благодарение на десетките до хиляди изчислителни ядра, които могат да обработват данни паралелно, изграждането на големите езикови модели се улеснява значително.
Едно от първите по-значителни приложения на LLM са автоматичните (машинните) преводачи – Google Translate, Microsoft Translator, DeepL, Baidu Translate,Yandex Translate.

Генеративен изкуствен интелект

С помощта на големите езикови модели хората могат да възлагат задачи на компютърните системи или на интелигентни асистенти, като използват естествен език. Това довежда до разработването на генеративен ИИ.
Генеративните ИИ са вид изкуствен интелект, който може да създава ново съдържание, например текст, изображения, музика и други. Едни от най-известните генеративни ИИ са GPT (OpenAI), Gemini (Google), Copilot (Microsoft), DALL-E, Midjourney, Artbreeder, MuseNet и др.

Генеративен ИИ

Известни генеративни ИИ

GPT­-2, 3, 3.5, 4 са езикови модели с огромна способност за генериране на текст, които са разработени от OpenAI.
Могат да се използват за творческо писане, превод на езици, отговаряне на въпроси по информативен начин и др.

DALL­E е модел, създаден от OpenAI за генериране на изображения от текстови описания.
Artbreeder е уеб платформа за генериране на изображения и манипулиране на съществуващи. Потребителите могат да качват свои собствени изображения или да избират от набор изображения по подразбиране, след което да
използват различни инструменти за смесване и съчетаване на характеристики.
MuseNet е разработен от Google ИИ и може да генерира музика в различни жанрове и стилове.

Задача 1

Последвайте линка „LLM Времева линия“ от сайта www.kmit.bg или отворете съответния приложен файл от материалите към учебника. Разгледайте как се променят големите езикови модели с времето. Потърсете информация за първия модел във времевата линия. Какви са възможностите му?

Генериране на съдържание чрез заявки

Генерирането на съдържание се извършва с помощта на заявка. Заявката автоматично се превежда на английски език. Генеративните ИИ са наречени още трансформъри заради факта, че преобразуват входната заявка в съдържание. Когато им зададем въпрос (заявка), те го преобразуват в отговор, който зависи от
информацията, с която те са тренирани. За да постигнем най-добра трансформация (отговор), е добре да спазваме някои правила към запитването:

  • яснота;
  • специфичност;
  • то да бъде с отворен край.

Платформи за генериране на Изображения:

Важно!

Често срещани проблеми при изработване на запитване:

  • Претоварване – твърде много (неподходяща) информация.
  • Неяснота – неясни подсказки, които означават обобщени отговори.
  • Прекомерно усложняване – използване на жаргон, сложни фрази или технически подробности.
  • Пристрастия – моделът представя стереотипи или дезинформация.
  • Халюцинации – моделът уверено заявява невярна информация.
  • Пренастройване – моделът е толкова добър, колкото и данните, върху които е обучен.

Задача 2

Посетете линка „Генеративни ИИ“ от сайта www.kmit.bg или използвайте съответния приложен файл от материалите към учебника. Разгледайте таблицата.

  • Разгледайте и опитайте да отворите линковете на някои от моделите на генеративни ИИ. Обикновено е нужен акаунт, за да продължите и да генерирате съдържание. Използвайте тези модели и в следващите задачи.
  • Направете запитване „Защо мухите не могат да летят дълго?“. Колко дълъг отговор получихте?
  • Променете запитването по следния начин: „Обясни като на дете на 5 години защо мухите не могат да летят дълго“. Каква е разликата в отговорите?
  • Променете още веднъж запитването: „Отговори с 2 – 3 изречения защо мухите не могат да летят дълго“. Кой отговор ви допада най-много?
  • Когато правим запитване, не знаем точно какъв ще е отговорът на ИИ. Затова, ако искаме да получим добър отговор от първия път, е важно да оформим запитването достатъчно ясно и подробно.

    Генерирано с DALL-E

Халюцинации

Някои генеративни модели ИИ нямат връзка с интернет. Това означава, че данните, с които разполагат, са до момента на тяхното обучение. Когато правим запитване, трябва да отчетем този факт.
Друг проблем е, че ИИ се опитва да даде отговор на всяко запитване, дори да няма достатъчно данни за него. Тогава се получават т.нар. „халюцинации“. Моделът убедително твърди нещо, което не се е случвало. Тъй като LLM се развиват непрекъснато, да се открие такъв пример, може да се окаже предизвикателство.

Кратка хронология:

  • GPT (2018). Първият голям езиков модел на OpenAI, който демонстрира потенциала на трансформаторните архитектури.
  • GPT­2 (2019). Подобрен модел с 1,5 милиарда параметри, който може да генерира текст, подобно на човек.
  • GPT­3 (2020). Революционен за времето си модел с разширени възможности за генериране на текст и решаване на сложни задачи, трениран със 175 милиарда параметри.
  • MS Copilot (2020). Интегриран в продуктите на Microsoft, този модел помага на програмисти с автоматично допълване на кода.
  • LaMDA (2021). Модел на Google, оптимизиран за водене на диалози и разговори.
  • Codex (2022). Езиков модел, базиран на GPT­3, специално обучен за генериране на програмен код.
  • Gopher (2022). Модел на DeepMind с 280 милиарда параметри, който постига високи резултати в задачи по разбиране на естествен език.
  • Google Gemini (2023). Серия от езикови модели на Google с подобрени възможности за разбиране на контекст и сложни заявки.
  • GPT­4 (2023). Нов модел на OpenAI с мултимодални възможности, позволяващи му да работи с текст, изображения и други типове данни.
  • Разширение на AI предложенията на Microsoft (2024).
    Интеграция на GPT­4 в повече продукти и услуги, което увеличава достъпността и функционалността на големите езикови модели за потребителите.

Задача 3

Разгледайте направените запитвания в линка „Халюцинации“ от сайта www.kmit.bg или отворете съответния приложен файл от материалите към учебника. Опитайте се да накарате ИИ да „халюцинира“.

Генериране на изображения

Задача 4

Проверете в таблицата с генеративни ИИ кои модели могат да се използват безплатно за генериране на изображения. Посетете линка „Генериране на изображение“ и вижте как се използва ИИ за тази цел.

Задача 5

Разгледайте генерирания от Microsoft Copilot сонет от линка „Поема“ от сайта www.kmit.bg или от съответния файл от приложените към учебника материали.

Разгледайте генерираните от DALLE изображения към поемата. Изберете

си стила, който най-много ви допада, и направете запитване за генериране на
изображение по поемата в този стил.

Генерирано с DALL-E