Големи езикови модели
Напредъкът в машинното обучение, нарастващата нужда от автоматизация и наличието на много текстови данни в интернет и социалните мрежи дават възможност за развитието на т.нар. големи езикови модели (LLM, Large Language Models). Те са вид изкуствен интелект, който може да разбира човешки език.
Всъщност под „разбира“ се има предвид, че LLM използват алгоритми, за да предсказват следващите думи в изречение или текст.
Тъй като за обучението на LLM се използват милиарди думи и фрази, обработката изисква значителна изчислителна мощност. Графичните видеокарти се оказват изключително полезни за тази обработка. Благодарение на десетките до хиляди изчислителни ядра, които могат да обработват данни паралелно, изграждането на големите езикови модели се улеснява значително.
Едно от първите по-значителни приложения на LLM са автоматичните (машинните) преводачи – Google Translate, Microsoft Translator, DeepL, Baidu Translate,Yandex Translate.
Генеративен изкуствен интелект
С помощта на големите езикови модели хората могат да възлагат задачи на компютърните системи или на интелигентни асистенти, като използват естествен език. Това довежда до разработването на генеративен ИИ.
Генеративните ИИ са вид изкуствен интелект, който може да създава ново съдържание, например текст, изображения, музика и други. Едни от най-известните генеративни ИИ са GPT (OpenAI), Gemini (Google), Copilot (Microsoft), DALL-E, Midjourney, Artbreeder, MuseNet и др.
Известни генеративни ИИ
GPT-2, 3, 3.5, 4 са езикови модели с огромна способност за генериране на текст, които са разработени от OpenAI.
Могат да се използват за творческо писане, превод на езици, отговаряне на въпроси по информативен начин и др.
DALLE е модел, създаден от OpenAI за генериране на изображения от текстови описания.
Artbreeder е уеб платформа за генериране на изображения и манипулиране на съществуващи. Потребителите могат да качват свои собствени изображения или да избират от набор изображения по подразбиране, след което да
използват различни инструменти за смесване и съчетаване на характеристики.
MuseNet е разработен от Google ИИ и може да генерира музика в различни жанрове и стилове.
Генериране на съдържание чрез заявки
Генерирането на съдържание се извършва с помощта на заявка. Заявката автоматично се превежда на английски език. Генеративните ИИ са наречени още трансформъри заради факта, че преобразуват входната заявка в съдържание. Когато им зададем въпрос (заявка), те го преобразуват в отговор, който зависи от
информацията, с която те са тренирани. За да постигнем най-добра трансформация (отговор), е добре да спазваме някои правила към запитването:
- яснота;
- специфичност;
- то да бъде с отворен край.
Платформи за генериране на Изображения:
- midjourney.com – най-популярната платформа за генериране на изображения
- https://clipdrop.co/ – базирана на open source модели платформа за генериране и edit на изображения
- https://stabledifffusion.com/generate – open source.
Халюцинации
Някои генеративни модели ИИ нямат връзка с интернет. Това означава, че данните, с които разполагат, са до момента на тяхното обучение. Когато правим запитване, трябва да отчетем този факт.
Друг проблем е, че ИИ се опитва да даде отговор на всяко запитване, дори да няма достатъчно данни за него. Тогава се получават т.нар. „халюцинации“. Моделът убедително твърди нещо, което не се е случвало. Тъй като LLM се развиват непрекъснато, да се открие такъв пример, може да се окаже предизвикателство.
Кратка хронология:
- GPT (2018). Първият голям езиков модел на OpenAI, който демонстрира потенциала на трансформаторните архитектури.
- GPT2 (2019). Подобрен модел с 1,5 милиарда параметри, който може да генерира текст, подобно на човек.
- GPT3 (2020). Революционен за времето си модел с разширени възможности за генериране на текст и решаване на сложни задачи, трениран със 175 милиарда параметри.
- MS Copilot (2020). Интегриран в продуктите на Microsoft, този модел помага на програмисти с автоматично допълване на кода.
- LaMDA (2021). Модел на Google, оптимизиран за водене на диалози и разговори.
- Codex (2022). Езиков модел, базиран на GPT3, специално обучен за генериране на програмен код.
- Gopher (2022). Модел на DeepMind с 280 милиарда параметри, който постига високи резултати в задачи по разбиране на естествен език.
- Google Gemini (2023). Серия от езикови модели на Google с подобрени възможности за разбиране на контекст и сложни заявки.
- GPT4 (2023). Нов модел на OpenAI с мултимодални възможности, позволяващи му да работи с текст, изображения и други типове данни.
- Разширение на AI предложенията на Microsoft (2024).
Интеграция на GPT4 в повече продукти и услуги, което увеличава достъпността и функционалността на големите езикови модели за потребителите.
Генериране на изображения
Разгледайте генерираните от DALLE изображения към поемата. Изберете
си стила, който най-много ви допада, и направете запитване за генериране на
изображение по поемата в този стил.