Дръжте моето Шиба Ину – TechCrunch


Светът на AI все още измисля как да се справи с невероятното шоу на майсторство, което е Способността на DALL-E 2 да рисува/рисува/представя почти всичко… но OpenAI не е единственият, който работи върху нещо подобно. Google Research се втурна да публикува подобен модел, върху който работи – за който твърди, че е дори по-добър.

Изображение (разбра ли?) е генератор, базиран на дифузия от текст към изображение, изграден върху големи езикови модели на трансформатор, които… добре, нека да забавим темпото и да го разопаковаме много бързо.

Моделите „текст към изображение“ приемат въвеждане на текст като „куче на колело“ и създават съответно изображение, нещо, което се прави от години, но напоследък се наблюдава огромен скокове в качеството и достъпността.

Част от това е използването на дифузионни техники, които основно започват с чисто изображение на шума и бавно го усъвършенстват малко по малко, докато моделът смята, че не може да го накара да изглежда повече като куче на велосипед, отколкото вече го прави. Това беше подобрение в сравнение с генераторите отгоре до долу, което можеше да го обърка смешно при първо предположение, и други, които лесно биха могли да бъдат подведени.

Другата част е подобрено разбиране на езика чрез големи езикови модели използвайки трансформаторния подход, чиито технически аспекти няма да (и не мога) да навлизам тук, но той и няколко други скорошни постижения доведоха до убедителни езикови модели като GPT-3 и други.

Примери за изкуство, генерирано от Imagen.

Кредити за изображения: Google Research

Imagen започва с генериране на малко (64×64 пиксела) изображение и след това прави две „супер разделителна способност“ върху него, за да го доведе до 1024×1024. Това обаче не е като нормалното увеличаване на мащаба, тъй като супер-резолюцията на AI създава нови детайли в хармония с по-малкото изображение, използвайки оригинала като основа.

Да кажем например, че имате куче на колело и окото на кучето е с диаметър 3 пиксела на първото изображение. Няма много място за изява! Но на второто изображение е с диаметър 12 пиксела. Откъде идват детайлите, необходими за това? Е, AI знае как изглежда окото на кучето, така че генерира повече детайли, докато рисува. След това това се случва отново, когато окото е направено отново, но при 48 пиксела в диаметър. Но в нито един момент AI не трябваше просто да издърпва 48 пиксела кучешко око от своята… да кажем магическа торба. Подобно на много художници, тя започна с еквивалент на груба скица, попълни я в проучване, след което наистина отиде в града на окончателното платно.

Това не е безпрецедентно и всъщност художниците, работещи с AI модели, вече използват тази техника, за да създават парчета, които са много по-големи от това, което AI може да се справи наведнъж. Ако разделите платно на няколко парчета и ги поставите в супер разделителна способност поотделно, в крайна сметка ще получите нещо много по-голямо и по-сложно детайлно; можете дори да го правите многократно. Интересен пример от художник, когото познавам:

Напредъкът, който изследователите на Google твърдят с Imagen, е няколко. Те казват, че съществуващите текстови модели могат да се използват за частта за кодиране на текст и че тяхното качество е по-важно от простото увеличаване на визуалната прецизност. Това има смисъл интуитивно, тъй като подробната картина на глупостите определено е по-лоша от малко по-малко подробна картина на точно това, което сте поискали.

Например, в хартия описвайки Imagen, те сравняват резултатите за него и DALL-E 2, който прави „панда, която прави лате арт“. Във всички изображения на последния това е лате арт на панда; в повечето от Imagen това е панда, която прави изкуството. (Нито един от двамата не успя да изобрази кон, яздещ астронавт, показвайки обратното при всички опити. Работата е в ход.)

Компютърно генерирани изображения на панди, които правят или са лате арт.

Кредити за изображения: Google Research

В тестовете на Google, Imagen излезе напред в тестовете за човешка оценка, както за точност, така и за вярност. Това очевидно е доста субективно, но дори да съответства на възприеманото качество на DALL-E 2, което до днес се смяташе за огромен скок пред всичко останало, е доста впечатляващо. Ще добавя само, че макар да е доста добро, нито едно от тези изображения (от който и да е генератор) няма да издържи повече от бегъл преглед, преди хората да забележат, че са генерирани или да имат сериозни подозрения.

OpenAI обаче е стъпка или две пред Google по няколко начина. DALL-E 2 е повече от изследователска статия, това е частна бета версия с хора, които го използват, точно както са използвали неговия предшественик и GPT-2 и 3. По ирония на съдбата компанията с „отворено“ в името си се е фокусирала върху производството на текста си -to-image проучване, докато страхотно печелившият интернет гигант все още не е опитал.

Това е повече от ясно от избора, който изследователите на DALL-E 2 направиха, да курират набора от данни за обучение преди време и да премахнат всяко съдържание, което може да нарушава техните собствени насоки. Моделът не би могъл да направи нещо NSFW, ако се опита. Екипът на Google обаче използва някои големи масиви от данни, за които е известно, че включват неподходящ материал. В проницателен раздел на сайта Imagen, описващ „Ограничения и обществено въздействие“, изследователите пишат:

Приложенията надолу по веригата на моделите текст към изображение са разнообразни и могат да повлияят на обществото по сложни начини. Потенциалните рискове от злоупотреба пораждат опасения относно отговорното отворен код на код и демонстрации. Понастоящем решихме да не пускаме код или публична демонстрация.

Изискванията за данни на моделите текст към изображение са накарали изследователите да разчитат в голяма степен на големи, предимно некурирани, уеб-изстъргани набори от данни. Въпреки че този подход даде възможност за бърз алгоритмичен напредък през последните години, набори от данни от това естество често отразяват социални стереотипи, потискащи гледни точки и унизителни или по друг начин вредни асоциации към маргинализирани групи за идентичност. Докато част от нашите данни за обучение беше филтрирана за премахване на шум и нежелано съдържание, като порнографски изображения и токсичен език, ние също използвахме набор от данни LAION-400M, за който е известно, че съдържа широк спектър от неподходящо съдържание, включително порнографски изображения, расистки обиди и вредни социални стереотипи. Imagen разчита на текстови кодери, обучени върху некурирани данни в уеб мащаб, и по този начин наследява социалните пристрастия и ограничения на големите езикови модели. Като такъв, съществува риск Imagen да е кодирал вредни стереотипи и представи, което ръководи нашето решение да не пускаме Imagen за обществено ползване без допълнителни предпазни мерки

Макар че някои може да се заблуждават, казвайки, че Google се страхува, че неговият AI може да не е достатъчно политически коректен, това е неблаготворителна и късогледа гледна точка. Моделът с изкуствен интелект е толкова добър, колкото данните, върху които е обучен, и не всеки екип може да отдели времето и усилията, които може да отнеме, за да премахне наистина ужасните неща, които тези скрепери събират, докато събират многомилионни изображения или милиарди- набори от думи.

Такива пристрастия са предназначени да се проявят по време на изследователския процес, който разкрива как работят системите и осигурява неограничена тестова площадка за идентифициране на тези и други ограничения. Как иначе бихме знаем, че изкуствен интелект не може да рисува прически, често срещани сред черните хора – прически, които всяко дете може да нарисува? Или че когато бъде подканен да пише истории за работната среда, AI неизменно прави шефа мъж? В тези случаи AI моделът работи перфектно и както е проектиран — той успешно е научил пристрастията, които проникват в медиите, върху които е обучен. Не за разлика от хората!

Но докато премахването на системните пристрастия е проект за цял живот за много хора, AI го прави по-лесно и неговите създатели могат да премахнат съдържанието, което го е накарало да се държи лошо на първо място. Може би някой ден ще има нужда изкуствен интелект да пише в стила на расистки, сексистки експерти от 50-те, но засега ползите от включването на тези данни са малки, а рисковете големи.

Във всеки случай, Imagen, подобно на другите, все още е в експериментална фаза, не е готов да бъде използван по нищо друго освен строго контролиран от човека начин. Когато Google направи възможностите си по-достъпни, сигурен съм, че ще научим повече за това как и защо работи.