Невероятният нов изкуствен интелект за снимки на Google превръща „увеличаването и подобряването“ в истинско нещо

(Проучване на Google)

Може би сте гледали научно-фантастични филми или телевизионни предавания, в които главният герой иска да увеличи мащаба на изображение и да подобри резултатите – разкривайки лице, табела с номер или друг ключов детайл – и най-новото на Googleизкуствен интелектдвигатели, базирани на това, което е известно като дифузионни модели, са в състояние да направят точно този трик.

Това е труден процес за овладяване, защото по същество това, което се случва, е, че се добавят детайли на картината, които камерата не е заснела първоначално, като се използват някои супер интелигентни предположения, базирани на други, подобни на вид изображения.

Техниката се нарича естествен синтез на изображение от Google и в този конкретен сценарий, супер разделителна способност на изображението. Започвате с малка, плътна, пикселизирана снимка и завършвате с нещо остро, ясно и естествено изглеждащо. Може да не съвпада точно с оригинала, но е достатъчно близо, за да изглежда истинско за чифт човешки очи.

(Проучване на Google)

Google всъщност разкри два нови AI инструмента за тази работа. Първият се нарича SR3, или Супер разделителна способност чрез повтарящо се усъвършенстване , и работи, като добавя шум или непредсказуемост към изображение и след това обръща процеса и го отнема – подобно на това, че редакторът на изображения може да се опита да изостри снимките ви от ваканцията.

„Дифузионните модели работят, като повреждат данните за обучение чрез прогресивно добавяне Гаусов шум , бавно изтриване на детайли в данните, докато се превърнат в чист шум, и след това обучение на невронна мрежа да обърне този процес на корупция“, обясняват изследователят Джонатан Хо и софтуерният инженер Читуан Сахария от Проучване на Google .

Чрез поредица от изчисления на вероятността, базирани на обширна база данни от изображения и някои машинно обучение магия, SR3 е в състояние да си представи как изглежда версия с пълна разделителна способност на блоково изображение с ниска разделителна способност. Можете да прочетете повече за това в статията, публикувана от Google arXiv .

Вторият инструмент е CDM, или Модели на каскадна дифузия . Google ги описва като „тръбопроводи“, чрез които дифузионните модели – включително SR3 – могат да бъдат насочени за надграждане на разделителната способност на висококачествени изображения. Той взема моделите за подобрение и прави по-големи изображения от тях, а Google има публикува доклад върху това също.

CDM в действие. (Проучване на Google)

Чрез използването на различни модели за подобряване при различни разделителни способности подходът CDM е в състояние да победи алтернативните методи за увеличаване на изображенията, казва Google. Новият AI двигател е тестван на ImageNet , гигантска база данни от тренировъчни изображения, често използвани за изследване на визуално разпознаване на обекти.

Крайните резултати на SR3 и CDM са впечатляващи. В стандартен тест с 50 доброволци, генерираните от SR3 изображения на човешки лица бяха объркани с реални снимки около 50 процента от времето – и като се има предвид, че един перфектен алгоритъм би се очаквало да достигне 50 процента резултат, това е впечатляващо.

Струва си да се повтори, че тези подобрени изображения не съвпадат точно с оригиналите, но са внимателно изчислени симулации, базирани на някои усъвършенствани вероятностни математики.

Google казва, че дифузионният подход дава по-добри резултати от алтернативните опции, включителногенеративни враждебни мрежи(GANs), които поставят две невронни мрежи един срещу друг за прецизиране на резултатите.

(Проучване на Google)

Google обещава много повече от новите си AI двигатели и свързаните с тях технологии – не само по отношение на мащабиране на изображения на лица и други природни обекти, но и в други области на моделиране на вероятностите.

„Развълнувани сме да тестваме допълнително границите на дифузионните модели за голямо разнообразие от проблеми с генеративното моделиране,“ обяснява екипът .

За Нас

Публикуването На Независими, Доказани Факти От Доклади За Здравето, Пространството, Природата, Технологиите И Околната Среда.