Како што вештачката интелигенција го достигнува врвот на својата популарност, истражувачите предупредија дека индустријата можеби нема да има податоци за обука – гориво што работи моќни системи со вештачка интелигенција. Ова може да го забави растот на моделите со вештачка интелигенција, особено големите јазични модели, па дури и може да ја смени траекторијата на револуцијата на вештачката интелигенција.
Но, зошто е проблем потенцијалниот недостиг на податоци, со оглед на тоа колку има на интернет? И дали постои начин да се реши ризикот?
Зошто висококвалитетните податоци се важни за вештачката интелигенција
Ни требаат многу податоци за да тренираме моќни, точни и висококвалитетни алгоритми за вештачка интелигенција. На пример, ChatGPT беше обучен на 570 гигабајти текстуални податоци, или околу 300 милијарди зборови.
Слично на тоа, алгоритам за стабилна дифузија (кој стои зад многу апликации за генерирање слики со вештачка интелигенција како што се DALL-E, Lensa и Midjourney) беше обучен на базата на податоци LIAON-5B која се состои од 5,8 милијарди парови слика-текст. Ако алгоритам е обучен на недоволна количина на податоци, тој ќе произведе неточни или неквалитетни излези.
Квалитетот на податоците за обуката е исто така важен. Податоците со низок квалитет, како што се објавите на социјалните мрежи или заматените фотографии, лесно се добиваат, но не се доволни за обука на модели со вештачка интелигенција со високи перформанси.
ДАЛИ ИМАМЕ ДОВОЛНО КВАЛИТЕТНИ ПОДАТОЦИ?
Текстот преземен од платформите за социјални медиуми може да биде пристрасен или со предрасуди, или може да вклучува дезинформации или незаконски содржини што може да се реплицираат од моделот. На пример, кога Мајкрософт се обиде да го обучи својот бот со вештачка интелигенција користејќи содржина на Твитер, научи да произведува расистички и мизогински резултати.
Ова е причината зошто развивачите на вештачка интелигенција бараат висококвалитетна содржина, како што се текст од книги, онлајн статии, научни трудови, Википедија и одредени филтрирани веб-содржини. Асистентот на Google беше обучен за 11.000 романтични романи земени од самоиздавачката страница Smashwords за да ја направи повеќе разговорна.
Индустријата за вештачка интелигенција тренира системи за вештачка интелигенција за сè поголеми збирки на податоци, поради што сега имаме модели со високи перформанси како што се ChatGPT или DALL-E 3. Во исто време, истражувањата покажуваат дека залихите на онлајн податоци растат многу побавно од користените збирки на податоци да тренира вештачка интелигенција.
Во трудот објавен минатата година, група истражувачи предвидуваа дека ќе снемаме висококвалитетни текстуални податоци пред 2026 година, доколку продолжат тековните трендови за обука за вештачка интелигенција. Тие, исто така, проценија дека податоците за јазикот со низок квалитет ќе бидат исцрпени некаде помеѓу 2030 и 2050 година, а податоците за слики со низок квалитет помеѓу 2030 и 2060 година.
Вештачката интелигенција би можела да придонесе до 15,7 трилиони американски долари во светската економија до 2030 година, според сметководствената и консултантската група PwC. Но, снемувањето на корисни податоци може да го забави неговиот развој.
ПРИЧИНА ЗА ЗАГРИЖЕНОСТ?
Иако горенаведените точки може да алармираат некои обожаватели на вештачка интелигенција, ситуацијата можеби не е толку лоша како што изгледа. Има многу непознати за тоа како моделите со вештачка интелигенција ќе се развиваат во иднина, како и неколку начини за справување со ризикот од недостиг на податоци.
Една можност е развивачите на вештачка интелигенција да ги подобрат алгоритмите за да ги користат податоците што веќе ги имаат поефикасно.
Веројатно во наредните години тие ќе можат да тренираат системи со вештачка интелигенција со високи перформанси користејќи помалку податоци, а можеби и помала пресметковна моќ. Ова исто така би помогнало да се намали јаглеродниот отпечаток на вештачката интелигенција.
Друга опција е да се користи вештачка интелигенција за создавање синтетички податоци за обука на системи. Со други зборови, програмерите едноставно можат да ги генерираат податоците што им се потребни, курирани да одговараат на нивниот конкретен модел на вештачка интелигенција.
Неколку проекти веќе користат синтетичка содржина, често добиена од услуги за генерирање податоци, како што е претежно вештачка интелигенција. Ова ќе стане почеста во иднина.
Програмерите исто така бараат содржина надвор од бесплатниот онлајн простор, како што е онаа што ја имаат големите издавачи и офлајн складиштата. Размислете за милионите текстови објавени пред интернет. Достапни дигитално, тие би можеле да обезбедат нов извор на податоци за проекти за вештачка интелигенција.
News Corp, еден од најголемите сопственици на вести во светот (кој има голем дел од содржината зад ѕидот за плаќање) неодамна изјави дека преговара за договори за содржина со развивачите на вештачка интелигенција. Ваквите зделки би ги принудиле компаниите за вештачка интелигенција да платат за податоци за обука – додека тие досега најчесто ги бришеле од интернет бесплатно.
Креаторите на содржина протестираа против неовластената употреба на нивната содржина за обука на модели со вештачка интелигенција, при што некои тужеа компании како Microsoft, OpenAI и Stability AI. Наградувањето за нивната работа може да помогне да се врати дел од нерамнотежата на моќта што постои помеѓу креативците и компаниите за вештачка интелигенција.