През последните няколко години Иван Вергилиев изгражда дистрибутирани системи и ръководи дистрибутирани екипи. Работил е върху алгоритми за препоръчване на музика в SoundCloud. Стажувал в Google (два пъти) и Facebook. Бивш състезател по информатика с множество награди, включително бронзов медал от Международната Олимпиада по Информатика през 2009 година. С него ще ви срещнем на събитието Architectures for analyzing big data на 8-ми юли. Преди това, Иван ни сподели интересни факти покрай Machine Learning.

Ти беше лектор в групата ни преди точно 2 години, какво се е промени в ML света през това време?

Една от основните области на Machine Learning, които следя, е Natural Language Processing (такава беше и темата на предната ми лекция в групата). Една обещаваща промяна в областта според мен са подобренията в transfer learning. Това е техника, която позволява да използваш голяма част от Machine Learning модела за един проблем, в друг. Например, може да тренираш много точен модел за задачата „предскажи следващата дума в статия от Wikipedia на английски“ – задача, за която има огромни количества лесно достъпни данни. След това може да „прехвърлиш“ голяма част от наученото в по-специфична задача, за която нямаш толкова много данни – нещо тип „прецени колко е доволен клиент на сайта ми според ревюто, което е оставил“. Ако се опиташ да решиш втория проблем директно, ще срещнеш трудности със събирането на достатъчно данни в началото. Transfer learning-ът ти позволява до голяма степен да „приложиш наученото“ от задачата с повече данни. Примери за това са ELMo [1] и BERT [2]. Сигурен съм, че имената на герои от „Улица Сезам“ много помагат, когато се опитваш да убедиш колегите си, че това е най-надеждният модел, който трябва да deploy-неш в production.

Друго развитие в подобна посока са multilingual word embeddings. Това е transfer learning, но между различни езици. Може да тренираш модел върху огромен Dataset на английски, и после да го приложиш върху български. Facebook например правят такива неща в production от скоро [3].

В областта на базите данни (за които ще говоря на следващата лекция) също има интересни развития. Това по принцип е област, в която се разчита на много точни алгоритми и структури от данни, оптимизирани максимално, така че да работят добре в конкретни условия. Взимайки това предвид, тази област на пръв поглед не изглежда особено податлива на оптимизация чрез Machine Learning. Google обаче публикуваха изследване на име „The Case for Learned Index Structures“[4], което се фокусира точно върху тази сфера. Идеята е да разгледаме индексите в базите данни като „модел“, който отговаря на въпроса: „имайки ключа на даден ред от таблицата, къде точно мога да намеря този ред в паметта?“ Стандартно на този въпрос бихме могли да отговорим например с B-tree – структура, подобна на двоично дърво за търсене, но оптимизирана за работа с паметта и хард дисковете на съвременен сървър. Вместо това, „The Case for Learned Index Structures“ предлага да тренираме supervised machine learning модел, който се учи да предсказва позицията на даден ред спрямо ключа му. Макар и далеч от production, резултатите са доста интересни и обещаващи.

Ще замести ли машината човека? Какво е твоето мнение по този така обсъждан от всички въпрос?

Едва ли ще е скоро, дори и да се случи. Едно от интересните според мен развития по темата е в сферата на self-driving cars. До скоро всички бяха много екзалтирани и твърдяха, че „сега, веднага“ ще караме (т.е. няма да караме) self-driving cars. Напоследък обаче, с изключение на Elon Musk, почти всички са в затишие. Нещо повече – не просто са в затишие, а някои активно се опитват да обяснят как автономните автомобили всъщност не са толкова близо в бъдещето – например директорът на Toyota Research Institute [5] [6]. Някои компании се съсредоточават в ограничени географски области – с по-уредени пътни мрежи, или пък с по-меки климатични условия, и с по-подходящи регулации [7]. Една компания за автономни (полуавтономни?) тирове се фокусира върху автономността по магистралите, а хора управляват тировете дистанционно в по-сложните участъци [8] (а междувременно същата компания е започнала да развива и стандартен бизнес с тирове [9] ). Като цяло изглежда, че да се направи автономен автомобил, който може да шофира по-добре от човек, във всякакви условия, ще отнеме още доста време.

Какво е мнението ти за използването на ML в България – разкрива ли се пълния му потенциал?

Мисля, че има още накъде да се развива. Според мен две основни неща забавят развитието. Едното е, че сме в ситуация тип „Параграф 22“ – няма достатъчно хора, които са добри в Machine Learning, понеже сравнително малко компании търсят такива умения; и няма достатъчно компании, които активно да развиват такава дейност, понеже няма хора. Другото е, че в компании от рода на Google и Facebook е трудно да стигнеш до по-сериозна ML позиция без PhD – а в България хората с PhD-та по Machine Learning сякаш не са преобладаващи.

Какви промени и новости да очакваме с ML в следващите 3 години?

Не знам – може би „фалшиви“ политици? Както повечето научни развития, Machine Learning също има негативни приложения. Едно от тях, което стана популярно напоследък, са така наречените „deep fakes“ – видеота, в които известна личност напълно реалистично говори по някакви теми, но всъщност съответната личност никога не е казвала нещата от видеото. Един от популярните примери е видео [10], в което Барак Обама изглежда, все едно говори на тема заблуди в интернет – докато накрая не се оказва, че видеото е сглобено.

В подобна посока, OpenAI скоро споделиха за новия си езиков модел „GPT-2“. Въпросният модел според тях е толкова добър в генерирането на реалистичен текст, че е рисковано да го публикуват. Всички тези неща навеждат на мисълта, че можем да очакваме много изкуствено генерирано съдържание в близко бъдеще. Разбира се, вече има и research в посока разпознаване на deep fakes [11].

Но, сериозно, да предвидиш бъдещето е сложна задача. Надявам се, че deep fake-овете няма да станат основно приложение на Machine Learning, и ще видим множество други, по-положителни неща. Някои развития, които за мен ще е интересно да следя, са:

  • Ще продължи ли активното развитие на Machine Learning, и особено Deep Learning, или е време за ново затишие?
  • Прав ли е Elon Musk, че self-driving cars са почти тук, или ще се окаже, че цялата останала индустрия все пак има какво да каже по въпроса?
  • Как ще се развие сектора в България?

Регистрирай се за събитието


Стани част от потребителска група на Machine Learning. Абонирай се и ще ти изпращаме информация за всичко, което предстои в групата.

Визия: Личен архив

Прочети още:

Владимир Алексиев: В света има огромно количество отворени данни, които могат да се ползват за всякакви проблеми
Никола Караманов: Всеки ден се уча на нови неща, които ми позволяват да поглеждам проблема от различни гледни точки


[1] https://arxiv.org/pdf/1802.05365.pdf
[2] https://arxiv.org/pdf/1810.04805.pdf
[3] https://code.fb.com/ml-applications/under-the-hood-multilingual-embeddings/
[4] https://arxiv.org/pdf/1712.01208.pdf
[5] https://www.nytimes.com/2019/06/20/business/self-driving-cars-cadillac-super-cruise.html
[6] https://spectrum.ieee.org/cars-that-think/transportation/self-driving/toyota-gill-pratt-on-the-reality-of-full-autonomy#qaTopicOne
[7] https://www.wired.com/story/when-self-driving-cars-will-arrive-where/
[8] https://www.reuters.com/article/us-autos-selfdriving-starsky-idUSKBN16729V
[9] https://techcrunch.com/2019/06/07/on-the-road-to-self-driving-trucks-starsky-robotics-built-a-traditional-trucking-business/
[10] https://www.youtube.com/watch?v=cQ54GDm1eL0
[11] https://www.technologyreview.com/s/613846/a-new-deepfake-detection-tool-should-keep-world-leaders-safefor-now/

 

Share This