Антон Димитров е софтуерен инженер и ръководител на проекти в Inpher.io, където работи по инструменти, които позволяват използването на ML върху „private“ данни. Има опит от няколко стартъпа (успешни и не толкова) през годините, работейки в области като дистрибутирани системи, бази данни, ML, алгоритми. Бивш състезател по програмиране от ученическите и студентски години, с незагасваща любов към този вид занимание. С него ще ви срещнем на събитието The world needs privacy preserving AI на 17-ти септември!

1. Как започна да се занимаваш с Machine Learning?
През 2011 година попаднах на курса на Андрю Нг в Coursera за Machine Learning и се запалих да науча повече за областта. Предполагам, че самият начин, по който той прави курсовете си, ми хареса много и ме заинтригува да науча повече. След това се случи така, че в някои проекти, по които работих, решихме да използваме някои ML техники. Беше хубаво усещането да се приложи новото знание на практика.

2. Кой е най-интересният аспект от работата ти с Machine Learning?
В момента, покрай работата ми, се фокусирам повече върху самите имплементации на ML алгоритми, защото на практика, за да ги направим „privacy preserving“ трябва да ги имплементираме от нулата по нов начин. Според мен, това е интересно, защото дава по-добра представа за това каква е идеята зад самия алгоритъм, а също така – защо и кога работи той. Т.е. доста различно е от това да се ползват само готови имплементации. Във връзка с това и до днес намирам за изумително как със сравнително малко код можем да си напишем невронна мрежа например и да я ползваме, за да решаваме проблеми, които преди години са изглеждали доста трудни.

3. Кое е най-голямото технологично предизвикателство, с което си се сблъсквал?
Едно от по-големите в последните години се случи, когато трябваше да автоматизираме чрез ML част от ръчния процес извършван в една компания с милиони потребители. Мислех си, че построяването на достатъчно добър ML модел ще е голямото предизвикателство, но се оказа, че много повече време и нерви отне интегрирането му в екосистемата от microservices и бази данни, които съществуваха в компанията. Беше полезен урок не само от технологична гледна точка, но също и заради това, че имаше доста взаимодействие с различни екипи и хора.

4. Как го разреши/разрешихте?
Нещата се получиха с много разговори и планиране кое как да стане. Урокът, който научих тогава беше, че понякога е валиден подхода, при който един такъв модел се внедрява постепенно на стъпки, ако се налага. Това може да означава, че за известно време не всичко е направено като по книгите, но е важно да има план как ще се стигне до перфектното състояние. Вместо това ние се постарахме да направим всичко както трябва от самото начало, но това ни струва повече време и нерви. 🙂

5. Ще споделиш ли трите най-важни неща, които ИТ обществото може да научи от темата на предстоящата ти презентация?
За нещата, които ще се обсъдят в лекцията, се говори и пише активно от сравнително скоро. Затова смятам, че първото нещо, което ще е полезно е самото разглеждане на съществуващите privacy проблеми, които хората срещат при работа с данни, когато искат да тренират ML модели например. Има много реални ситуации, в които тренирането или ползването на добър ML модел е затрудено или невъзможно, заради някакви проблеми с достъпа до данните. Освен това, ще се разгледат няколко техники, които могат да са приложими в такива ситуации. От една страна, познаването на тези подходи е полезно знание, за всеки който иска да може да решава такъв тип проблеми. Това знание комбинирано с добро познаване на различните ML алгоритми дава уникална комбинация от умения, които се търсят все повече в днешно време. Накрая, важно е да може да се преценява кой от съществуващите подходи за „privacy-preserving computations“ може да се използва в коя ситуция. Доста пъти в практиката виждам, че липсва разбиране кой подход какво ни дава точно и кога е добре да го използваме.

6. Какво би посъветвал всички, които сега започват да се занимават с Machine Learning?
Може би първия съвет, който бих дал е нещо, което съм чувал много пъти от най-известните имена в ML света, а именно да се изучават самите алгоритми, които стоят зад всяка една техника. Това ще рече човек да се запознае в дълбочина с различните подходи и да пробва да ги имплементира от нулата ползвайки например само неща като Python и numpy. Ползите от това са, че след това сме по-ефективни, когато прилагаме наготово някоя ML библиотека и се сблъскваме с различни проблеми, които често зависят от спецификите на данните и моделите, които се тренират. Другото, което бих препоръчал е хората да не се притесняват да пишат код и да експериментират с реални данни от рано. Забелязал съм, че така нещата се заучават по-дългосрочно и по-качествено. За щастие има сайтове като Kaggle, където може да се работи с реални данни и проблеми.


Регистрирай се за събитието


Стани част от потребителска група на Machine Learning. Абонирай се и ще ти изпращаме информация за всичко, което предстои в групата.

Визия: Личен архив

Прочети още:

Никола Караманов: Всеки ден се уча на нови неща, които ми позволяват да поглеждам проблема от различни гледни точки
Лаура Толош-Халачева: Изкуственият интелект може да промени света

Share This