Лаура Толош-Халачева има теоретичен и практически опит в data modeling, статистика и машинно обучение. Експерт по моделиране на естествен език с фокус върху семантичен анализ. Работила е с генетични данни за разработката на базиран на машинно обучение модел за предвиждане на фенотип на ракови клетки. С нея ще ви срещнем на събитието A brief semantic analysis of Twitter hinted that the Brits will vote for (br)exit на 11-ти март. Преди това ни разказа за своя професионален път и за трите най-важни неща, които ИТ обществото ще научи от темата на предстоящата й презентация.

Как започна да се занимаваш с Machine Learning?

През 2005-та започнах Магистърска степен в Инситута Макс-Планк в Германия, в областта на компютърни науки. Наложи се да избера тема за дисертация, а най-много от всичките ми хареса Биоинформатиката. Развиват се алгоритми, които помагат за разрешаването на различни проблеми на съвременната медицина. А повечето от тези алгоритми са всъщност Machine Learning модели, които се обучат с медицински данни. Аз все още не разбирах много от такива технологии, но ми беше достатъчно да слушам колеги от департамента как са създали система, която може да избере лекарства за СПИН по-добре от самите лекари и знаех, че с това искам да се занимавам професионално.

Кой е най-интересният аспект от работата ти с Machine Learning?

Най-интересно ми е когато един модел е по-прецизен от човек, тоест когато алгоритъмът успява да открие патерни, които дори експерти не виждат.


 

Събитие на фокус:

 Architecture overview of NativeScript

 

 


Кое е най-голямото технологично предизвикателство, с което си се сблъсквал?

След горе-долу 7 години опит с Machine Learning от „по-класическия вид“, ако може да се каже така – говоря за линейни модели, СВМ-и, random forest – стана ясно, че областта ще бъде доминирана от много-силните дълбоки невронни мрежи. Тогава се наложи да се уча и аз да ги използвам. А то не беше много лесно, понеже са доста криптични в началото, имат нужда от добра доза софтуерно инженерство за да се тренират за разумно време, а избирането на добра архитектура в началото прилича на магия. Скептична бях, но съм постигнала по-добри резултати с невронни мрежи и затова продължавам да ги използвам и да ги уча.

Как го разреши/ разрешихте? 

Минах два-три онлайн курса по дълбоки невронни мрежи, за да придобия теоретична база. После започнах с един личен проект за алгоритмично търгуване на криптовалути и за него имплементирах първите мрежи. Написах обикновени feed-forward, рекурентни, конволюционни мрежи, без значение дали ще бъдат подходящи за моята задача. Исках да ги видя „в действие“. После за друг проект написах една конволюционна мрежа с ембединги за текст. Много научих, но има и много, което не съм пробвала все още.

Ще споделиш ли трите най-важни неща, които ИТ обществото може да научи от темата на предстоящата ти презентация?

Става дума за exploratory data analysis, тоест да търсиш нещо интересно или неочаквано или полезно в дейта сет (от туийтове примерно).

– Най-важното в случая е следното: добър data scientist трябва да разбере домейна на данните, за да може да формулира въпроси и да получи отговори с аналитични методи.

– Също така, важно е всеки ML инженер да учи статистика. Някои може би знаят, че „Machine Learning“ се наричаше преди „Statistical Learning“. Всичко от избирането на модели, разбирането на обучението (bias/variance), представянето на резултати чрез графики (aggregation), интерпретацията на резултатите (correlation vs. causation, significance), всички имат дълбоки корени в математическата статистика.

– Трето е практичен съвет: когато данните не стигат и са бедни като информация, често може да се търси и да се обогатяват с външно знание например енциклопедично знание (Wikipedia).

Какво би посъветвал всички, които сега започват да се занимават с Machine Learning? 

Да мечтаят да променят света към по-добро чрез изкуствен интелект.


Регистрирай се за събитието


Стани част от потребителска група на на Machine Learning. Абонирай се и ще ти изпращаме информация за всичко, което предстои в групата.

Визия: Личен архив

Прочети още:
Васил Люнчев: Machine Learning има изключително широко приложение
Разговор за Machine Learning с Борис Даскалов

 

Share This