Lê Thị Duyên (Thực hiện).
Giữa sự phát triển như vũ bão của công nghệ thông tin cùng với sự xuất hiện của nhiều ngành nghề mới, Data Scientist( Chuyên gia Khoa học dữ liệu) được Harvard Business Review đánh giá là “công việc hấp dẫn nhất thế kỷ 21”. Điều gì đã khiến công việc này “hot” đến vậy? Chúng ta cùng nhau gặp gỡ một Data Scientist cũng là một cựu sinh viên của Viện để tìm hiểu xem tại sao nhé?
- Em chào anh, anh có thể giới thiệu đôi nét về bản thân và công việc của anh được không ạ?
Tôi là Nghiêm Trí Đức, cựu sinh viên lớp Toán ứng dụng, K47 (ngành Toán Tin). Sau khi tốt nghiệp, tôi học khóa cao học về Human Language Technology and Interfaces (tên khóa học), tại đại học Trento, Italy. Nhờ khóa học master này tôi có điều kiện tiếp cận sâu hơn về Machine Learning, Artificial Intelligent trong các bài toán xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). Hiện tại tôi đang làm việc tại công ty Idatase GmbH, CHLB Đức, như một Data Scientist trong lĩnh vực Predictive maintenance (áp dụng ML, AI vào các dữ liệu cảm biến của máy móc, hệ thống thiết bị để đưa ra các giải pháp bảo trì, vận hành và dự đoán hiệu quả làm việc của thiết bị).
- Anh định nghĩa Data Scientist là gì, và công việc của anh cụ thể là như thế nào?
Theo định nghĩa của từ điển Oxford([1]): "A person employed to analyse and interpret complex digital data, such as the usage statistics of a website, especially in order to assist a business in its decision-making." Dịch tạm ra như sau: Người được thuê để phân tích và hiểu những dữ liệu số phức tạp, ví dụ sử dụng thống kê về website, đặc biệt là hỗ trợ công việc nghiệp vụ để đưa ra quyết định. Có lẽ định nghĩa lại một khái niệm đã có sẵn là một việc thừa thãi, trừ khi nó có một nghĩa hoàn toàn mới mà từ điển chưa kịp cập nhập. Qua định nghĩa này, có thể thấy một data scientist bên cạnh những kĩ năng phân tích, dự đoán, còn cần có năng lực nghiệp vụ chuyên sâu (domain knowledge) nhất định để hiểu dữ liệu.
Trong các dự án gần đây, tôi làm việc với chuỗi thời gian (time series), deep learning (ví dụ Long Short-term Memory - LSTM) với các dữ liệu cảm biến của hệ thống máy móc. Bài toán đặt ra là tìm các thời điểm bất thường trong quá trình làm việc và dự đoán thời điểm nó có thể xảy ra trong tương lai (anomaly detection).
- Anh thấy môi trường làm việc ở nước ngoài có gì khác với môi trường làm việc trong nước? Anh có gặp khó khăn và thuận lợi gì khi làm việc trong một môi trường như thế?
Trước khi đi nước ngoài, tôi đã làm việc hai năm cho một công ty của Tây Ban Nha ở Việt Nam, chuyên cung cấp các dịch vụ giá trị gia tăng tin nhắn. Thời gian làm việc ngắn, cũng như tính chất công việc hoàn toàn khác so với công việc hiện tại, nên để kết luận sự khác biệt cũng như thuận lợi khó khăn thì là quá phiến diện và chủ quan. Điều khác biệt rõ ràng nhất mà tôi cảm nhận được khi làm việc ở CHLB Đức là tác phong chuyên nghiệp trong công việc - kỷ luật lao động rất cao. Điều đó tạo nên sự khác biệt về năng suất lao động, với việc tối ưu tối đa thời gian 8 tiếng làm việc chỉ cho công việc. Ngoài việc phải thích nghi để làm việc tập trung liên tục, thì tôi không cảm thấy có điều gì khó khăn khi làm việc tại đây.
Thuận lợi lớn nhất có lẽ là ngoại ngữ, bạn phải sự dụng tiếng Anh (và tiếng Đức) khá thường xuyên. Tiếp đến có lẽ là là công việc data scientist đang thực sự rất nóng, khi mà gần như nơi nơi đều nhắc đến cách mạng công nghiệp 4.0. Nước Đức đã có một ngành công nghiệp cực kỳ phát triển, hệ thống máy móc, hạ tầng đều đã dần dần trang bị các hệ thống cảm biến rất chi tiết (kỷ nguyên của IoT - Internet Of Thing). Bước tiếp theo họ đang muốn làm là biến những con số khô khan đấy thành lợi nhuận qua việc tối ưu hóa dây chuyền sản xuất, tiết kiệm nhân lực cũng như vật lực cho việc duy tu, bảo trì hệ thống. Đấy chính là đất diễn của Data Science.
So sánh với môi trường ở Việt Nam quả rất khó với tôi, vì như đã nói ở trên, tôi không có nhiều thời gian làm việc ở Việt Nam kể từ khi ra trường. Theo cảm nhận chủ quan của tôi, thì ở Việt Nam, chúng ta chưa thực sự có công nghiệp, vì thế khi thủ tướng nhắc tới đi tắt đón đầu để làm cách mạng công nghiệp 4.0 có lẽ là hơi lạc quan. Tiếp xúc với một vài đồng nghiệp ở Việt Nam, tôi thấy phần lớn dữ liệu có lẽ đến từ các mảng dịch vụ. Đây cũng là mảnh đất rất màu mỡ có thể khai phá. Nhưng ngoài việc có nhiều dữ liệu thì chất lượng của dữ liệu cũng là một vấn đề rất lớn. Dữ liệu thu thập được từ mảng dịch vụ trước đây chưa được quan tâm, dẫn đến rất nhiều mẫu sai hoặc nhiễu. Sau khi lọc ra thì không còn bao nhiêu dữ liệu thật sự có thể dùng. Đấy là cảm nhận rất chủ quan và phiến diện của cá nhân tôi qua những tiếp xúc rất hạn chế với công việc data science ở Việt Nam.
- Theo anh sự khác biệt giữa Data Analyst và Data Scientist là gì?
Công việc về Data Science (Khoa học dữ liệu) có thể có nhiều job titles (tên việc) khác nhau, và ở thời điểm hiện tại, thì sự phân hóa giữa Data Scientist và Data Analyst là chưa thực sự rõ ràng nếu chúng ta đọc các yêu cầu chuyên môn (skill set) của nhà tuyển dụng về những công việc như vậy. Theo tôi, một Data Scientist bên cạnh những kỹ năng phân tích dữ liệu (thống kê, tiền xử lý - preprocessing, ...), họ cần phải có khả năng xây dựng nhưng mô hình mô phỏng dữ liệu để có thể dự đoán (forecast, prediction), phân loại, gán nhãn (classification) dữ liệu với những bài toán đặc thù của "domain" cụ thể mà họ làm việc. Mình không biết phải dịch từ "domain" như thế nào cho hợp lý, nhưng đại để nó là lĩnh vực hẹp đòi hỏi kiến thức chuyên sâu ví dụ: phân tích rủi ro tài chính, phân tích dự đoán giá cả, phân tích hệ thống máy móc, phân tích dữ liệu bệnh án... Data Scientist không nhất thiết phải là domain expert (chuyên gia về ngành hẹp), nhưng họ có đủ kiến thức cơ bản của domain đó (qua việc trao đổi, cùng làm việc với chuyên gia). Và đương nhiên, họ cần phải vững vàng kiến thức về Machine Learning, AI để biết với loại dữ liệu họ có trong tay, thuật toán nào có thể hoạt động tốt, hiệu quả cho bài toán họ phải giải quyết.
Trong khi đó, có lẽ Data Analyst cần có nhiều kĩ năng thực hành về thống kê, tiền xử lý dữ liệu, tổ chức và làm việc với dữ liệu lớn (các từ khóa phổ biến với nghề này: big data, hadoop, NoSQL, Spark, Statistics....). Họ không nhất thiết cần phải biết chi tiết cụ thể về các thuật toán trong Machine Learning, nhưng họ cũng có đủ kỹ năng để sử dụng chúng trong các bài toán được giao (practical skills). Ngoài ra, có thể Data Analyst cũng phải biết ít nhiều về công việc thu thập dữ liệu, khai phá dữ liệu (Data Mining).
- Những kiến thức nào là cần thiết để trở thành một Data Scientist? Việc là sinh viên Viện Toán UD&TH đã giúp anh nắm những kiến thức đó như thế nào?
Để có thể sử dụng các công cụ về Machine Learning với những toolkits có sẵn như (scikit learn,...) hoặc những framework lớn (tensorflow, pytorch, keras...) có lẽ không cần quá nhiều kiến thức, ngoại trừ khả năng lập trình tốt. Nhưng việc chỉ biết dùng những công cụ đó như "hộp đen" (black box) là chưa đủ để trở thành một Data Scientist.
Một Data Scientist cũng cần trang bị kiến thức tối thiểu về các thuật toán của Machine Learning (Máy học). Những kiến thức đó không hề là quá khó hay cao siêu. Một sinh viên bình thường với kiến thức về Đại số tuyến tính, Giải tích, Phương pháp tính, Xác suất thống kê hoàn toàn có đủ khả năng hiểu các giải thuật như: Naive Bayes, Random Forest, Logistic Regression, Linear Regression, Gradient Boosting Classifier/Regressor, Support Vector Machine (SVM), Multy Layer Percetron (MLP) - Neural Network (fully connected), các giải thuật mang nhãn "Deep Learning": như Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), LSTM (đã nhắc ở trên), Auto Encoder, vân vân.
Ngoài ra qua làm việc với domain expert (ví dụ chuyên gia kĩ thuật về hệ thống sưởi, hệ thống tài chính, ...), Data Scientist có thêm những cái nhìn sâu sắc về dữ liệu mà họ phải làm việc cùng, qua đó có thể tạo ra những kết quả đủ tốt để mang lại lợi ích/ lợi nhuận cho đối tác/ công ty của mình.
Việc là một sinh viên Toán Tin giúp tôi dễ dàng hơn khi đọc sâu hơn về lý thuyết của những thuật toán ML kể trên. Trong đấy có rất nhiều kiến thức tôi từng học trong: Tối ưu lồi (convex optimization), Giải tích hàm (functional analysis), Seminar về thống kê nâng cao (của thầy Quỳ) với những phương pháp như Principle Component Analysis... Để hiểu cơ chế hoạt động của các giải thuật đó, có lẽ kiến thức căn bản ở giai đoạn đại cương là tạm đủ.
- Ở Việt Nam, để trở thành một Data Scientist cần có những bằng cấp chứng chỉ gì, và con đường đưa anh có được công việc như ngày hôm nay là như thế nào?
Câu hỏi này tôi không thể trả lời bạn chuẩn xác, vì tôi chưa từng làm công việc này ở Việt Nam. Nhưng chỉ cần đọc thông báo tuyển dụng các bạn cũng có thể thấy yêu cầu: sinh viên ngành toán/ công nghệ thông tin, có kiến thức, kinh nghiệm về ... (skill set)... là các bạn đã biết cần phải trang bị thêm cho mình những gì để có thể trở thành Data Scientist ở bất cứ nơi đâu. Đây là cách tiếp cận của tôi khi bắt đầu vào năm thứ 3 chuyên ngành, qua đó biết mình còn thiếu những gì, và tự bổ sung kịp thời. Ngoài ra, công việc này đòi hỏi phải cập nhật thường xuyên những giải thuật, cách tiếp cận mới nhất, hiệu quả nhất (state of the art), do đó các bạn cần phải trang bị cho mình vốn tiếng Anh (ít nhất là tiếng Anh chuyên ngành) đủ tốt để có thể đọc những tài liệu, bài báo khoa học mới nhất trong lĩnh vực này (ví dụ các hội thảo lớn hàng đầu như ICML với Machine Learning; ACL, NAACL, EACL,... với Natural Language Processing...).
Bên cạnh đó, có rất nhiều khóa học online miễn phí của các giáo sư hàng đầu thế giới về Machine Learning mà các bạn có thể đăng kí theo học (sẽ mất tiền nếu các bạn muốn có chứng chỉ). Ví dụ trên coursera.org, có những khóa học kinh điển như:
● Machine Learning của Andrew Ng, A. Prof. tại ĐH Stanford: https://www.coursera.org/learn/machine-learning
● Neural Network for Machine Learning của Geoffrey Hinton, Prof. tại ĐH Toronto (God of ML như mọi người ca tụng) https://www.coursera.org/learn/neural-networks
● Một vài khóa advance về Probabilistic Graphical Models (đã chia thành 3 khóa nhỏ) của giáo sư Daphne Koller tại ĐH Stanford:
○Representation: https://www.coursera.org/learn/probabilistic-graphical-models
○ Inference: https://www.coursera.org/learn/probabilistic-graphical-models-2-inference
○ Learning: https://www.coursera.org/learn/probabilistic-graphical-models-3-learning
● Ngoài ra, nếu muốn các bạn có thể học thêm về Big Data với những kiến thức về No SQL, Hadoop, Spark…
Bằng cấp và chứng chỉ không chứng minh cho năng lực của một con người, kiến thức và kinh nghiệm mà người đó có mới là thứ nhà tuyển dụng thực sự cần. Qua kinh nghiệm của cá nhân tôi, nếu thông thạo hết 2 khóa học đầu mà tôi dẫn ở trên, bạn đủ năng lực làm việc tại gần như bất cứ nơi đâu trên thế giới. Nếu thành thạo thêm khóa thứ 3, bạn có đủ năng lực (tiềm năng) trở thành chuyên gia cao cấp (không có nghĩa là bạn đã là chuyên gia cao cấp).
Con đường dẫn tôi đến với công việc này có lẽ như đã nói ở câu hỏi 1. Sau khi kết thúc chương trình master, tôi sang Đức làm internship tại đại học tổng hợp Darmstadt (TU Darmstadt). Hoàn toàn rất tình cờ khi trong vài năm trở lại đây công việc Data Science trở nên vô cùng nóng, điều đó đã dẫn tôi tới công việc như hiện nay. Mọi thứ đến vô cùng tình cờ, tôi vô tình, may mắn nắm bắt được cơ hội của mình mà thôi.
- Ngoài ra thì với những bạn sinh viên muốn trở thành một Data Scientist thì cần có những phẩm chất gì ?
Phẩm chất cần chuẩn bị là: luôn nghi vấn, luôn tò mò để có thể học, phản biện và thực hành các giải thuật mới nhất (cái này đúng với mọi nghề). Ngay cả những giải thuật mới nhất cũng không hẳn là tốt, là hoàn hảo. Chúng có thể hoạt động tốt trên một vài benchmark, nhưng có thể rất tồi ở những dữ liệu khác. Để hiểu được tại sao, bạn luôn cần phải biết nghi vấn, biết tò mò, để tìm ra câu trả lời.
- Em được biết là một Data Scientist đòi hỏi tư duy phân tích sâu sắc và sáng tạo, vậy theo anh, một sinh viên “bình thường” liệu có thể theo đuổi nghề này được không?
Thế nào là một sinh viên "bình thường", tôi cũng chỉ là một sinh viên vô cùng bình thường với điểm tốt nghiệp theo hệ GPA là ~7,3. Bất cứ ai với đam mê, và một hành trang được chuẩn bị đúng đắn, đầy đủ cũng đều có thể theo đuổi nghề này. Kinh nghiệm tôi từng dạy các bạn sinh viên đại học ở đây, những người vốn theo khối ngành C (khoa học xã hội), mà các bạn ý có thể nắm bắt tốt kiến thức cả về toán và ML như vậy thì tôi hoàn toàn tin tưởng các bạn Việt Nam học khối A cũng có thể làm được như vậy (khối C ở Việt Nam thì chắc là chịu rồi, trừ những cá biệt xuất chúng).
Anh Đức cùng đồng nghiệp.
- Anh nhận định như thế nào về nghề Data Scientist (về mức lương, độ vất vả, hay độ “khát” nhân lực…) và sự phát triển của ML và AI trong lĩnh vực công nghệ thông tin ạ?
Theo cảm nhận cá nhân, nghề này đang rất "khát", nên trong thời gian ngắn hạn từ 5-10 năm tới, những ai đạt tới trình độ "senior" sẽ có mức lương rất tốt. Ở Việt Nam từng có những call tầm 4000 USD/ tháng. Nếu bạn đủ giỏi để làm cho những trung tâm AI hàng đầu thế giới như Google, Facebook mức lương có lẽ là sẽ còn khủng hơn nữa.
Độ vất vả thì ngành nghề nào cũng vất vả như nhau cả. Bạn muốn được trả lương tốt, bạn phải mang lại giá trị cho chủ lao động ở mức đúng tầm.
Sự phát triển của ML và AI mang lại giá trị cho nhiều ngành, lĩnh vực khác, giúp chỗ đứng của công nghệ thông tin thêm vững chắc. ML, AI hiện diện khắp mọi nơi, từ những ứng dụng trên smart phone với khả năng: nhận diện giọng nói, nhận diện khuôn mặt, vân tay, nhận diện chữ viết tay, dịch máy, hiển thị quảng cáo, nội dung thông tin có chọn lọc qua thông tin người dùng... cho tới những lĩnh vực khác như: lái xe tự động (autopilot), robotic, chuẩn đoán bệnh án, ... Nơi nào có dữ liệu số hóa đủ tốt, đủ nhiều, nơi đó AI, ML có thể tạo nên giá trị sử dụng tốt hơn phục vụ cho con người.
Tuy vậy, trong dài hạn, ngành nghề này sẽ có thể bão hòa rất nhanh. Ví dụ google đang phát triển hệ thống AutoML, qua đó nó tự tinh chỉnh các tham số của giải thuật (hyper parameters) để có kết quả tốt hơn (so với chuyên gia - những senior data scientists) trong một số bài toán cụ thể ([2]). Khi nó hoàn thiện và có thể làm tốt hơn con người ở gần như tất cả các bài toán phổ biến, thì người ta chỉ cần thuê những bạn biết dùng công cụ đó với giá "bèo" hơn rất nhiều. Đó có lẽ cũng là quy luật phát triển, vận động không ngừng của cuộc sống.
- Là một người còn trẻ thì anh có dự định gì về công việc trong tương lai không?
Câu hỏi này có lẽ hơi ngây ngô, ai sống mà chẳng có dự định phải không nhỉ? Ở tuổi 34, tôi muốn có thể về hưu sớm ở tuổi 50 để có thể chu du khắp nơi và làm những việc mình đam mê khi sức khỏe và tinh thần còn cho phép. Còn dự định về công việc là trở thành chuyên gia có tay nghề cứng trong vài năm sắp tới.
- Vâng, cảm ơn anh đã dành thời gian để chia sẻ cho chúng em những kinh nghiệm hết sức quý báu. Những điều anh chia sẻ phần nào giúp những bạn sinh viên hiểu thêm về nghề Data Scientist và hành trang cần có để đến với nghề. Mong rằng sau này có nhiều bạn sinh viên Viện mình được gặp gỡ anh với tư cách là “ đồng nghiệp”. Cảm ơn anh rất nhiều!