6 sự thật đằng sau những nghiên cứu quốc tế của team Machine Learning

Sun* đâu chỉ có các đội dự án từ Web tới Mobile, Sun* có cả đội R&D trẻ trung đang trên đà gặt hái nhiều thành tích cao trên trường quốc tế đây này!

Chắc hẳn chúng ta đã biết đến đội Machine Learning của Sun* nhưng ít ai biết được những điều thú vị về team này cùng với những thành tích công nghệ mang tầm quốc tế của họ. Chỉ trong thời gian ngắn từ lúc được build team đến khi thực hiện các project nghiên cứu, team Machine Learning, do Phạm Văn Toàn – người đã ẵm trọn giải Talented Staff 2017 và lọt vào top 4 đề cử của MVP 2018 dẫn dắt, đã mang “chuông đi đánh xứ người” với 2 nghiên cứu mới và đã được giới chuyên môn quốc tế công nhận. Đó là 2 đề tài: 

  • Đề tài Improving Phonetic Recognition with Sequence-length Standardized MFCC Features and Deep Bidirectional LSTM tại NICS
  • Đề tài Large Scale Fashion Search System with Deep Learning and Quantization Indexing trình bày tại SoICT – Tại SoICT, bài báo đã nhận được đề cử giải Best Paper Award. 

2 đề tài nghiên cứu được giới chuyên gia quốc tế công nhận và đăng bài giới thiệu

Qua bài viết này, hãy cùng tìm hiểu về team đặc biệt này nhé:

1. Đầu vào rất gắt gao

Machine Learning là một mảng mới và khó, đòi hỏi rất nhiều kĩ năng tưởng chừng như “trên trời”, đặc biệt là về thuật toán. Chính thế mà lượng CV ứng tuyển mảng này cũng khan hiếm. Mặc dù đang thiếu nhân lực nhưng không vì thế mà việc tuyển dụng cho team bị xem nhẹ và làm qua loa.

Anh Toàn chia sẻ rằng tỉ lệ pass phỏng vấn của team Machine Learning xấp xỉ 1/10. “Ít nhưng mà chất” là phương châm tuyển dụng của team.

Cũng chính vì lý do đó mà có lẽ niềm mong mỏi lớn nhất của các thành viên team là “có một bóng hồng”. Nhưng sau một năm thành lập, team Machine Learning vẫn chưa có một bạn nữ nào. – bạn Nguyễn Thành Hậu – một member chia sẻ.

2. Performance luôn phải cao

Xôi vò đã từng giới thiệu về Fashion Lookup – một trong hai ứng dụng đầu tiên của Sun* được lên sóng VTV1 và nhận được sự ủng hộ của cộng đồng phần mềm nói chung và giới làm về Xử lý ảnh, Machine Learning nói riêng. Nói về dự án này, anh Toàn chia sẻ:

Thời gian đó các anh em trong team đều làm việc rất vất vả, tìm hiểu những công nghệ mà trước giờ rất ít người làm như indexing cho hình ảnh, deploy mô hình phát hiện quần áo lên di động. Có những buổi cả team phải OT nhưng không khí làm việc vẫn rất sôi nổi. Cùng sự kết hợp với “thánh” Android Phạm Quý Hải, chỉ sau ba tuần, với 5 thực tập sinh và 1 team leader thì Fashion Lookup đã được hình thành.  

3. Làm R&D “đầy rẫy” những khó khăn

Làm R&D không hề đơn giản hay “sướng” hơn các dự án làm việc với khách hàng. R&D được ghép bởi hai cụm từ là Research và Development. Chính hoạt động “research” sẽ giúp tìm ra những công nghệ hay cải tiến mới, từ đó mới có “development” – làm ra những sản phẩm với chất lượng tốt nhất. Với team Machine Learning, chủ đề duy nhất chính là “research” về học máy, xem cách ứng dụng như thế nào vào bài toán cụ thể. Ví dụ bài toán scan trắc nghiệm các đề test giảm tải công việc manual cho đội HR cũng do team Machine Learning xử lý. Từ đó “develop” một sản phẩm gần như là sản phẩm cuối có tính ứng dụng cao.

Bên cạnh đó, các nghiên cứu của R&D thường là nghiên cứu mới, có ít tài liệu tham khảo, team Machine Learning gần như tự nghĩ đề tài và tự tìm ra đáp án cho các bài toán của mình.

Tuy nhiên, việc vừa phải phát triển sản phẩm vừa phải nghiên cứu tìm tòi những ý tưởng mới là áp lực rất lớn cho team Machine Learning, nhất là khi những nghiên cứu đều được đánh giá bởi cộng đồng khoa học, kỹ thuật của quốc tế.

Hơn nữa, có nhiều thành viên trong team như Hậu, Hoàng Anh đang là sinh viên nhưng cũng đã có tên trong hai bài báo quốc tế về Xử lý âm thanh và Phương pháp indexing dữ liệu ảnh. Điều này trở thành niềm động viên cho cả team phấn đấu nhiều hơn nữa.

Team Machine Learning gồm có 5 kỹ sư trẻ và tài năng

4. Những lần bị chê rất nặng nề

Nói về chuyện nghiên cứu quốc tế cũng có rất nhiều những tình huống dở khóc dở cười. Cụ thể ở phần nghiên cứu giải thuật index trên hình ảnh, ở thời điểm nghiên cứu, trên thế giới, chưa có tài liệu phù hợp với hệ thống của team, vì thế team phải loay hoay tự nghĩ rồi tự giải quyết.

Hơn thế, không phải cứ viết bài hay có tiền là sẽ được chấp nhận và được đăng lên các tờ báo nổi tiếng. Có không ít lần nhóm nhận được những review rất cay đắng từ phía các reviewer nước ngoài và bài báo bị từ chối. Lúc thì bị chê cách viết, cách trình bày, lúc thì bị “vặn lại” công thức hay cách chứng minh phương pháp. Tuy nhiên, các chuyên gia cũng động viên bằng cách đưa ra những lời khuyên hữu ích. Lúc đó, cả team lại ngồi mổ xẻ từng review, chỉnh lại cách viết, chỉnh lại công thức, đưa thêm giả thiết kết luận rồi lại submit tại những hội thảo quốc tế khác. Chỉ một từ là phải “khô máu”.

Vậy đó, làm nghiên cứu cũng nhiều công sức, để viết ra được một paper đăng tải trên hội thảo quốc tế đòi hỏi cả tháng trời làm thí nghiệm, viết báo và chờ kết quả. Ngay cả việc training cho “con AI” cũng có thể mất đến vài 3 ngày, dữ liệu càng lớn thì càng cần nhiều thời gian hơn, chưa kể nếu dùng sai phương pháp thì kết quả sẽ không như mong đợi và phải đập đi xây lại.

5. Nhưng cũng hết sức thú vị

Chia sẻ về những kỉ niệm thú vị nhất của team Machine Learning, anh Toàn vui vẻ kể lại: 

Có một lần nhóm mình tham gia một cuộc thi về xử lý ảnh trên Kaggle và cần download một lượng dữ liệu rất lớn khoảng 300GB, việc download lượng lớn dữ liệu như vậy không qua nổi mắt của team infra và dĩ nhiên hôm sau chúng mình bị gọi lên gõ đầu. Còn một kỷ niệm khác là những lần training model trước kia rất cực khổ cho người ngồi gần vì một khi cái GPU của mình đang training thì mấy người xung quanh không khác nào rơi vào trong lò bát quái vì nóng nực. Sau bí quá mình phải kiếm một chiếc quạt ngồi để quạt riêng cho chiếc GPU đó nhưng không biết có phải do trùng hợp hay không mà hôm sau vài bạn quanh đó bị ốm vì quạt bật lạnh quá.

Việc training những mô hình học máy đòi hỏi rất nhiều thời gian và công sức, cũng như sự kiên trì nữa tuy nhiên nó thực sự rất thú vị phải không các bạn.

6.Không chỉ có nghiên cứu

Nếu mọi người nghĩ rằng team Machine Learning chỉ biết nghiên cứu thì không hẳn đâu nhé. Các bạn trong team cũng rất năng động, đặc biệt là đàn hát. Ít ai biết rằng Hoàng Anh – một member của team Machine Learning là một MC nổi tiếng tại Học viện Bưu Chính Viễn Thông và một cây bút rất cần mẫn trên Bản tin Xôi sáng nhé. Còn Toàn là một thành viên rất tích cực của câu lạc bộ âm nhạc. Cũng nhờ đó mà không khí làm việc trong team cũng bớt đi phần căng thẳng và mệt nhọc hơn.  

Những chàng trai đa tài của team Machine Learning

Để có được nghiên cứu tầm cỡ quốc tế của mình, team Machine Learning đã kiên trì và bền bỉ trong suốt nhiều tháng trời. Thậm chí đó vẫn chưa là thành tựu cuối cùng mà team hướng đến. Các thành viên của team vẫn tích cực tham gia các hội thảo để trao đổi, giao lưu kiến thức, đặc biệt là “được phản biện” và “được ném đá” để nghiên cứu của mình được hoàn thiện hơn.

Team Machine Learning nói riêng và bộ phận R&D nói chung đang giúp Sun* tạo được tiếng vang trên trường quốc tế, đồng thời đưa ra những hệ thống mới giải quyết các bài toán có ý nghĩa trong cuộc sống. Xin chúc team Machine Learning sẽ giữ vững niềm tin và nhiệt huyết của mình để đạt được nhiều thành tích cao hơn nữa trong tương lai!.

PV

0 Bình luận