Kĩ thuật giấu âm thanh vào hình ảnh của AI Team tại IEEE GCCE 2019

Cuối tháng 7 vừa rồi, một tin vui đã đến với AI team thuộc R&D Unit. Sau khoảng thời gian dài chờ đợi, báo cáo khoa học về công nghệ giấu tin (Steganography) được team nghiên cứu và phát triển từ tháng 4 đã được chấp thuận và trình bày tại hội nghị IEEE Global Conference on Consumer Electronics (GCCE) 2019. Báo cáo được hội đồng thẩm định đánh giá khá cao, được xếp vào OS-ICE session. Sau quá trình hoàn thiện nội dung và các thủ tục cần thiết, vào tháng 10 tới, AI team vinh dự được cử đại diện sang Osaka, Nhật Bản để tham dự hội nghị và thuyết trình về báo cáo khoa học này.

Đôi nét về IEEE GCCE 2019

IEEE GCCE là một hội nghị quốc tế thường niên được tài trợ bởi IEEE Consumer Electronics Society. Các chủ đề mà hội nghị này hướng tới là các công nghệ mới nhất, tiên tiến nhất có thể áp dụng trong lĩnh vực điện tử như: công nghệ nghe nhìn, trí tuệ nhân tạo và robotics, giám sát và chăm sóc sức khỏe thông minh, smart house, thiết bị di động và hệ thống nhúng, xử lý ảnh, xử lý âm thanh, xử lý tiếng nói, các công nghệ liên quan tới giải trí và giáo dục, hệ thống tính toán và bảo mật.

OS-ICE là một phiên làm việc của hội nghị liên quan đến các công nghệ thu thập và lưu trữ dữ liệu cho Deep learning trong IoT; học máy giám sát, không giám sát và bán giám sát; kỹ thuật xử lý ảnh và ứng dụng, nhận dạng hình ảnh; phát hiện và theo dõi đối tượng; tìm kiếm và phục chế ảnh; bảo mật và mã hóa; chống sao chép và bảo vệ quyền phân phối,...

Công nghệ Steganography

Steganography là kỹ thuật giấu tin hay còn được gọi là kỹ thuật ẩn mã, một trong những kĩ thuật rất quan trọng của an toàn bảo mật thông tin. Trong vài năm trở lại đây, kỹ thuật steganography ngày càng được biết đến rộng rãi hơn nhờ sự mở rộng tầm ảnh hưởng không chỉ còn trong lĩnh vực bảo mật. Mục tiêu của steganography là che giấu sự tồn tại của thông tin trong dữ liệu, thông tin bí mật được ẩn trong các dạng dữ liệu thông thường để đối thủ không thể phát hiện sự hiện diện của các thông tin bảo mật cần che giấu.

Chúng ta đã biết tới và áp dụng công nghệ này từ rất sớm, chỉ có điều ít người biết rằng nó là Steganography mà thôi. 

Thời phổ thông chắc hẳn nhiều bạn trẻ nghịch ngợm không xa lạ với trò chép tài liệu bằng bút hết mực lên các tờ giấy nháp trắng, để khi mang vào phòng thi chỉ cần 1 chút ánh sáng phản chiếu là đã có thể xem được tài liệu, đó cũng chính là một kỹ thuật Steganography.

Nguy hiểm hơn, năm 2003, cơ quan tình báo Trung ương Mỹ (CIA) đã buộc phải yêu cầu hủy hơn 20 chuyến bay quốc tế và nâng mức cảnh báo khủng bố của Bộ an ninh nội địa lên mức 2, mức đáng báo động do nghi ngờ một trụ sở khủng bố của địch đã truyền thông tin được mã hóa cho những kẻ khủng bố bằng công nghệ Steganography. 

Cơ quan này tin rằng, các thông điệp bí mật liên quan tới ngày, địa điểm và mục tiêu của các cuộc tấn công khủng bố bao gồm các chuyến bay quốc tế đã được truyền đi ngay trên sóng truyền hình bằng cách ẩn giấu ngay trên hình ảnh màn hình.

Ngày nay, với sự phát triển không ngừng của internet và các mạng xã hội, hàng tỷ bức ảnh và tập tin âm thanh được truyền đi mỗi ngày. Lợi thế này làm cho steganography ngày càng phổ biến và được sử dụng rộng rãi. 

Ngoài bảo mật, nó còn được sử dụng trong các ngành công nghiệp giải trí và phần mềm như một kỹ thuật watermarking trên hình ảnh, âm nhạc hoặc phần mềm kỹ thuật số để bảo vệ bản quyền và ngăn chặn mạo danh, chống sao chép, xác thực nội dung, cho phép theo dõi hoặc truy tìm các bản sao bất hợp pháp cũng như giám sát quảng cáo. Các công ty, tập đoàn lớn sử dụng nó để bảo mật và thực thi bản quyền sản phẩm bằng cách đặt đánh dấu một tệp licence ẩn trong một tệp.

Steganography không phải là một lĩnh vực nghiên cứu mới. Đã có nhiều nghiên cứu việc che giấu hình ảnh trong hình ảnh, video trong video, nhưng chưa có phương pháp nào để ẩn các file âm thanh trong hình ảnh một cách hiệu quả do khả năng lưu trữ hạn chế của hình ảnh và đặc điểm khác biệt giữa âm thanh và hình ảnh. Âm thanh là dữ liệu dạng chuỗi 1 chiều còn hình ảnh lại là mảng 3 chiều, do đó chất lượng của các phương pháp trước đây chưa được tốt, ảnh sau khi được giấu tin vẫn dễ bị phát hiện ra điểm khác thường cũng như thông tin được giấu trong ảnh không được dài, dung lượng giấu không cao.

Lấy cảm hứng từ một nghiên cứu trước đó của kỹ sư Shumeet Baluja thuộc Google Inc trong việc áp dụng Deep learning trong công nghệ Steganography, AI team thuộc Sun* chia làm 2 hướng nghiên cứu song song. Một là tiến chất lượng của mô hình giấu tin ảnh trong ảnh, hai là tìm hiểu đặc điểm của audio để thực hiện áp dụng Deep learning trong việc giấu audio trong ảnh. 

 

Chi tiết về nghiên cứu

Trong bài báo này, Team AI đề xuất sử dụng một kỹ thuật học sâu (Deep learning) và mạng lưới thần kinh (Deep neural network) cho vấn đề ẩn âm thanh bí mật trong các hình ảnh thông thường. Các kết quả thử nghiệm đã chứng minh được tính hiệu quả của phương pháp. Có thể coi đây là nghiên cứu đầu tiên về việc sử dụng Deep learning để giấu audio vào ảnh.

Không giống như việc giấu ảnh trong ảnh hay audio trong audio, công việc giấu audio trong ảnh khó khăn hơn nhiều vì thực tế là ảnh và audio là hai định dạng hoàn toàn khác nhau. 

Dữ liệu dạng âm thanh là thường ở định dạng PCM-16 bit, giá trị trong khoảng từ  -2^{15} đến 2^{15} - 1 trong khi ảnh có miền giá trị từ 0-255. Đây thực sự là một khó khăn cho team trong việc tìm kiếm giải pháp. 

Bằng nhiều thử nghiệm khác nhau, AI Team đã so sánh được các phương pháp tiền xử lý, trích chọn đặc trưng của âm thanh khác nhau để tìm ra phương pháp tốt nhất phù hợp với yêu cầu đặc biệt của bài toán.

Nhóm phát triển đã tiến hành thí nghiệm trên hai bộ dữ liệu: Tập dữ liệu giọng nói người Việt Vivos và một bộ dữ liệu ảnh công khai, phổ biến trên internet. ViVos là bộ dữ liệu công khai bao gồm 12.420 file âm thanh là giọng của người Việt với tần số lấy mẫu là 16kHz. Thời lượng của âm thanh khoảng từ 1-18 giây. Mặt khác, một số lượng lớn hình ảnh từ các cuộc thi trên Kaggle cũng được thu thập như ảnh hoa, trái cây, chó và mèo,... Tổng cộng dữ liệu hình ảnh thu thập được lên tới 24.000 ảnh. Nhóm đã chia 2 bộ dữ liệu này thành 3 phần ứng với tỉ lệ 8:1:1 cho quá trình huấn luyện, kiểm thử và đánh giá.

Để đánh giá mức độ toàn vẹn của ảnh trước và sau khi được giấu tin, team sử dụng tổng bình phương lỗi trên 1000 ảnh. Điều đó có nghĩa là đơn vị tính là MSE trên mỗi pixel, mỗi channel của 1000 cặp ảnh sau đó cộng tổng chúng lại. Với audio, nhóm sử dụng độ tương quan để đánh giá tính toàn vẹn, mức độ tương quan là 100% khi 2 đoạn audio giống hệt nhau. Kết quả của các thí nghiệm được thể hiện ở bảng trên.

Kết quả mô hình có thể giấu được 1 đoạn âm thanh người nói với độ dài 14s trong 1 ảnh kích thước 255x255 pixel mà mắt thường nhìn vào ảnh đó không phát hiện ra sự khác biệt so với ảnh gốc. Sau khi khôi phục lại đoạn audio đó từ ảnh, mức độ toàn vẹn đạt được 99.9% vượt trội hoàn toàn so với phương pháp truyền thống là Least Significant Bit Encoding(LSB).

Việc áp dụng Deep learning vào kỹ thuật giấu tin mang lại nhiều ưu điểm lớn như dung lượng của tin có thể giấu nhiều hơn, mặt khác, tin được giấu khó có thể giải mã nếu không có mạng giải mã, sự hiện diện của thông tin giấu trong ảnh cũng khó có thể phát hiện bằng mắt thường hơn.

#IEEE GCCE

#Steganography