Bóng đá wap: hướng dẫn xem trực tiếp bóng đá trên di động

Trang chủ > Công nghệ AI > Nội dung chính

Học máy có thể nhìn thấy: Hiểu sâu về mạng nơ-ron từ nền tảng
2020-05-04

Về học máylịch bóng đá trực tiếp, có một câu đùa cũ:

Machine learning is like highschool sex. Everyone says they do itlịch bóng đá trực tiếp, nobody really does, and no one knows what it actually is. [1]

Ý nghĩa dịch qua đại khái là:

Học máy giống như việc hẹn hò của học sinh trung học vậy. Mọi người đều nói rằng họ đã từng trải qualịch bóng đá trực tiếp, nhưng thực tế là không ai thực sự làm được điều đó, và cũng chẳng ai thật sự hiểu nó rốt cuộc là gì. Có quá nhiều lời đồn đoán và những câu chuyện được thổi phồng, nhưng khi đến lúc phải đối mặt với thực tế, mọi thứ trở nên mơ hồ và khó nắm bắt hơn bao giờ hết.

tai nghe thì không bằng mắt thấy

Bài viết này sẽ không có công thức nào cảbóng đá wap, hy vọng người không chuyên cũng có thể hiểu được. Hy vọng như vậy ^-^

Mạng thần kinh đơn giản nhất

Trong lĩnh vực nhận diện hình ảnh hoặc xử lý ngôn ngữ tự nhiên hiện naybóng đá wap, các mạng thần kinh sâu đang phát triển những cấu trúc mạng vô cùng phức tạp. Với hàng chục lớp mạng và hàng trăm nghìn đến vài triệu tham số mô hình, việc hiểu được hoạt động của chúng thực sự là một thử thách lớn. Không chỉ vậy, việc chạy và huấn luyện các mô hình này cũng đòi hỏi nguồn lực tính toán mạnh mẽ, từ phần cứng hiện đại cho đến hệ thống quản lý tài nguyên tối ưu. Hơn nữa, để đạt được hiệu quả cao nhất, các nhà nghiên cứu thường phải tinh chỉnh từng tham số nhỏ trong mạng, điều này không chỉ làm tăng độ khó mà còn khiến quá trình học máy trở nên chậm hơn nhiều so với trước đây. Tuy nhiên, nhờ sự tiến bộ vượt bậc trong công nghệ và khả năng xử lý dữ liệu lớn, chúng ta ngày càng có thể khai thác triệt để tiềm năng của các mô hình này để giải quyết các bài toán phức tạp trong thực tế.

Do đókeo banh, chúng ta sẽ đi từ đơn giản đến phức tạp, bắt đầu với tình huống đơn giản nhất.

Đầu tiênbóng đá wap, chúng ta xem xét một vấn đề phân loại nhị phân đơn giản. Dưới đây là một tập dữ liệu ngẫu nhiên được tạo ra:

Hình ảnh phía trên cho thấy tổng cộng 160 điểm (bao gồm cả điểm màu đỏ và xanh dương)keo banh, mỗi điểm đại diện cho một mẫu dữ liệu. Rõ ràng, mỗi mẫu dữ liệu này chứa 2 đặc trưng, nhờ đó nó có thể được biểu diễn dưới dạng một điểm trong hệ tọa độ hai chiều. Các điểm màu đỏ biểu thị rằng mẫu dữ liệu này thuộc phân loại thứ nhất, trong khi các điểm màu xanh dương lại cho biết mẫu dữ liệu này thuộc phân loại thứ hai. Đây là cách đơn giản hóa để dễ dàng phân tích và so sánh giữa các nhóm khác nhau trong tập dữ liệu.

Bài toán nhị phân có thể được hiểu như sau: chúng ta cần xây dựng một mô hình phân loạibóng đá wap, với mục tiêu chia nhỏ tập dữ liệu huấn luyện gồm 160 mẫu trong hình thành hai nhóm theo từng lớp tương ứng. Tuy nhiên, cần lưu ý rằng cách diễn đạt này không hoàn toàn chính xác. Các mẫu trong hình chỉ mang tính chất minh họa cho quá trình huấn luyện, nhưng thực tế, mô hình được tạo ra sẽ phải hoạt động hiệu quả đối với các mẫu dữ liệu nằm ngoài tập huấn luyện này (mặc dù ở đây chúng ta chưa quan tâm đến khía cạnh đó và có thể tạm thời bỏ qua chi tiết này).

Sơ đồ cho thấy một mạng nơ-ron với hai lớp ẩn và mỗi lớp ẩn chỉ gồm ba nútkeo banh, kết nối trực tiếp đến đầu ra.

Mạng thần kinh này gần như không thể đơn giản hơn nữakeo banh, chỉ có 1 lớp đầu vào và 1 lớp đầu ra, tổng cộng chỉ có 3 nơ ron.

Dựa trên một phân tích toán học đơn giảnbóng đá wap, ta có thể dễ dàng nhận ra rằng mô hình mạng nơ-ron chỉ gồm 2 lớp này thực chất tương đương với mô hình LR (hồi quy logistic) trong học máy truyền thống. Nói cách khác, đây là một bộ phân loại tuyến tính, và việc đào tạo nó cũng giống như tìm kiếm một đường thẳng trong mặt phẳng tọa độ hai chiều để phân chia các điểm màu đỏ và điểm màu xanh. Tuy nhiên, điều thú vị là dù đơn giản nhưng nó vẫn có thể tạo ra những ranh giới phân chia khá hiệu quả nếu dữ liệu có xu hướng phân bố tuyến tính. Điều này cho thấy sự mạnh mẽ của các mô hình cơ bản khi được áp dụng đúng cách.

Dựa trên sự phân bố của các điểm màu đỏ và điểm màu xanhkeo banh, chúng ta có thể dễ dàng nhận thấy rằng việc tìm ra hoặc học được một đường thẳng như thế này là tương đối đơn giản. Trên thực tế, mạng thần kinh đơn giản được hiển thị trong hình minh họa này, sau khi được đào tạo, hoàn toàn có khả năng đạt được độ chính xác phân loại (accuracy) lên đến 100%. Điều này cho thấy sức mạnh đáng kinh ngạc của mô hình học máy trong việc xử lý các vấn đề phân loại cơ bản.

Giả sử bây giờ tập dữ liệu của chúng ta trở thành hình dạng bên dưới (các điểm đỏ chia thành hai cụmbóng đá wap, nằm ở hai bên các điểm xanh dương):

có thể phân loại tuyến tính

Để tăng cường độ chính xác trong việc phân loạikeo banh, ý tưởng trực quan nhất có lẽ là vẽ một đường cong, nhờ đó các điểm màu đỏ và điểm màu xanh có thể được phân tách hoàn toàn. Điều này đồng nghĩa với việc cần thực hiện một biến đổi phi tuyến tính đối với dữ liệu đầu vào ban đầu. Trong mạng thần kinh, chúng ta có thể đạt được điều này bằng cách thêm một lớp ẩn (hidden layer). Mạng thần kinh sau khi được điều chỉnh sẽ trông như hình bên dưới: Hình ảnh minh họa mạng thần kinh mới đã được thêm vào lớp ẩn để thực hiện biến đổi phi tuyến tính, giúp tăng cường khả năng phân biệt giữa các nhóm dữ liệu khác nhau. Điều này cho phép hệ thống học sâu hơn và phân loại hiệu quả hơn so với mô hình trước đây mà không có lớp ẩn.

Chúng ta nhận thấy rằngbóng đá wap, sau khi chỉnh sửa mạng nơ-ron, một lớp ẩn mới với hai nơ-ron sử dụng hàm sigmoid đã được thêm vào. Đồng thời, lớp đầu vào và lớp ẩn này được kết nối toàn phần. Thực tế cho thấy, khi huấn luyện lại mạng nơ-ron có lớp ẩn này, độ chính xác của việc phân loại đạt đến mức 100% (hoặc rất gần 100%). Điều đó có nghĩa là gì? Có phải do mạng nơ-ron giờ đây đã đủ khả năng để giải quyết các vấn đề phức tạp hơn hay không? Hay là do số lượng tham số được tăng lên đã giúp nó học hỏi tốt hơn từ dữ liệu? Dù lý do là gì, rõ ràng rằng việc thêm lớp ẩn đã mang lại lợi ích đáng kể cho hiệu suất tổng thể của mạng.

Chúng ta có thể hình dung việc tính toán của mạng nơ-ron như sau: mỗi khi dữ liệu đi qua một lớp trong mạngkeo banh, nó thực chất là một phép biến đổi đối với không gian mẫu (bao gồm cả từng mẫu dữ liệu bên trong). Nói cách khác, khi dữ liệu đầu vào đi qua các lớp ẩn, nó sẽ được biến đổi. Và đặc biệt, do hàm kích hoạt (activation function) của các lớp ẩn sử dụng sigmoid, nên phép biến đổi này là một biến đổi phi tuyến tính. Điều này có nghĩa là, dữ liệu ban đầu không đơn giản chỉ bị thay đổi theo một quy luật tuyến tính mà nó sẽ trải qua một quá trình phức tạp hơn, giúp mô hình học được các đặc trưng sâu hơn và tinh tế hơn từ dữ liệu.

Vậykeo banh, một câu hỏi tự nhiên xuất hiện: Sau khi trải qua quá trình biến đổi phi tuyến tính ở lớp ẩn, mẫu dữ liệu đầu vào đã thay đổi như thế nào? Bây giờ, chúng ta hãy cùng xem biểu diễn của hai nơ-ron trong lớp ẩn được vẽ trong hình dưới đây: Hình ảnh này sẽ giúp bạn dễ dàng hình dung cách các giá trị từ lớp ẩn tác động và tái cấu trúc thông tin từ đầu vào. Đây là bước quan trọng để hiểu sâu hơn về cách mạng học sâu hoạt động và làm việc ra sao.

tách biệt tuyến tính

Từ hình ảnh kết quả từ lớp ẩnkeo banh, chúng ta còn có thể phát hiện thêm một số chi tiết:

Tất cả các điểm dữ liệu trên trục tọa độ (bất kể là trục X hay trục Y) đều nằm trong khoảng từ 0 đến 1. Điều này là do đặc tính của hàm kích hoạt sigmoidkeo banh, vốn có khả năng biến đổi toàn bộ tập hợp số thực thành phạm vi từ 0 đến 1. Chính nhờ cơ chế này mà dữ liệu đầu vào, dù ở bất kỳ giá trị nào trên trục số học, cũng sẽ được điều chỉnh và thu gọn một cách hợp lý vào vùng xác định này, tạo nên sự ổn định và hiệu quả trong việc xử lý thông tin.
Chúng tôi nhận thấy rằng tất cả dữ liệu dường như tập trung ở một góc nào đó. Điều này không phải là ngẫu nhiênbóng đá wap, mà xuất phát từ đặc tính của hàm kích hoạt sigmoid. Khi các nơ-ron sigmoid được huấn luyện đầy đủ đến mức "bão hòa", chúng thường sẽ cho ra giá trị gần 0 hoặc 1, và rất hiếm khi sản sinh ra một kết quả nằm giữa khoảng (0, 1). Đây là một đặc điểm quan trọng mà các nhà phát triển cần lưu ý khi xây dựng mô hình học sâu dựa trên mạng nơ-ron.

có thể phân chia tuyến tính

Rõ rànglịch bóng đá trực tiếp, ví dụ này rất đơn giản, chỉ là cấu trúc mạng thần kinh cơ bản nhất. Nhưng ngay cả khi nói đến các mạng thần kinh phức tạp hơn, nguyên lý vẫn giống nhau. Mỗi lần mẫu dữ liệu đi qua một lớp trong mạng, nó sẽ trở nên "dễ phân loại" hơn so với trước. Bây giờ, chúng ta hãy cùng xem xét một ví dụ hơi phức tạp hơn chút nhé.

Nhận diện chữ số viết tay MNIST

nhận diện chữ số viết tay

Xin chào thế giới

Trong tập dữ liệu MNISTlịch bóng đá trực tiếp, có tổng cộng 70.000 hình ảnh chữ số viết tay. Chúng trông giống như hình dưới đây:

Mỗi hình ảnh là một bức ảnh đen trắng với kích thước 28 pixel x 28 pixellịch bóng đá trực tiếp, trong đó mỗi pixel được biểu thị bằng một giá trị cường độ xám nằm trong khoảng từ 0 đến 255. Điều này cho phép hình ảnh có thể hiện các sắc thái khác nhau của ánh sáng và bóng tối, giúp tạo ra sự đa dạng trong việc phân loại dữ liệu.

Bài toán nhận diện chữ số MNIST yêu cầu bạn phân loại một hình ảnh kích thước 28 pixel × 28 pixel thành một trong mười chữ số từ 0 đến 9. Với bài toán nàylịch bóng đá trực tiếp, bạn sẽ sử dụng thuật toán để giúp chương trình "hiểu" và đưa ra quyết định chính xác dựa trên những gì mà hình ảnh biểu thị. Điều thú vị là mỗi hình ảnh này thường chứa một con số viết tay rõ ràng, nhưng có thể ở nhiều góc độ hoặc phong cách khác nhau, khiến cho việc phân tích trở nên thách thức hơn.

Về vấn đề nàybóng đá wap, thành tích tốt nhất trong lịch sử đạt được là tỷ lệ nhận diện lên đến 99,79%, giải pháp đã sử dụng mạng nơ-ron convolutional (CNN). Tuy nhiên, chúng tôi không muốn làm cho vấn đề trở nên phức tạp hơn cần thiết, vì vậy quyết định sử dụng mạng nơ-ron hoàn toàn kết nối truyền thống để giải quyết. Cấu trúc mạng mà chúng tôi áp dụng như sau: Chúng tôi bắt đầu với một lớp tiền xử lý dữ liệu để chuẩn bị cho việc huấn luyện, sau đó chuyển sang một loạt các lớp tích chập (convolutional layers) để trích xuất đặc trưng từ hình ảnh đầu vào. Tiếp theo là một số lớp pooling nhằm giảm kích thước của dữ liệu đồng thời giữ lại thông tin quan trọng. Sau khi qua các tầng này, dữ liệu được đưa vào các lớp fully connected (hoàn toàn kết nối) để thực hiện quá trình phân loại cuối cùng. Điều đặc biệt ở đây là cách chúng tôi tối ưu hóa cấu trúc mạng để đạt hiệu suất cao nhất mà vẫn đảm bảo tính đơn giản và dễ triển khai.

Đầu vào và đầu ra của mạng thần kinh này được định nghĩa như sau:

Mỗi lần bạn nhập một bức ảnhbóng đá wap, giá trị độ xám của từng pixel trong ảnh sẽ được chia cho 255 để chuyển đổi thành một giá trị chuẩn hóa nằm trong khoảng [0,1]. Những giá trị này sau đó sẽ được truyền vào từng nơ-ron của lớp đầu vào. Điều thú vị là, lớp đầu vào có chính xác 784 nơ-ron, tương ứng với số lượng pixel trong một hình ảnh 28x28, nghĩa là mỗi nơ-ron sẽ nhận một giá trị từ một pixel duy nhất trên bức ảnh. Cách này giúp quá trình xử lý dữ liệu trở nên hiệu quả và dễ dàng hơn rất nhiều.
Tầng đầu ra có tổng cộng 10 nơ-ronkeo banh, mỗi nơ-ron này sẽ đại diện cho một trong các số từ 0 đến 9. Chúng ta có thể suy luận rằng kết quả dự đoán chính là con số mà nơ-ron có giá trị đầu ra lớn nhất. Ngoài ra, sau khi xử lý 10 giá trị đầu ra thông qua hàm softmax, chúng ta sẽ nhận được xác suất của từng số từ 0 đến 9 đối với hình ảnh đầu vào hiện tại. Điều này giúp chúng ta hiểu rõ hơn về khả năng hình ảnh đó thuộc về bất kỳ số nào trong phạm vi đã định.

Sau khi huấn luyện mạng thần kinh nàylịch bóng đá trực tiếp, bạn có thể dễ dàng đạt được tỷ lệ nhận diện chính xác khoảng 98%. Tuy nhiên, đối với mạng thần kinh rộng hơn này, liệu chúng ta vẫn có thể áp dụng phương pháp trước đây để vẽ hình ảnh trực quan cho nó không? Tôi tự hỏi liệu cấu trúc phức tạp hơn có làm thay đổi cách tiếp cận hay không, hoặc liệu cần có một chiến lược mới hoàn toàn để hiểu rõ hơn về các hoạt động bên trong của mạng.

Giảm chiều

Trong phần trướcbóng đá wap, mạng thần kinh đơn giản mà chúng ta vừa xây dựng có lớp đầu vào và lớp ẩn chỉ gồm 2 nơ-ron, nhờ đó chúng ta có thể dễ dàng biểu diễn chúng trên mặt phẳng tọa độ hai chiều. Tuy nhiên, khi nói đến mạng nơ-ron xử lý tập dữ liệu MNIST, mọi thứ trở nên phức tạp hơn rất nhiều. Lớp đầu vào của mạng này có tới 784 nơ-ron, tương ứng với việc mỗi hình ảnh số viết tay được mã hóa thành một vector 784 chiều. Điều này làm cho việc trực quan hóa trở nên khó khăn hơn hẳn so với ví dụ trước đây, vì chúng ta không thể đơn giản vẽ nó trên một mặt phẳng hai chiều nữa. Thay vào đó, chúng ta cần phải tìm cách tưởng tượng hoặc sử dụng các công cụ chuyên sâu hơn để hiểu rõ cách hoạt động của mạng trong không gian cao chiều này.

Làm thế nào để vẽ ra vector đặc trưng có kích thước 784 chiều? Điều này liên quan đến vấn đề trực quan hóa dữ liệu cao chiều. Về cơ bảnkeo banh, não bộ con người chỉ có thể hiểu được không gian tối đa ba chiều; đối với các không gian có nhiều hơn ba chiều, chúng ta chỉ có thể phụ thuộc vào tư duy trừu tượng. Một cách phổ biến để giải quyết vấn đề này là sử dụng các phương pháp giảm chiều, chẳng hạn như PCA (Phân tích thành phần chính) hoặc t-SNE, giúp chuyển đổi dữ liệu từ không gian cao chiều xuống không gian hai hoặc ba chiều mà vẫn giữ nguyên các mối tương quan quan trọng giữa các điểm dữ liệu. Sau khi giảm chiều, bạn có thể dễ dàng biểu diễn dữ liệu dưới dạng đồ thị 2D hoặc 3D. Một cách tiếp cận khác là sử dụng kỹ thuật chiếu ánh sáng ba chiều để tạo ra cảm giác về không gian bốn chiều. Mặc dù điều này khó hình dung hơn, nhưng nó cung cấp một góc nhìn thú vị và sáng tạo cho việc hiểu sâu hơn về dữ liệu cao chiều. Tóm lại, dù bằng cách nào, việc trực quan hóa dữ liệu cao chiều luôn đòi hỏi sự kết hợp giữa toán học và trí tưởng tượng để khai thác hết tiềm năng của dữ liệu.

Chúng ta tưởng tượng một ví dụ đơn giản để cảm nhận độ khó trong việc hiểu trực quan không gian nhiều chiều:

Ban đầubóng đá wap, trong một mặt phẳng (hay không gian 2 chiều), chúng ta có thể xác định ba điểm có khoảng cách bằng nhau giữa các cặp điểm, từ đó tạo thành một tam giác đều. Ba điểm này như những chấm mờ trên trang giấy, nằm cân đối và cách đều nhau, mang đến vẻ đẹp của sự hoàn hảo hình học.
Trong một không gian ba chiềubóng đá wap, chúng ta có thể tìm thấy bốn điểm có khoảng cách bằng nhau giữa các cặp điểm, và từ đó có thể tạo thành một tứ diện đều. Mỗi mặt của tứ diện này là một tam giác đều, với ba cạnh có độ dài bằng nhau. Điều này cho phép hình học không chỉ tồn tại trong lý thuyết mà còn được biểu hiện một cách hoàn hảo qua cấu trúc không gian ba chiều. Những điểm này không chỉ đơn thuần là những vị trí mà chúng liên kết chặt chẽ với nhau, tạo nên một hệ thống cân đối và hài hòa trong không gian ba chiều.
Nguyên lý Hình học

Rồikeo banh, nếu bạn vẫn theo kịp phần cuối cùng về không gian bốn chiều vừa rồi, có nghĩa là bạn đã đọc rất cẩn thận và đang suy ngẫm kỹ lưỡng từng câu chữ đó ^-^ Tuy nhiên, ngay cả việc tưởng tượng về không gian bốn chiều thôi đã khiến nhiều người cảm thấy nản lòng (dù nó hoàn toàn hợp lý nhưng lại vượt xa khả năng hình dung của chúng ta), huống chi là cố gắng tưởng tượng hình học trong không gian 784 chiều! Điều đó dường như vượt quá giới hạn của trí tưởng tượng con người. Nhưng biết đâu bạn lại là người đặc biệt, sẵn sàng thử thách bản thân với những điều siêu việt như thế này?

Do đóbóng đá wap, chúng ta cần áp dụng các kỹ thuật giảm chiều (dimensionality reduction), giúp chuyển đổi dữ liệu từ không gian nhiều chiều thành không gian 3 chiều hoặc 2 chiều, từ đó có thể trực quan hóa và vẽ biểu đồ một cách dễ dàng, đạt được mục tiêu "hiểu rõ hơn" về dữ liệu. Kỹ thuật này không chỉ đơn thuần là làm cho dữ liệu dễ nhìn mà còn giúp tiết lộ những mô hình tiềm ẩn hoặc mối liên hệ giữa các biến. Khi dữ liệu ở dạng cao chiều, việc hiểu rõ bản chất của nó trở nên vô cùng khó khăn, nhưng khi được giảm xuống còn 2D hoặc 3D, chúng ta có thể nhìn thấy các xu hướng nổi bật hoặc phân cụm một cách rõ ràng hơn. Điều này đặc biệt hữu ích trong các lĩnh vực như phân tích dữ liệu lớn (big data), trí tuệ nhân tạo (AI), hay khoa học máy tính.

Việc hạ chiều không gian thực sự là một quá trình như thế nào? Hãy cùng suy ngẫm một chútkeo banh, bạn sẽ nhận ra rằng trong cuộc sống hàng ngày, chúng ta đã gặp rất nhiều trường hợp hạ chiều rồi. Ví dụ như hình ảnh dưới đây: Hình ảnh này không chỉ đơn thuần là một bức vẽ mà còn là minh chứng cho cách chúng ta thường xuyên hóa giải những vấn đề phức tạp bằng cách thu gọn thông tin. Hạ chiều có nghĩa là chuyển đổi từ không gian đa chiều sang không gian ít chiều hơn, giúp chúng ta dễ dàng hiểu và xử lý hơn. Đây là một kỹ thuật hữu ích trong nhiều lĩnh vực như khoa học dữ liệu, máy tính và cả nghệ thuật.

Chiều Chủ Nhật tại Đại Quần Đảo

Chúng ta hãy xem thêm một ví dụ khác:

Bản đồ thế giới hai chiều xuất hiện ở bên phải hình vẽ. Mặc dù bề mặt Trái Đất là một hình cầu trong không gian ba chiềubóng đá wap, nhưng các nhà bản đồ học đã cố gắng phẳng hóa toàn bộ bề mặt hình cầu này lên một mặt phẳng hai chiều. Để thực hiện điều đó, rõ ràng họ cần phải "phẳng hóa" hình cầu và làm biến dạng một số khu vực nhất định. Chúng ta có thể tưởng tượng quá trình này như một loại ánh xạ: mỗi điểm trên bề mặt Trái Đất sẽ được ánh xạ thành một điểm cụ thể trên bản đồ phẳng. Tuy nhiên, mối quan hệ giữa tất cả các điểm không tuân theo một công thức tuyến tính nào, vì vậy đây là một phép biến đổi phi tuyến tính. Điều thú vị là, khi các nhà bản đồ thực hiện việc này, họ phải đối mặt với nhiều thách thức. Ví dụ, nếu bạn cố gắng vẽ một hình cầu lên một mặt phẳng, bạn không thể tránh khỏi việc một số khu vực bị kéo dài hoặc méo mó, đặc biệt là ở các cực. Điều này dẫn đến sự khác biệt về kích thước giữa các khu vực địa lý, khiến người dùng bản đồ đôi khi khó hiểu đúng tỷ lệ thực tế của các vùng trên Trái Đất. Vì vậy, khi sử dụng bản đồ, chúng ta nên luôn ghi nhớ rằng không có cách nào hoàn hảo để biểu diễn chính xác hình cầu ba chiều trên một mặt phẳng hai chiều mà vẫn giữ nguyên các thông tin ban đầu.

Dù đó là ví dụ về các tác phẩm hội họalịch bóng đá trực tiếp, hình ảnh hay bản đồ hình học phẳng hai chiều được biến đổi từ không gian ba chiều, thì tất cả đều là quá trình giảm chiều. Tuy nhiên, trong lĩnh vực học máy, chúng ta thường phải thực hiện việc giảm từ không gian có số chiều lớn hơn xuống ba hoặc hai chiều. Để làm điều này, con người đã phát minh ra nhiều phương pháp giảm chiều khác nhau. Ví dụ như PCA (Phân tích thành phần chính), đây là một phương pháp giảm chiều tuyến tính; MDS (Phân tích thang độ đa chiều) và t-SNE (Sắp xếp hàng xóm lân cận phân tán) lại là những kỹ thuật giảm chiều phi tuyến tính. PCA giúp chúng ta giữ lại các đặc trưng quan trọng nhất của dữ liệu, trong khi MDS tập trung vào việc duy trì khoảng cách giữa các điểm dữ liệu. Còn t-SNE, với khả năng xử lý dữ liệu phức tạp, thường được sử dụng để tạo ra biểu đồ trực quan hai chiều rõ ràng hơn từ dữ liệu có kích thước cao. Mỗi phương pháp đều có ưu và nhược điểm riêng, tùy thuộc vào loại dữ liệu và mục tiêu mà bạn muốn đạt được.

Phương pháp trực quan hóa giảm chiều dựa trên đồ thị k gần hàng và mô hình cơ học

Những phương pháp giảm chiều được đề cập trước đókeo banh, mỗi phương pháp có cách thực hiện và trọng tâm khác nhau. Việc giải thích chi tiết cho từng phương pháp sẽ tốn rất nhiều thời gian và không gian, do đó bài viết này sẽ không đi sâu vào từng chi tiết. Thay vào đó, với mục tiêu sắp tới của chúng ta là trực quan hóa một cách rõ ràng mạng nơ-ron mà phần trước đã giới thiệu về MNIST, chúng tôi sẽ sử dụng một phương pháp đơn giản hơn và dễ hiểu hơn — đó là kỹ thuật trực quan hóa giảm chiều dựa trên đồ thị k-lân cận (k-Nearest Neighborhood Graph - k-NNG) và mô hình cơ học (Force-Directed Model)[3][4]. Phương pháp này không chỉ giúp giảm số lượng chiều mà còn tạo ra hình ảnh sinh động và dễ hiểu, cho phép người dùng cảm nhận mối liên hệ giữa các điểm dữ liệu một cách trực giác. Điều này đặc biệt hữu ích khi cần khám phá cấu trúc tiềm ẩn trong bộ dữ liệu phức tạp như MNIST, nơi chứa hàng ngàn hình ảnh chữ số viết tay. Bằng cách kết hợp giữa đồ thị k-lân cận và lực hướng dẫn mô phỏng chuyển động vật lý, chúng ta có thể tạo ra một bản đồ hai chiều hoặc ba chiều đầy đủ thông tin, cho phép nhìn thấy sự phân bố của các nhóm dữ liệu một cách rõ nét.

Quy trình của phương pháp này có thể được mô tả như sau:

đồ thị k-lân cận
Bạn có thể vẽ biểu đồ đồ thị k-gần nhất mà bạn đã thu được lên mặt phẳng hai chiều. Đây thực sự là một bài toán về bố cục đồ thị khá phổ biếnbóng đá wap, và về cơ bản nó có mối liên hệ nào đó với việc sắp xếp các linh kiện trên bảng mạch điện tử. Để đảm bảo rằng hình ảnh sau khi vẽ ra dễ quan sát và rõ ràng, quá trình này cần phải đáp ứng một số điều kiện nhất định, chẳng hạn như số lần giao cắt của các cạnh nên được giảm thiểu; các nút có cạnh nối liền nhau cần ở gần nhau hơn so với các nút không có liên kết trực tiếp; đồng thời, các nút cũng không nên tập trung quá dày đặc ở một khu vực mà thay vào đó cần được phân bổ đều trên toàn bộ mặt phẳng tọa độ. Để đạt được những yêu cầu này, chúng tôi đã sử dụng thuật toán Vẽ Đồ Thị Hướng Lực do Fruchterman và Reingold phát minh. Thuật toán này mô phỏng các nguyên lý vật lý trong thế giới thực, như hình minh họa bên dưới: [Đây sẽ là nơi để thêm hình minh họa nếu có] Như bạn có thể thấy, thuật toán này hoạt động bằng cách tạo ra các lực tương tác giữa các nút và cạnh, từ đó tạo ra một bố cục đẹp mắt và logic. Các cạnh bị co kéo như dây đàn, trong khi đó các nút lại đẩy nhau như các vật thể cùng mang điện tích giống nhau, giúp phân tán chúng ra một cách hợp lý. Quá trình này lặp đi lặp lại cho đến khi đạt được trạng thái cân bằng tối ưu.

Hãy tưởng tượng hình bên trái trên cùnglịch bóng đá trực tiếp, thay các cạnh bằng lò xo, thay các nút bằng những quả cầu nhỏ mang điện;
Dây lò xo có xu hướng giữ các nút kề nhau (tức là các nút được kết nối bởi cạnh) ở một độ dài tự nhiên nhất định (phản ánh khoảng cách trong không gian đa chiều ban đầu)keo banh, không được quá xa cũng không được quá gần;
quả cầu mang điện
Hãy buông lỏng và để các nút tự do di chuyển dưới tác động của lực hấp dẫn từ lò xo và lực đẩy tương hỗ. Khi hệ thống đạt đến trạng thái có tổng năng lượng nhỏ nhấtkeo banh, bạn sẽ thu được bản đồ phân bố các nút tối ưu như ở góc dưới bên trái.

Về phương pháp nàylịch bóng đá trực tiếp, điều quan trọng nhất mà chúng ta cần tập trung nghiên cứu là: Khi giảm từ không gian nhiều chiều xuống không gian hai chiều, những đặc tính hình học nào trong không gian ban đầu vẫn được duy trì? Từ mô tả quá trình vẽ trước đó, chúng ta có thể dễ dàng nhận thấy rằng: Những nút cách nhau gần nhau trong không gian nhiều chiều ban đầu sẽ tiếp tục duy trì xu hướng nằm ở vị trí gần nhau hơn trong hình ảnh hai chiều cuối cùng, dưới tác động của lực kéo từ các lò xo. Chỉ khi hiểu rõ điều này, chúng ta mới có thể thông qua việc quan sát hình ảnh hai chiều để hiểu được cấu trúc phức tạp của không gian nhiều chiều. Chúng ta cũng cần lưu ý rằng, quá trình giảm chiều này không chỉ đơn thuần là một sự thu nhỏ mà còn mang tính chọn lọc, giữ lại những mối liên hệ quan trọng giữa các điểm dữ liệu. Điều này đồng nghĩa với việc, mặc dù các mối liên hệ cụ thể trong không gian ban đầu đã bị biến đổi, nhưng bản chất của sự tương tác giữa các thành phần vẫn được bảo tồn một cách hợp lý trong hình ảnh kết quả. Chính vì vậy, việc tìm hiểu kỹ về cách thức duy trì các đặc tính này đóng vai trò then chốt trong việc giải mã cấu trúc của không gian gốc.

Bây giờbóng đá wap, chúng ta cuối cùng đã sẵn sàng để trực quan hóa mạng thầ

Trực quan hóa MNIST

Hình ảnh phía trên là biểu diễn trực quan của dữ liệu đầu vào cho mạng nơ-ron về tập MINST (có kích thước 784 chiều). Mỗi nút trong hình đại diện cho một hình ảnhkeo banh, được biểu thị dưới dạng vector 784 chiều. Màu sắc khác nhau trong hình tượng trưng cho các số từ 0 đến 9, có nghĩa là các nút có tổng cộng 10 loại phân loại. Qua hình ảnh, chúng ta có thể nhận thấy rằng:

Trong tập dữ liệu gốc của MNISTlịch bóng đá trực tiếp, một số cấu trúc đã tự động hình thành. Các nút đại diện cho cùng một chữ số, khi ở trong không gian 784 chiều ban đầu, cũng sẽ nằm khá gần nhau, do đó tự nhiên tạo thành các cụm. Ví dụ như nhóm nút màu xanh dương ở phía bên trái, chúng biểu diễn chữ số 0; nhóm nút màu xanh thẫm ở góc dưới bên phải, chúng đại diện cho chữ số 1; còn nhóm nút màu tím đậm ở góc dưới bên trái, chúng thể hiện chữ số 6. Những cụm này xuất hiện rõ ràng nhờ sự phân bố tự nhiên của dữ liệu trong không gian nhiều chiều.
Phía bên phải giữa có sự pha trộn của nhiều loại nút khác nhaukeo banh, xen kẽ và đan vào nhau. Có những nút màu đỏ đại diện cho con số 9, những nút màu nâu sẫm biểu thị cho con số 7, và cả những nút màu xanh lá vàng ánh kim tượng trưng cho con số 4. Tất cả chúng dường như hòa quyện vào nhau trong một hỗn loạn nhẹ. Điều này cho thấy rằng việc phân biệt chúng với nhau không phải lúc nào cũng dễ dàng, đòi hỏi phải quan sát kỹ lưỡng mới có thể nhận ra sự khác biệt giữa các nút này.

Hình ảnh phía trên là biểu đồ trực quan hóa dữ liệu đầu ra từ lớp ẩn trong mạng nơ-ron được áp dụng cho tập dữ liệu MINST (có kích thước 128 chiều). Mỗi nút trong hình đại diện cho một hình ảnh (tức dữ liệu ban đầu đã được lớp ẩn biến đổi thành một vector có 128 chiều). Trong đókeo banh, mỗi màu khác nhau vẫn thể hiện một trong các chữ số từ 0 đến 9, với tổng cộng 10 phân loại. Qua hình ảnh, ta có thể nhận thấy rằng:

Khi so sánh với dữ liệu đầu vào gốc của MINSTbóng đá wap, mức độ hỗn loạn của các nút đã giảm đi (hay nói cách khác, lượng entropy đã giảm). Điều này cũng áp dụng cho các chữ số 7, 4 và 9 trong hình ảnh trước đó, vốn từng bị trộn lẫn với nhau. Hiện tại, chúng đã tập hợp thành từng cụm riêng biệt: cụm nút màu nâu sẫm nhô ra bên trái chính là chữ số 7; cụm nút màu vàng-xanh lá ở góc trên bên trái thuộc về chữ số 4; còn cụm nút màu đỏ đại diện cho chữ số 9. Điều này có nghĩa là việc phân biệt giữa chúng trở nên dễ dàng hơn rất nhiều.

Hình ảnh ở trên là biểu diễn trực quan của dữ liệu đầu ra từ lớp cuối cùng của mạng nơ-ron cho tập MINST sau khi đã được xử lý qua hàm softmax (dữ liệu có 10 chiều). Mỗi nút trong hình đại diện cho một hình ảnh (tức dữ liệu hình ảnh ban đầu đã được biến đổi qua toàn bộ mạng nơ-ron và chuyển thành một vector chỉ có 10 chiều). Trong đólịch bóng đá trực tiếp, mỗi màu vẫn tượng trưng cho một trong các số từ 0 đến 9, với tổng cộng 10 phân loại khác nhau. Qua hình ảnh này, chúng ta có thể nhận thấy rằng: ... (Phần tiếp theo có thể được mở rộng thêm tùy ý)

Mức độ hỗn loạn của các nút đã giảm đáng kểlịch bóng đá trực tiếp, và mỗi loại số đều tự tụ họp thành nhóm riêng biệt. Nếu quan sát kỹ, ta thấy rằng số lượng nút trong hình này hoàn toàn giống với hai hình trước đó, nhưng không gian phân tán của chúng nhỏ hơn rất nhiều. Điều này cho thấy mức độ tụ họp theo từng lớp đã đạt đến một trình độ rất cao. Thực tế, ở thời điểm này, chỉ cần thực hiện một phép toán đơn giản là lấy giá trị lớn nhất (argmax) từ vector 10 chiều cuối cùng, ta có thể nhận diện chính xác các số với độ chính xác rất cao. Điều này chứng tỏ rằng đầu ra cuối cùng có khả năng "phân biệt" rất tốt.

Tài liệu tham khảo:

Trong bài viết nàybóng đá wap, bằng cách nghiên cứu sự trực quan hóa của mạng nơ-ron, chúng tôi đã nhận thấy rằng: bắt đầu từ dữ liệu điểm ảnh thô ban đầu, mỗi khi dữ liệu đi qua một lớp trong mạng nơ-ron, mức độ trừu tượng hóa ngày càng tăng và nó cũng đồng thời tiến gần hơn một chút đến mục tiêu mà chúng ta muốn đạt được. Hãy lấy ví dụ về vấn đề nhận diện chữ số viết tay từ tập dữ liệu MNIST, đây là một bài toán phân loại đa lớp, nghĩa là cần xác định hình ảnh thuộc vào một trong 10 nhóm từ 0 đến 9. Ban đầu, dữ liệu đầu vào là các giá trị điểm ảnh thô, nhưng sau mỗi lần dữ liệu được xử lý qua một lớp của mạng nơ-ron, nó dần trở nên "dễ phân biệt" hơn so với trước, tức là đang tiến gần hơn đến mục tiêu phân loại. Chúng ta có thể hình dung quá trình này như việc từng lớp mạng nơ-ron đang dần “hiểu rõ” đặc trưng của hình ảnh hơn. Những lớp đầu tiên có xu hướng tập trung vào các yếu tố cơ bản như đường nét hoặc góc cạnh, rồi từ đó các lớp tiếp theo sẽ kết hợp những đặc điểm nhỏ này để tạo ra các biểu diễn phức tạp hơn, giúp hệ thống dễ dàng đưa ra quyết định cuối cùng. Điều này cho phép mạng nơ-ron giảm thiểu sai sót và cải thiện hiệu suất trong việc phân loại hình ảnh. Vì vậy, việc trực quan hóa hoạt động của mạng nơ-ron không chỉ giúp hiểu rõ hơn về cách mạng làm việc mà còn mang lại những ý tưởng mới mẻ trong việc tối ưu hóa cấu trúc mạng.

Đây là một quá trình tích hợp thông tin điển hình. Cũng giống như nhiều tình huống trong thế giới thựcbóng đá wap, khi đối mặt với vô số chi tiết phức tạp, chúng ta chỉ có thể đạt được sự "nhận thức" hoặc "cảm nhận" thực sự khi những thông tin đó được sắp xếp một cách hiệu quả. Trong cuộc sống hàng ngày, việc xử lý và kết nối các mảnh ghép rời rạc lại với nhau đóng vai trò quan trọng, giúp chúng ta hiểu rõ hơn về thế giớ Những gì mắt thấy tai nghe không phải lúc nào cũng đủ để tạo nên một bức tranh hoàn chỉnh mà cần có sự kết nối logic giữa các yếu tố khác nhau.

Với những hành vi nhận thức đơn giản như nhận diện hình ảnhbóng đá wap, con người thậm chí không nhận ra quá trình tích hợp thông tin đang diễn ra. Nếu ta tách rời quá trình mà mắt người nhìn thấy một vật thể, ánh sáng từ thế giới vật lý sẽ tác động lên tế bào cảm quang trong mắt, tạo ra một lượng lớn dữ liệu chi tiết. Những dữ liệu này chắc chắn sẽ được xử lý bởi một cấu trúc trong não bộ giống như mạng thần kinh (nhưng chắc chắn phức tạp hơn rất nhiều). Sau khi các dữ liệu chi tiết này được tổng hợp, chúng ta mới có thể nhận ra ở cấp độ cao hơn rằng mình đang nhìn thấy gì. Đối với não người, quy trình này xảy ra trong nháy mắt, nhanh chóng, chính xác và tiêu tốn rất ít năng lượng. Nếu muốn thiết kế một mô hình có khả năng nhận diện vật thể, cách tốt nhất có lẽ là sao chép hoàn toàn cơ chế hoạt động của não bộ. Tuy nhiên, các cơ chế đó vẫn còn nằm ngoài tầm hiểu biết, hoặc ít nhất là chúng ta chỉ nắm rõ một phần rất nhỏ về nó. Do đó, chúng ta chỉ có thể cố gắng gần gũi, tham khảo và bắt chước cơ chế của não bộ. Dù vậy, việc nghiên cứu sâu hơn về não bộ vẫn đang tiếp tục để mở ra những khả năng mới. Khoa học hiện đại đã đạt được nhiều tiến bộ trong việc hiểu rõ hơn về cách não bộ làm việc, nhưng chúng ta vẫn còn rất xa mới có thể tái hiện đầy đủ sự tinh vi của nó trong các hệ thống nhân tạo. Có lẽ trong tương lai, khi công nghệ phát triển, chúng ta sẽ tìm ra cách để mô phỏng não bộ một cách chính xác hơn, cho phép tạo ra các hệ thống nhận diện thông minh hơn, hiệu quả hơn và linh hoạt hơn trong mọi tình huống. Nhưng trước mắt, chúng ta vẫn phải dựa vào trí tuệ nhân tạo với những mô hình học máy, trong đó có mạng nơ-ron nhân tạo, làm nền tảng để tiến tới mục tiêu đó.

Cuối cùngbóng đá wap, những kỹ thuật trực quan hóa mà chúng ta đã thảo luận hôm nay chỉ là một phần rất cơ bản trong hành trình theo đuổi tính giải thích được (Interpretability) của máy học. Nó có thể giúp chúng ta hiểu rõ hơn về cách sửa chữa các mô hình hiện tại hoặc cải thiện cách huấn luyện chúng, nhưng rất khó để nó đóng góp vào việc tạo ra một cơ chế học tập hoàn toàn mới mẻ và đột phá. Hãy tưởng tượng rằng chúng ta đang đứng trên nền tảng của các phát minh trước đây, nhưng để xây dựng một hệ thống hoàn toàn khác biệt, cần nhiều hơn thế – giống như khi ta đọc bài viết trước của mình, " kỹ thuật-nghệ thuật Như đã đề cập trong tài liệu đóbóng đá wap, việc thiết kế một mô hình mới hay phát minh ra một cơ chế học tập hoàn toàn mới vẫn là một "nghệ thuật" đòi hỏi sự sáng tạo. Trong quá trình này, bên cạnh kiến thức chuyên môn vững chắc, người nghiên cứu còn cần có cái nhìn độc đáo và khả năng kết nối các ý tưởng tưởng chừng như không liên quan. Nghệ thuật ở đây không chỉ nằm ở khả năng lý luận mà còn ở khả năng cảm nhận và khai phá những điều tiềm ẩn trong thế giới tri thức vô tận.

Giữ cân bằng giữa kỹ thuật và kinh doanh

Phân tích chi tiết phân tán: Nhất quán nhân quả và không gian-thời gian tương đối

[1] https://github.com/antirez/neural-redis
[2] MNIST data set. http://yann.lecun.com/exdb/mnist/
[3] Computes the (weighted) graph of k-Neighbors. https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.kneighbors_graph.html
[4] Fruchterman-Reingold force-directed algorithm. https://networkx.github.io/documentation/stable/reference/generated/networkx.drawing.layout.spring_layout.html#networkx.drawing.layout.spring_layout

Các bài viết được chọn lọc khác ：

Bài viết gốclịch bóng đá trực tiếp, vui lòng ghi rõ nguồn và bao gồm mã QR bên dưới! Nếu không, từ chối tái bản!
Liên kết bài viết này: /i793h0ud.html
Hãy theo dõi tài khoản Weibo cá nhân của tôi: Tìm kiếm tên tôi "Trương Thiết Lệ" trên Weibo.

Tài khoản WeChat của tôi: tielei-blog (Trương Thiết Lệ)

Bài trước: kỹ thuật-nghệ thuật

Bài sau: Khởi nghiệp tinh gọn

Học máy có thể nhìn thấy: Hiểu sâu về mạng nơ-ron từ nền tảng
2020-05-04

Mạng thần kinh đơn giản nhất

Nhận diện chữ số viết tay MNIST

Giảm chiều

Phương pháp trực quan hóa giảm chiều dựa trên đồ thị k gần hàng và mô hình cơ học

Trực quan hóa MNIST

Tài liệu tham khảo:

Phân tích chi tiết phân tán: Nhất quán nhân quả và không gian-thời gian tương đối

Phân loại mục

Bài viết mới nhất

Học máy có thể nhìn thấy: Hiểu sâu về mạng nơ-ron từ nền tảng 2020-05-04

Mạng thần kinh đơn giản nhất

Nhận diện chữ số viết tay MNIST

Giảm chiều

Phương pháp trực quan hóa giảm chiều dựa trên đồ thị k gần hàng và mô hình cơ học

Trực quan hóa MNIST

Tài liệu tham khảo:

Phân tích chi tiết phân tán: Nhất quán nhân quả và không gian-thời gian tương đối

Phân loại mục

Bài viết mới nhất

Học máy có thể nhìn thấy: Hiểu sâu về mạng nơ-ron từ nền tảng
2020-05-04