Convolutional neural networks là gì

Dịch bởi Phạm Hồng Vinc và Đàm Minh Tiến

Tổng quan

Kiến trúc truyền thống của một mạng CNN Mạng neural tích chập (Convolutional neural networks), còn được biết đến cùng với thương hiệu CNNs, là 1 trong dạng mạng neural được cấu thành vì chưng những tầng sau:



Tầng tích chập và tầng pooling có thể được hiệu chỉnh theo những khôn xiết tsay mê số (hyperparameters) được diễn đạt sinh sống đầy đủ phần tiếp theo sau.

Bạn đang xem: Convolutional neural networks là gì

Các đẳng cấp tầng

Tầng tích chập (CONV) Tầng tích chập (CONV) áp dụng những bộ thanh lọc nhằm tiến hành phxay tích chập khi gửi chúng trải qua đầu vào $I$ theo các chiều của chính nó. Các vô cùng tsi số của những cỗ lọc này bao hàm size bộ thanh lọc $F$ cùng độ trượt (stride) $S$. Kết quả đầu ra output $O$ được call là feature maps xuất xắc activation map.



Lưu ý: Cách tích chập cũng có thể được bao quát hóa cả cùng với ngôi trường phù hợp một chiều (1D) với bố chiều (3D).

Pooling (POOL) Tầng pooling (POOL) là 1 trong những phép downsampling, thường được áp dụng sau tầng tích chập, giúp tăng tính không thay đổi không gian. Cụ thể, max pooling với average pooling là đều dạng pooling đặc trưng, cơ mà tương ứng là trong số đó quý giá lớn nhất với giá trị trung bình được mang ra.


Kiểu Max pooling Average pooling
Chức năng Từng phnghiền pooling chọn quý hiếm lớn nhất trong khoanh vùng mà lại nó đang rất được áp dụng Từng phxay pooling tính mức độ vừa phải các cực hiếm trong khu vực nhưng nó đang được áp dụng
Minch họa
Nhận xét • Bảo toàn các đặc trưng đang phân phát hiện• Được sử dụng liên tục • Giảm size feature map• Được thực hiện trong mạng LeNet

Fully Connected (FC) Tầng kết nối không hề thiếu (FC) thừa nhận nguồn vào là các tài liệu vẫn được làm phẳng, nhưng mà từng đầu vào đó được kết nối cho toàn bộ neuron. Trong mô hình mạng CNNs, các tầng kết nối đầy đủ hay được tìm kiếm thấy sinh sống cuối mạng cùng được dùng để buổi tối ưu hóa phương châm của mạng ví như độ đúng chuẩn của lớp.



Các siêu tmê man số của bộ lọc

Tầng tích chập chứa những cỗ thanh lọc nhưng khôn cùng đặc biệt mang lại ta khi biết ý nghĩa sâu sắc ẩn dưới các khôn xiết tham số của chúng.

Các chiều của một bộ thanh lọc Một bộ thanh lọc kích cỡ $F imes F$ áp dụng lên nguồn vào đựng $C$ kênh (channels) thì có kích cỡ tổng nói là $F imes F imes C$ triển khai phnghiền tích chập bên trên đầu vào form size $I imes I imes C$ cùng cho ra một feature bản đồ (xuất xắc có cách gọi khác là activation map) có form size $O imes O imes 1$.



Lưu ý: Việc áp dụng $K$ cỗ lọc gồm kích thước $F imes F$ tạo ra một feature map có size $O imes O imes K$.

Stride Đối với phnghiền tích chập hoặc phép pooling, độ trượt $S$ ký kết hiệu số pixel mà lại cửa sổ vẫn dịch chuyển sau những lần thực hiện phxay tính.



Zero-padding Zero-padding là tên gọi của quá trình thêm $P$ số ko vào những biên của nguồn vào. Giá trị này có thể được lựa chọn thủ công bằng tay hoặc một bí quyết tự động hóa bằng một trong các tía đều phương pháp biểu lộ bên dưới:


Phương thơm pháp Valid Same Full
Giá trị $P.. = 0$ $P_ extstart = BigllfloorfracS lceilfracIS ceil - I + F - S2Bigr floor$$P_ extend = BigllceilfracS lceilfracIS ceil - I + F - S2Bigr ceil$ $P_ extstartin!>$$P_ extend = F-1$
Minch họa Padding valid Padding same Padding full
Mục đích • Không áp dụng padding• Bỏ phép tích chập cuối giả dụ số chiều không khớp • Sử dụng padding để làm cho feature map có kích cỡ $BigllceilfracISBigr ceil$• Kích thước cổng đầu ra dễ dàng về phương diện toán học• Còn được Điện thoại tư vấn là "half" padding • Padding buổi tối nhiều làm thế nào để cho các phnghiền tích chập hoàn toàn có thể được thực hiện trên những rìa của đầu vào• Bộ lọc "thấy" được nguồn vào từ đầu đến cuối

thay đổi khôn xiết tđê mê số

Tính tương thích của tyêu thích số vào tầng tích chập Bằng cách cam kết hiệu $I$ là độ lâu năm kích thước đầu vào, $F$ là độ dài của bộ thanh lọc, $P$ là con số zero padding, $S$ là độ tđuổi, ta hoàn toàn có thể tính được độ dài $O$ của feature bản đồ theo một chiều bằng công thức:


Lưu ý: Trong một vài trường thích hợp, $P_ extstart = P_ extend riangleq P$, ta rất có thể thay thế $P_ extstart + P_ extend$ bằng $2Phường trong công thức bên trên.

Hiểu về độ phức hợp của quy mô Để Review độ phức tạp của một mô hình, phương pháp hữu hiệu là xác định số tham số nhưng mà mô hình kia sẽ có được. Trong một tầng của mạng neural tích chập, nó sẽ tiến hành tính toán thù như sau:


CONV POOL FC
Minc họa
Kích thước đầu vào $I imes I imes C$ $I imes I imes C$ $N_ extin$
Kích thước đầu ra $O imes O imes K$ $O imes O imes C$ $N_ extout$
Số lượng tsay đắm số $(F imes F imes C + 1) cdot K$ $0$ $(N_ extin + 1 ) imes N_ extout$
Lưu ý • Một tsi mê số bias với từng cỗ lọc • Trong đa phần ngôi trường thích hợp, $S • Một chắt lọc thông dụng cho $K$ là $2C$ • Phxay pooling được vận dụng lên từng kênh (channel-wise) • Trong đa số ngôi trường thích hợp, $S = F$ • Đầu vào được làm phẳng • Mỗi neuron tất cả một tyêu thích số bias • Số neuron trong một tầng FC dựa vào vào ràng buộc kết cấu

Trường thú cảm Trường trúc cảm (receptive sầu field) tại tầng $k$ là vùng được cam kết hiệu $R_k imes R_k$ của đầu vào cơ mà các px của activation map vật dụng $k$ rất có thể "quan sát thấy". Bằng bí quyết Gọi $F_j$ là size bộ lọc của tầng $j$ và $S_i$ là quý giá độ tđuổi của tầng i với nhằm dễ dàng, ta khoác định $S_0 = 1$, trường thú cảm của tầng $k$ được xem toán thù bằng công thức:


Trong ví dụ bên dưới, ta tất cả $F_1 = F_2 = 3$ và $S_1 = S_2 = 1$, nên tạo ra được $R_2 = 1 + 2cdot 1 + 2cdot 1 = 5$.


Các hàm kích hoạt thường gặp

Rectified Linear Unit Tầng rectified linear unit (ReLU) là một hàm kích hoạt $g$ được thực hiện bên trên toàn bộ những nhân tố. Mục đích của chính nó là tăng tính phi tuyến đường tính đến mạng. Những phát triển thành thể không giống của ReLU được tổng hòa hợp sinh hoạt bảng dưới:


ReLU Leaky ReLU ELU
$g(z)=max(0,z)$ $g(z)=max(epsilon z,z)$ với $epsilonll1$ $g(z)=max(alpha(e^z-1),z)$ với $alphall1$
ReLU Leaky ReLU ELU
• Độ phức tạp phi tuyến tính có thể thông ngôn được về mặt sinch học • Gán vấn đề ReLU bị tiêu diệt cho đông đảo quý hiếm âm • Khả vi trên đầy đủ nơi

Softmax Bước softmax hoàn toàn có thể được coi là một hàm logistic tổng quát rước đầu vào là 1 trong vector đựng những quý hiếm $xinmathbbR^n$ cùng tạo ra là một trong những vector gồm những Xác Suất $pinmathbbR^n$ thông sang 1 hàm softmax sinh sống cuối phong cách thiết kế. Nó được định nghĩa như sau:


<oxedp=eginpmatrixp_1\vdots\p_nendpmatrixquad extrmvớiquadoxedp_i=frace^x_idisplaystylesum_j=1^ne^x_j>

Phát hiện nay đồ thể (object detection)

Các thứ hạng mô hình Có 3 thứ hạng thuật toán nhận diện vật dụng thể bao gồm, vì vậy nhưng bản chất của sản phẩm công nghệ được dự đoán thù đang khác nhau. Chúng được miêu tả sinh hoạt bảng dưới:


Phân mô hình ảnh Phân các loại cùng rất khoanh vùng Phát hiện
• Phân loại một tnóng ảnh • Dự đân oán Tỷ Lệ của một đồ thể • Phát hiện một vật thể vào hình họa • Dự đân oán Phần Trăm của thứ thể và xác định nó • Phát hiện nay các vật dụng thể vào và một tấm hình ảnh • Dự đân oán Phần Trăm của các thiết bị thể cùng định vị chúng
CNN cổ điển YOLO đơn giản và dễ dàng hóa, R-CNN YOLO, R-CNN

Phát hiện tại Trong toàn cảnh phát hiện tại (detection) thiết bị thể, gần như phương thức không giống nhau được vận dụng tùy ở trong vào liệu chúng ta chỉ ao ước xác định vật dụng thể tốt phân phát hiện được đều bản thiết kế phức tạp rộng vào tnóng hình ảnh. Hai cách thức thiết yếu được tổng hợp sinh sống bảng dưới:


Phát hiện tại hộp số lượng giới hạn (bounding box) Phát hiện nay landmark
• Phát hiện phía bên trong hình ảnh cơ mà gồm sự xuất hiện thêm của đồ dùng thể • Phát hiện bề ngoài với Đặc điểm của một đối tượng người tiêu dùng (vd: mắt) • phần lớn hạt
Hộp gồm tọa độ trung tâm $(b_x,b_y)$, độ cao $b_h$ và chiều rộng lớn $b_w$ Các điểm đối sánh $(l_1x,l_1y),$ $...,$ $(l_nx,l_ny)$

Intersection over Union Tỉ lệ vùng giao bên trên vùng đúng theo, còn được nghe biết là $ extrmIoU$, là một hàm định lượng địa điểm $B_p$ của vỏ hộp giới hạn dự đân oán được định vị đúng ra làm sao so với vỏ hộp số lượng giới hạn thực tiễn $B_a$. Nó được định nghĩa:


Lưu ý: ta luôn gồm $ extrmIoUin<0,1>$. Để thuận lợi, một hộp số lượng giới hạn $B_p$ biết tới hơi tốt nếu $ extrmIoU(B_p,B_a)geqslant0.5$.


Anchor boxes Hộp mỏ neo là một trong những nghệ thuật được dùng để tham dự đân oán đều hộp số lượng giới hạn nằm ck lên nhau. Trong thực nghiệm, mạng được phép dự đoán thù nhiều hơn thế một vỏ hộp cùng một dịp, trong các số ấy từng dự đoán thù được số lượng giới hạn theo một tập số đông tính chất hình học cho trước. lấy ví dụ, dự đân oán thứ nhất có tác dụng là một trong những hộp hình chữ nhật có làm nên mang đến trước, trong khi dự đoán thứ nhì vẫn là một trong hộp hình chữ nhật nữa cùng với hình làm nên học tập không giống.

Non-max suppression Kỹ thuật non-max suppression hướng về Việc thải trừ đầy đủ vỏ hộp giới hạn bị trùng ông chồng lên nhau của cùng một đối tượng người dùng bằng cách lựa chọn loại vỏ hộp có tính đặc thù tuyệt nhất. Sau khi sa thải tất cả những hộp gồm tỷ lệ dự đân oán nhỏ rộng 0.6, hồ hết bước tiếp theo sau được lặp lại Lúc vẫn còn đấy vĩnh cửu những vỏ hộp khác.

Xem thêm: Có Phải Zookeeper Là Gì - Zookeeper Cho Người Mới Bắt Đầu

Với một tấm đến trước • Cách 1: Chọn chiếc hộp gồm xác suất dự đoán thù lớn số 1. • Bước 2: Loại quăng quật những hộp bao gồm $ extrmIoUgeqslant0.5$ với hộp đã lựa chọn.


YOLO You Only Look Once (YOLO) là một trong thuật toán phát hiện nay đồ dùng thể tiến hành hầu như bước sau:

• Cách 1: Phân phân chia tấm hình ảnh đầu vào thành một lưới $G imes G$. • Bước 2: Với từng lưới, chạy một mạng CNN dự đân oán $y$ bao gồm dạng sau:


<oxedy=ig^TinmathbbR^G imes G imes k imes(5+p)>

cùng với $p_c$ là xác suất dự đoán được một đồ gia dụng thể, $b_x,b_y,b_h,b_w$ là rất nhiều ở trong tính của hộp giới hạn được dự đân oán, $c_1,...,c_p$ là màn biểu diễn one-hot của việc lớp nào trong $p$ những lớp được dự đân oán, cùng $k$ là con số những hộp mỏ neo. • Cách 3: Chạy thuật tân oán non-max suppression nhằm thải trừ bất kỳ vỏ hộp giới hạn có chức năng bị đụng hàng.


Lưu ý: Lúc $p_c=0$, thì mạng ko phát hiện ngẫu nhiên đồ thể làm sao. Trong trường thích hợp kia, Các dự đoán liên quan $b_x, ..., c_p$ sẽ bị lờ đi.

R-CNN Region with Convolutional Neural Networks (R-CNN) là 1 thuật tân oán vạc hiện nay đồ gia dụng thể mà trước tiên phân loại ảnh thành các vùng nhằm tra cứu những vỏ hộp số lượng giới hạn có khả năng liên quan cao rồi chạy một thuật tân oán phạt hiện tại nhằm tra cứu gần như sản phẩm công nghệ có khả năng cao là trang bị thể trong số những vỏ hộp số lượng giới hạn đó.


Lưu ý: tuy nhiên thuật toán gốc bao gồm ngân sách tính toán cao cùng chậm chạp, đa số phong cách thiết kế mới đang hoàn toàn có thể chất nhận được thuật toán thù này chạy nkhô nóng hơn, như thể Fast R-CNN và Faster R-CNN.

Xác nhấn khuôn phương diện với nhấn diện khuôn mặt

Các mẫu mã quy mô Hai kiểu dáng quy mô chính được tổng hòa hợp vào bảng dưới:


Xác dấn khuôn mặt Nhận diện khuôn mặt
• Có đúng fan không? • Tra cứu vãn một-một • Đây gồm nên là 1 trong trong K fan trong cửa hàng tài liệu không? • Tra cứu một với vớ cả

One Shot Learning One Shot Learning là 1 trong những thuật toán xác minc khuôn phương diện sử dụng một tập huấn luyện và giảng dạy hạn chế để học một hàm similarity nhằm ước lượng sự khác biệt giữa nhì tnóng hình. Hàm này được áp dụng mang lại nhì tnóng ảnh hay được cam kết hiệu $d( extrmimage 1, extrmimage 2)$.

Siamese Network Siamese Networks nhắm đến Việc học giải pháp mã hóa tấm hình họa nhằm rồi định lượng sự khác nhau thân nhị tấm ảnh. Với một tnóng hình họa nguồn vào $x^(i)$, cổng đầu ra được mã hóa thường được ký kết hiệu là $f(x^(i))$.

Triplet loss Triplet loss $ell$ là một trong hàm mất non được xem tân oán dựa vào màn biểu diễn nhúng của bộ tía hình hình họa $A$ (mỏ neo), $P$ (dương tính) với $N$(âm tính). Ảnh mỏ neo cùng ảnh dương tính mọi trực thuộc một tờ, trong lúc kia hình họa âm thế trực thuộc về một tấm khác. Bằng những call $alphainmathbbR^+$ là tsi mê số margin, hàm mất mát này được quan niệm nhỏng sau:


Neural style transfer

Ý tưởng Mục tiêu của neural style transfer là tạo nên một hình họa $G$ dựa trên một ngôn từ $C$ cùng một phong cách $S$.


Tầng kích hoạt Trong một tầng $l$ mang đến trước, tầng kích hoạt được ký kết hiệu $a^$ và gồm những chiều là $n_H imes n_w imes n_c$

Hàm mất non nội dung Hàm mất đuối nội dung $J_ extrmcontent(C,G)$ được áp dụng nhằm xác định văn bản của hình ảnh được chế tạo $G$ khác biệt với nội dung gốc trong hình họa $C$. Nó được khái niệm nhỏng dưới đây:


Ma trận phong cách Ma trận phong thái $G^$ của một tầng mang lại trước $l$ là 1 trong ma trận Gram mà lại mỗi yếu tắc $G_kk"^$ của ma trận xác minh sự tương quan giữa kênh $k$ và kênh $k"$. Nó được khái niệm theo tầng kích hoạt $a^$ nhỏng sau:


Lưu ý: ma trận phong thái cho ảnh phong cách cùng ảnh được tạo ra ký hiệu tương ứng là $G^(S)$ cùng $G^(G)$.

Hàm mất non phong cách Hàm mất non phong cách $J_ extrmstyle(S,G)$ được áp dụng nhằm khẳng định sự biệt lập về phong cách thân hình họa được tạo nên $G$ cùng hình họa phong cách $S$. Nó được khái niệm nlỗi sau:


<oxed>

Hàm mất đuối tổng thể Hàm mất mát tổng thể được quan niệm là việc kết hợp của hàm mất mát nội dung với hàm mất mát phong thái, độ quan trọng của chúng được xác định bởi vì nhị tham mê số $alpha,eta$, như dưới đây:


Lưu ý: quý hiếm của $alpha$ càng to dẫn đến Việc quy mô sẽ quan tâm hơn đến nội dung, trong khi kia, quý hiếm của $eta$ càng béo đang khiến nó quyên tâm rộng đến phong cách.

Những phong cách thiết kế sử dụng computational tricks

Generative sầu Adversarial Network Generative sầu adversarial networks, tốt nói một cách khác là GAN, là sự kết hợp thân quy mô khởi chế tạo ra cùng quy mô sáng tỏ, khi mà quy mô khởi tạo nỗ lực tạo ra hình hình ảnh đầu ra chân thực tuyệt nhất, sau đó được gửi vô quy mô tách biệt, mà lại mục tiêu của chính nó là tách biệt giữa ảnh được tạo ra và ảnh thật.


Lưu ý: có không ít nhiều loại GAN không giống nhau bao gồm tự vnạp năng lượng bản thành ảnh, sinc nhạc với tổng hợp.

Xem thêm: お探しのページは見つかりませんでした。 - Winx Bloom Vs Flora Dress Up

ResNet Kiến trúc Residual Network (tuyệt có cách gọi khác là ResNet) sử dụng hồ hết kân hận residual (residual blocks) cùng rất một lượng lớn các tầng nhằm giảm lỗi huấn luyện và giảng dạy. Những khối residual bao gồm tính chất sau đây:


Inception Network Kiến trúc này áp dụng đông đảo inception module và hướng về câu hỏi thử các tầng tích chập không giống nhau nhằm tăng năng suất trải qua sự phong phú và đa dạng của những feature. Cụ thể, kiến trúc này áp dụng mẹo nhỏ tầng tích chập $1 imes1$ để tránh trọng trách tính toán.


Chuyên mục: Công Nghệ