Recurrent neural network là gì

Dịch vì Trần Tuấn Anh, Đàm Minch Tiến, Hung Nguyễn với Nguyễn Trí Minc

Tổng quan

Kiến trúc của một mạng RNN truyền thống lịch sử Các mạng neural hồi quy, còn được biến đổi mang đến như là RNNs, là một trong những lớp của mạng neural cho phép Áp sạc ra được áp dụng nhỏng nguồn vào trong những lúc tất cả các trạng thái ẩn. Đôi khi là như sau:



<oxeda^=g_1(W_aaa^+W_axx^+b_a)quad extrmvàquadoxedy^=g_2(W_yaa^+b_y)>
với $W_ax, W_aa, W_ya, b_a, b_y$ là các thông số được chia sẻ tạm thời với $g_1, g_2$ là các hàm kích hoạt.

Ưu điểm Hạn chế
• Khả năng xử lý nguồn vào với bất kể độ nhiều năm nào • Kích cỡ quy mô không tăng theo kích thước nguồn vào • Quá trình tính tân oán sử dụng những ban bố cũ • Trọng số được share trong veo thời gian • Tính tân oán chậm trễ • Khó để truy vấn các biết tin xuất phát từ 1 khoảng tầm thời gian lâu năm trước đó • Không thể xem xét bất kỳ nguồn vào sau đây như thế nào đến tâm lý hiện nay tại

Ứng dụng của RNNs Các quy mô RNN phần lớn được thực hiện trong nghành nghề xử lí ngôn ngữ thoải mái và tự nhiên cùng ghi dìm tiếng nói. Các vận dụng không giống được tổng kết vào bảng bên dưới đây:


Các loại RNN Hình minh hoạ Ví dụ
Một-Một$T_x=T_y=1$ Mạng neural truyền thống
Một-nhiều$T_x=1, T_y>1$ Sinh nhạc
Nhiều-một$T_x>1, T_y=1$ Phân nhiều loại ý kiến
Nhiều-nhiều$T_x=T_y$ Ghi dấn thực thể tên
Nhiều-nhiều$T_x eq T_y$ Dịch máy

Hàm mất đuối Trong trường hòa hợp của mạng neural hồi quy, hàm mất đuối $mathcalL$ của toàn bộ công việc thời gian được tư tưởng dựa trên mất mát sống đa số thời gian nhỏng sau:


Lan truyền ngược theo thời hạn Lan truyền ngược được xong xuôi sống từng 1 thời điểm rõ ràng. Ở bước $T$, đạo hàm của hàm mất đuối $mathcalL$ với ma trận trọng số $W$ được màn trình diễn nhỏng sau:


<oxed_(t)>

Xử lí nhờ vào lâu năm hạn

Các hàm kích hoạt thường dùng Các hàm kích hoạt hay được sử dụng trong các modules RNN được miêu tả nhỏng sau:


Sigmoid Tanh RELU
$displaystyle g(z)=frac11+e^-z$ $displaystyle g(z)=frace^z-e^-ze^z+e^-z$ $displaystyle g(z)=max(0,z)$
Sigmoid Tanh RELU

Vanishing/exploding gradient Hiện tượng vanishing cùng exploding gradient hay gặp trong ngữ cảnh của RNNs. Lí Chính bởi sao bọn chúng hay xẩy ra kia là rất khó để có được sự phụ thuộc lâu dài vì multiplicative sầu gradient có thể tăng/giảm theo hàm nón tương xứng với số lượng các tầng.

Bạn đang xem: Recurrent neural network là gì

Gradient clipping Là một kĩ thuật được thực hiện nhằm giải quyết và xử lý vấn đề exploding gradient xẩy ra lúc tiến hành Viral ngược. Bằng Việc số lượng giới hạn quý giá lớn số 1 mang lại gradient, hiện tượng này sẽ tiến hành kiểm soát trong thực tế.



Các các loại cổng Để xử lý sự việc vanishing gradient, các cổng cụ thể được thực hiện vào một vài một số loại RNNs cùng thông thường có mục đích ví dụ. Chúng thường xuyên được kí hiệu là $Gamma$ và bằng với:


Với $W, U, b$ là những thông số của một cổng cùng $sigma$ là hàm sigmoid. Các một số loại chính được tổng kết sinh sống bảng dưới đây:


Loại cổng Vai trò Được thực hiện trong
Cổng update $Gamma_u$ Dữ liệu cũ buộc phải tất cả trung bình đặc biệt như thế nào làm việc hiện nay tại? GRU, LSTM
Cổng relevance $Gamma_r$ Bỏ qua lên tiếng phía trước? GRU, LSTM
Cổng quên $Gamma_f$ Xoá ô hay không xoá? LSTM
Cổng ra $Gamma_o$ Biểu thị một ô ở tầm mức độ bao nhiêu? LSTM

GRU/LSTM Gated Recurrent Unit (GRU) cùng Các đơn vị bộ nhớ dài-ngắn hạn (LSTM) đối phó với sự việc vanishing gradient lúc gặp gỡ bắt buộc bằng mạng RNNs truyền thống lâu đời, cùng với LSTM là việc tổng quát của GRU. Phía dưới là bảng tổng kết những pmùi hương trình đặc trưng của từng kiến trúc:


Đặc tính Gated Recurrent Unit (GRU) Bộ ghi nhớ dài-ngắn hạn (LSTM)
$ ildec^$ $ extrmtanh(W_c+b_c)$ $ extrmtanh(W_c+b_c)$
$c^$ $Gamma_ustar ildec^+(1-Gamma_u)star c^$ $Gamma_ustar ildec^+Gamma_fstar c^$
$a^$ $c^$ $Gamma_ostar c^$
Các phụ thuộc

Chụ ý: kí hiệu ⋆ chỉ phxay nhân từng phần tử với nhau giữa hai vectors.

Các đổi thay thể của RNNs Bảng dưới đây tổng kết những bản vẽ xây dựng hay được sử dụng khác của RNN:


Học từ đại diện

Trong phần này, bọn họ kí hiệu $V$ là tập trường đoản cú vựng và $|V|$ là kích cỡ của chính nó.

Giải say mê với các kí hiệu

Các kinh nghiệm màn biểu diễn Có nhì cách bao gồm để màn biểu diễn từ bỏ được tổng kết ở bảng bên dưới:


Biểu diễn 1-hot Word embedding
• Lưu ý $o_w$ • Tiếp cận Naive, không tồn tại lên tiếng chung • Lưu ý $e_w$ • Xem xét độ tương đương của những từ

Embedding matrix Cho một từ bỏ $w$, embedding matrix $E$ là 1 trong những ma trận tmê say chiếu miêu tả 1-hot $o_w$ của chính nó cùng với embedding $e_w$ của chính nó nlỗi sau:


Crúc ý: học tập embedding matrix có thể xong bằng phương pháp thực hiện các quy mô target/context likelihood.

Word embeddings

Word2vec Word2vec là 1 framework tập trung vào vấn đề học tập word embeddings bằng cách ước chừng năng lực mà lại một từ cho trước được phủ quanh vày những trường đoản cú không giống. Các mô hình thông dụng bao hàm skip-gram, negative sầu sampling và CBOW.



Skip-gram Mô hình skip-gram word2vec là 1 trong task học tất cả đo lường và tính toán, nó học tập các word embeddings bằng cách reviews năng lực của bất kể target word $t$ mang đến trước nào xẩy ra cùng với context word $c$. Bằng câu hỏi kí hiệu $ heta_t$ là tham mê số đi kèm với $t$, Phần Trăm $P(t|c)$ được tính nhỏng sau:


Chụ ý: Cộng tổng toàn bộ những trường đoản cú vựng vào mẫu số của phần softmax khiến cho quy mô này tốn các chi phí tính toán. CBOW là một quy mô word2vec không giống sử dụng các trường đoản cú bao bọc để tham gia đoán một từ bỏ mang lại trước.

Negative sampling Nó là 1 trong tập của những bộ phân nhiều loại nhị phân sử dụng logistic regressions với mục tiêu là nhận xét tài năng cơ mà một ngữ chình ảnh cho trước cùng các target words mang lại trước rất có thể xuất hiện thêm bên cạnh đó, cùng với những mô hình đang được huấn luyện trên những tập của $k$ negative examples và 1 positive example. Cho trước context word $c$ cùng target word $t$, dự đân oán được mô tả bởi:


Crúc ý: thủ tục này tốn không nhiều ngân sách tính toán thù rộng mô hình skip-gram.

GloVe Mô hình GloVe, viết tắt của global vectors for word representation, nó là một trong kĩ thuật word embedding sử dụng ma trận đồng lộ diện $X$ cùng với từng $X_i,j$ là số lần cơ mà từ đích (target) $i$ lộ diện tại ngữ chình ảnh $j$. Cost function $J$ của nó nhỏng sau:


$f$ là hàm trong số với $X_i,j=0Longrightarrow f(X_i,j)=0$. Với tính đối xứng cơ mà $e$ với $ heta$ có được trong quy mô này, word embedding sau cuối $e_w^( extrmfinal)$ được định nghĩa nhỏng sau:


Chụ ý: Các thành phần riêng của những word embedding học tập được không độc nhất thiết là buộc phải thông dịch được.

Xem thêm: Triệu Chứng Của Bệnh Thuỷ Đậu Ở Người Lớn Có Nguy Hiểm? Thuỷ Đậu Ở Người Lớn Có Nguy Hiểm

So sánh những từ

Độ tương đương cosine Độ tương đồng cosine thân những tự $w_1$ cùng $w_2$ được trình diễn nlỗi sau:


$t$-SNE $t$-SNE (t-distributed Stochastic Neighbor Embedding) là 1 kĩ thuật nhằm mục đích sụt giảm số chiều của không khí embedding. Trong thực tế, nó thường được sử dụng để trực quan lại hoá các word vectors vào không khí 2D (2D).


Mô hình ngôn ngữ

Tổng quan tiền Một mô hình ngữ điệu đã dự đoán thù tỷ lệ của một câu $P(y)$.

Mô hình $n$-gram Mô hình này là phương pháp tiếp cận naive với mục đích định lượng tỷ lệ mà lại một biểu lộ lộ diện vào văn uống phiên bản bằng cách đếm mốc giới hạn xuất hiện của chính nó vào tập tài liệu giảng dạy.

Độ láo tạp Các quy mô ngôn từ hay được reviews dựa vào độ đo hỗ tạp, cũng được biết đến là PP., hoàn toàn có thể được hiểu như thể nghịch hòn đảo xác suất của tập dữ liệu được chuẩn hoá bởi số lượng các tự $T$. Độ hỗn tạp càng thấp thì càng tốt cùng được quan niệm như sau:


<oxed extrmPP=prod_t=1^Tleft(frac1sum_j=1^Vy_j^(t)cdot widehaty_j^(t) ight)^frac1T>

Chú ý: PP thường xuyên được sử dụng trong $t$-SNE.

Dịch máy

Tổng quan tiền Một mô hình dịch sản phẩm tương tự cùng với mô hình ngữ điệu ngoại trừ nó có một mạng encoder được đặt phía trước. Vì lí vày này, nhiều lúc nó còn được nghe biết là quy mô ngữ điệu gồm ĐK. Mục tiêu là tra cứu một câu văn uống $y$ nhỏng sau:


Tìm kiếm Beam Nó là 1 lời giải tìm kiếm heuristic được thực hiện trong dịch lắp thêm với ghi nhấn tiếng nói của một dân tộc nhằm kiếm tìm câu văn uống $y$ đúng độc nhất vô nhị khớp ứng với đầu vào $x$.

• Bước 1: Tìm top B các từ y • Bước 2: Tính Xác Suất tất cả điều kiện y|x,y,...,y • Bước 3: Giữ top B các tổng hợp x,y,...,y


Crúc ý: trường hợp phạm vi của beam được thiết lập cấu hình là một trong những, thì nó tương tự cùng với tìm tìm tđắm say lam naive.

Độ rộng Beam Độ rộng lớn beam $B$ là 1 trong những ttê mê số của giải mã tìm tìm beam. Các giá trị lớn của $B$ tạo thành hiệu quả tốt rộng tuy vậy với hiệu năng thấp rộng và lượng bộ nhớ áp dụng đã tăng.

Chuẩn hoá độ dài Đến cải thiện tính bất biến, beam tìm kiếm hay được vận dụng kim chỉ nam chuẩn hoá sau, hay được Hotline là mục tiêu chuẩn chỉnh hoá log-likelihood, được quan niệm như sau:


<oxed extrmObjective = frac1T_y^alphasum_t=1^T_ylogBig

Chú ý: tmê mệt số $alpha$ có thể được coi như như thể softener, cùng quý giá của nó thường nằm trong đoạn 0.5 cùng 1.

Xem thêm: Hướng Dẫn Cách Đăng Nhập Vào Máy Tính Khi Quên Mật Khẩu, Cách Phá Pass Win 7,8,10 Dùng Usb 100% Thành Công

Phân tích lỗi khi giành được một bản dịch tồi $widehaty$, chúng ta cũng có thể từ hỏi rằng vì sao chúng ta không tồn tại được một công dụng dịch giỏi $y^*$ bằng câu hỏi thực hiện vấn đề so sánh lỗi nhỏng sau:


Trường hợp $P(y^*|x)>P(widehaty|x)$ $P(y^*|x)leqslant P(widehaty|x)$
Nguyên ổn nhân sâu xa Lỗi Beam search lỗi RNN
Biện pháp khắc phục Tăng beam width • Thử phong cách thiết kế khác • Chính quy • Lấy nhiều tài liệu hơn

Điểm Bleu Bilingual evaluation understudy (bleu) score định lượng cường độ xuất sắc của dịch máy bằng cách tính một độ tương đồng dựa trên dự đoán $n$-gram. Nó được định nghĩa nlỗi sau:



Crúc ý: một mức phạt ngắn có thể được vận dụng cùng với những dự đân oán dịch nđính thêm để tránh việc làm thổi phồng quý giá bleu score.

Chụ ý

Attention mã sản phẩm Mô hình này được cho phép một RNN triệu tập vào những phần ví dụ của đầu vào được coi như xét là quan trọng đặc biệt, nó góp cải thiện hiệu năng của quy mô kết quả trong thực tiễn. Bằng câu hỏi kí hiệu $alpha^$ là cường độ chăm chú mà lại Áp sạc ra $y^$ bắt buộc bao gồm đối với hàm kích hoạt $a^$ với $c^$ là ngữ chình ảnh ở thời điểm $t$, họ có:


Attention weight Sự để ý cơ mà cổng output $y^$ đề xuất tất cả cùng với hàm kích hoạt $a^$ cùng với $lpha^$ được tính như sau:


Chuyên mục: kiến thức