Phát hiện tính cách từ text python

Cách mọi người suy nghĩ, cảm nhận và cư xử chủ yếu là sự thể hiện các đặc điểm tính cách của họ. Bằng cách ý thức về các đặc điểm tính cách của những cá nhân mà chúng ta đang giao dịch hoặc quyết định giao dịch, một người có thể cải thiện mối quan hệ một cách thành thạo, bất kể đó là loại nào. Với sự gia tăng của các cơ sở hạ tầng truyền thông dựa trên Internet [mạng xã hội, diễn đàn, v.v.]. ], một số lượng đáng kể thông tin liên lạc của con người diễn ra ở đó. Công cụ nổi bật nhất trong các giao tiếp như vậy là ngôn ngữ ở dạng viết và nói, mã hóa một cách khéo léo tất cả những đặc điểm tính cách thiết yếu của các cá nhân. Dự đoán tính cách tự động dựa trên văn bản [APP] là dự báo tự động về tính cách của các cá nhân dựa trên nội dung văn bản được tạo/trao đổi. Bài viết này trình bày một cách tiếp cận dựa trên biểu đồ tri thức mới đối với APP dựa trên văn bản dựa trên các đặc điểm tính cách của Big Five. Để đạt được mục tiêu này, một văn bản đã cho, một biểu đồ tri thức, là một tập hợp các mô tả khái niệm được liên kết với nhau, được xây dựng bằng cách so khớp các khái niệm của văn bản đầu vào với các mục cơ sở tri thức DBpedia. Sau đó, do đạt được một biểu diễn mạnh mẽ hơn, biểu đồ đã được làm giàu với bản thể luận DBpedia, Từ điển cường độ cảm xúc NRC và thông tin cơ sở dữ liệu ngôn ngữ tâm lý MRC. Sau đó, biểu đồ tri thức, hiện là một giải pháp thay thế có kiến ​​thức cho văn bản đầu vào, được nhúng để tạo ra một ma trận nhúng. Cuối cùng, để thực hiện dự đoán tính cách, ma trận nhúng kết quả được cung cấp độc lập cho bốn mô hình học sâu được đề xuất, dựa trên mạng thần kinh tích chập [CNN], mạng thần kinh tái phát đơn giản [RNN], bộ nhớ ngắn hạn dài [LSTM] và . Kết quả cho thấy những cải tiến đáng kể về độ chính xác dự đoán trong tất cả các phân loại được đề xuất

1. Giới thiệu

Tính cách là tập hợp lâu dài các đặc điểm và phong cách mà một cá nhân thể hiện, nghĩa là những đặc điểm thể hiện khuynh hướng của anh ấy / cô ấy, cụ thể là khuynh hướng tự nhiên hoặc khuynh hướng cá nhân []. Nhận thức được đặc điểm tính cách của mọi người sẽ giúp họ cải thiện kỹ năng quản lý mối quan hệ và cũng cải thiện giao tiếp giữa các cá nhân, bất kể loại mối quan hệ nào, chẳng hạn như giữa hai người bạn, sếp và nhân viên, nhà đầu tư và người được đầu tư, người bán và người mua,

Với sự ra đời của mạng xã hội và vận may đáng chú ý của mọi người, ngày nay, rất nhiều giao tiếp diễn ra thông qua mạng xã hội. Ngôn ngữ, với tư cách là công cụ giao tiếp chính giữa con người thể hiện một cách thành thạo suy nghĩ, cảm xúc, quan điểm và toàn bộ tính cách của họ, cũng được sử dụng ở dạng viết và nói giữa những người dùng mạng xã hội để giao tiếp với nhau. Phải thừa nhận rằng, có một số thông tin về tính cách mà bạn đang giao tiếp sẽ rất có lợi. Nó có thể được thực hiện bằng cách phân tích các văn bản trao đổi [còn được gọi là ngôn ngữ viết], giữa những người sử dụng cơ sở hạ tầng thông tin đó. Theo đó, phương pháp dự đoán tự động tính cách con người thông qua các phương pháp tính toán được gọi là Dự đoán tính cách tự động [APP]

Những gì chúng ta biết về APP dựa trên văn bản phần lớn dựa trên các nghiên cứu thực nghiệm đã điều tra cách khai thác các phương pháp khác nhau nhằm mục đích dự đoán tính cách của các cá nhân trong cơ sở hạ tầng dựa trên Internet [như mạng xã hội]. Trên thực tế, có thể thấy nhiều giả thuyết khác nhau liên quan đến vấn đề này rằng họ thường quan tâm đến việc đạt được sự thay thế hiểu biết hơn cho các phần tử văn bản để giải quyết, thay vì các chuỗi ký tự thuần túy.

Trong lịch sử của APP dựa trên văn bản, các cuộc điều tra ban đầu chủ yếu tập trung vào các đặc điểm ngôn ngữ của các thành phần văn bản để hiểu rõ hơn về chúng [–]. Trong những năm qua, nó đã nhận được nhiều sự chú ý; . Trong vài năm gần đây, chúng ta đã chứng kiến ​​sự gia tăng đáng kể của APP dựa trên văn bản, ứng dụng này đã sử dụng các phương pháp nhúng để chuyển các phần tử văn bản sang một không gian có ý nghĩa hơn [chứ không phải là không gian ký tự], để khai thác tốt hơn các phương pháp tính toán [–

Nói chung, có thể suy ra rằng tất cả các cuộc điều tra đều nhằm mục đích thu thập thêm kiến ​​thức về các yếu tố văn bản, mỗi điều được thực hiện thông qua việc áp dụng các phương pháp khác nhau. Thật vậy, họ hoàn toàn đúng;

Mặc dù các nghiên cứu khác nhau đã được thực hiện trên APP dựa trên văn bản, nhưng không có nghiên cứu nào được tìm thấy về cơ bản nhằm tập trung vào Biểu diễn tri thức [KR]. Bài báo này lần đầu tiên [theo hiểu biết tốt nhất của chúng tôi] đặt câu hỏi về việc áp dụng biểu diễn tri thức và do đó biểu đồ tri thức trong APP dựa trên văn bản. Cụ thể, nghiên cứu này đóng góp lớn cho nghiên cứu về dự đoán tính cách tự động bằng cách đề xuất một hệ thống hỗ trợ biểu đồ tri thức mới. Thật vậy, nó điều tra tỉ mỉ biểu diễn tri thức như một giải pháp mới để đánh giá tính cách dựa trên văn bản. Chúng tôi tin rằng có kiến ​​​​thức, và sau đó là biết. Vì vậy, trước tiên, chúng ta nên khám phá thế giới đằng sau những từ. Nó sẽ cung cấp một cơ hội quan trọng để nâng cao hiểu biết về các yếu tố văn bản. Do đó, trên thực tế, tầm quan trọng của phương pháp của chúng tôi là nó trao quyền cho hệ thống APP để đạt được sự thể hiện toàn diện các khái niệm xuất hiện trong văn bản đầu vào, đòi hỏi kiến ​​thức đằng sau chúng và mô hình hóa các mối quan hệ ngữ nghĩa giữa chúng, theo cách dễ hiểu hơn . Trên thực tế, phương pháp được đề xuất trang bị cho máy những kiến ​​thức cần thiết để hiểu rõ hơn về các khái niệm kéo theo trong văn bản đầu vào và do đó đạt được kết quả tốt hơn

Biểu diễn tri thức là một lĩnh vực trí tuệ nhân tạo dành riêng cho việc biểu diễn thông tin về thế giới dưới dạng mà một hệ thống máy tính có thể sử dụng để giải quyết các nhiệm vụ phức tạp []. Trên thực tế, biểu diễn tri thức là cần thiết để hiểu bản chất của trí thông minh và nhận thức các khái niệm sao cho máy tính có thể được tạo ra để thể hiện các khả năng giống như con người []. Do đó, trong trường hợp mong đợi những khả năng giống con người từ trí tuệ nhân tạo, có vẻ như chúng ta nên đại diện cho kiến ​​thức về thế giới cho nó. Trong khi đó, biểu đồ tri thức thực chất là kết quả của việc biểu diễn tri thức. Nó tổ chức kiến ​​thức về các khái niệm trong cấu trúc đồ thị và tích hợp tất cả thông tin hiện có về chúng

Do đó, nhằm mục đích thiết kế một hệ thống APP dựa trên văn bản hỗ trợ biểu đồ tri thức, bài báo này đề xuất một cách tiếp cận ba giai đoạn bao gồm. [i]Giai đoạn 1. tiền xử lý bao gồm bốn bước tiền xử lý cần thiết, đó là mã thông báo, loại bỏ nhiễu, chuẩn hóa và nhận dạng thực thể được đặt tên để làm cho văn bản đầu vào sẵn sàng cho các quy trình chính trong giai đoạn tiếp theo. [ii]Giai đoạn 2. biểu diễn tri thức, đóng góp chính của nghiên cứu này bao gồm ba bước, đó là xây dựng biểu đồ, làm giàu biểu đồ và nhúng biểu đồ. Trong thực tế, giai đoạn này đầu tiên cố gắng xây dựng biểu đồ tri thức tương ứng cho một văn bản nhất định, đây là biểu diễn có kiến ​​thức của văn bản đầu vào và sau đó làm phong phú nó để bao gồm một số phần kiến ​​thức bị bỏ quên về các khái niệm. Cuối cùng, biểu đồ được làm giàu thu được được nhúng vào một không gian áp dụng tính toán nhiều hơn, để tạo điều kiện thuận lợi cho các tính toán trong giai đoạn tiếp theo. [iii]Giai đoạn 3. dự đoán tính cách tự động nhằm dự đoán các đặc điểm tính cách cho từng văn bản đầu vào thông qua mô hình phân loại đa nhãn. Để làm như vậy, bốn mô hình học sâu cơ bản đã được đề xuất bao gồm dựa trên Mạng thần kinh chuyển đổi- [CNN-], dựa trên Mạng thần kinh tái phát đơn giản- [RNN-], dựa trên bộ nhớ ngắn hạn dài một chiều- [LSTM-] và hai chiều dài. . Nghiên cứu này nhằm giải quyết các câu hỏi nghiên cứu sau. RQ. 1. Việc bật biểu đồ tri thức ảnh hưởng như thế nào đến hiệu suất của hệ thống dự đoán tính cách tự động dựa trên văn bản?RQ. 2. Hiệu suất của các mô hình học sâu phổ biến, bao gồm CNN, RNN đơn giản, LSTM và BiLSTM trong phân loại đa nhãn các ma trận nhúng của biểu đồ tri thức là gì? . 3. Việc bật biểu đồ tri thức của hệ thống APP có ảnh hưởng như nhau đến các dự đoán về cả năm đặc điểm tính cách trong mô hình Big Five không?RQ.3: Does knowledge graph enabling of an APP system affect equally the predictions in all five personality traits in Big Five model?

Phần còn lại của bài báo tiến hành như sau. Phần liên quan đến mô hình tính cách Big Five. Phần cung cấp tổng quan về các hệ thống APP dựa trên văn bản. Hệ thống APP dựa trên biểu diễn tri thức được đề xuất được trình bày tỉ mỉ trong Phần. Phần trình bày những phát hiện của nghiên cứu này, và sau đó Phần bao gồm một cuộc thảo luận về ý nghĩa của những phát hiện cũng như câu trả lời cho các câu hỏi nghiên cứu. Cuối cùng, Phần, cụ thể là, kết luận, đưa ra một bản tóm tắt ngắn gọn và phê bình về những phát hiện

2. Mô hình tính cách Big Five

Cho đến nay, nhiều mô hình đặc điểm tính cách khác nhau đã được giới thiệu []. Trong nghiên cứu này, mô hình Big Five [Five Factor Model] [], là mô hình đặc điểm được chấp nhận rộng rãi nhất có khả năng tương quan với các đặc điểm của con người được thể hiện bằng ngôn ngữ viết [], được sử dụng. Về cơ bản, nó thể hiện tính cách của các cá nhân trong năm loại. cởi mở, tận tâm, hướng ngoại, dễ chịu và loạn thần kinh. OCEAN là từ viết tắt của năm loại, mà chúng ta sẽ đề cập đến, cũng. Mỗi trong số năm đặc điểm tính cách đại diện cho một phạm vi giữa hai thái cực []; . Để làm rõ hơn, việc chỉ ra một số khía cạnh của từng đặc điểm, xuất hiện ở những người có điểm cao cho từng đặc điểm, có thể hữu ích [để biết thêm chi tiết, vui lòng tham khảo [, ]]. [i]Độ mở [O]. khuynh hướng đón nhận những ý tưởng, nghệ thuật, cảm xúc và hành vi mới; . [ii]Tận tâm [C]. khuynh hướng tự kỷ luật, có tổ chức tốt và có trách nhiệm; . [iii]Hướng ngoại [E]. khuynh hướng hướng ngoại, hoạt bát, quyết đoán và nói nhiều; . [iv]Tính dễ chịu [A]. xu hướng đồng ý và đồng hành cùng những người khác; . [v]Bệnh loạn thần kinh [N]. khuynh hướng trải nghiệm những cảm xúc tiêu cực như lo lắng, tức giận, trầm cảm, buồn bã và ghen tị; .

Hơn nữa, điều đáng chú ý là Năm đặc điểm lớn hầu hết là độc lập []. Điều đó có nghĩa là việc nhận thức được một đặc điểm tính cách của ai đó không cung cấp nhiều thông tin về các đặc điểm còn lại của mô hình Big Five

3. Tạp chí văn học

Trong những năm gần đây, ngày càng có nhiều tài liệu về APP, chủ yếu tập trung đặc biệt vào việc dự đoán tính cách từ văn bản, lời nói, hình ảnh, video và các hoạt động trên mạng xã hội [lượt thích, lượt truy cập, đề cập, dấu chân kỹ thuật số, diễn giải hồ sơ, v.v. ]

Văn bản với tư cách là sự xuất hiện của ngôn ngữ loài người sẽ phản ánh chính xác tính cách của nhà văn []. Chính vì vậy, đây luôn là vấn đề được các nhà tâm lý học nhân cách quan tâm. Truyền bá cơ sở hạ tầng truyền thông dựa trên Internet đã làm tăng giao tiếp dựa trên văn bản giữa mọi người. Nó mở ra cơ hội cho các nhà tâm lý học máy tính điều tra tính cách của các nhà văn từ các văn bản được trao đổi. Ở đây, chúng tôi sẽ xem xét các nghiên cứu được thực hiện trên APP dựa trên văn bản

Xem qua các cuộc điều tra được báo cáo trong APP, có thể khẳng định rằng, nhìn chung, tất cả chúng đều nhằm mục đích có được các lựa chọn thay thế đầy đủ và có ý nghĩa hơn cho các thành phần của văn bản đầu vào [cụ thể là từ, thuật ngữ hoặc nói chung là tất cả các từ xuất hiện . Nói một cách đơn giản, xử lý các lựa chọn thay thế có ý nghĩa hơn, truyền tải nhiều kiến ​​thức và thông tin hơn là các chuỗi ký tự thuần túy được ưu tiên cao. Trên thực tế, hiểu biết này về các yếu tố ngôn ngữ viết có thể đại diện tốt hơn cho kiến ​​thức đằng sau chúng và có thể dẫn đến những dự đoán tốt hơn về tính cách của nhà văn. Theo dõi sự phát triển của các hệ thống APP dựa trên văn bản làm sáng tỏ hơn về tuyên bố này. Đối với tuyên bố này, nói chung, chúng ta có thể phân loại các nghiên cứu trước đây thành năm loại. phương pháp dựa trên từ vựng, phương pháp kết hợp [kết hợp phương pháp dựa trên từ vựng và học sâu], phương pháp nhúng, phương pháp mô hình hóa tập hợp và phương pháp dựa trên mạng. Một phân tích chi tiết về các loại này được đưa ra dưới đây

3. 1. Phương pháp dựa trên từ điển [–, ]

Các kỹ thuật thô sơ chủ yếu có xu hướng sử dụng từ vựng, cung cấp kiến ​​thức ngôn ngữ và thống kê về các yếu tố văn bản. Các phương pháp dựa trên từ điển chủ yếu cố gắng dự đoán tính cách của người viết thông qua việc gán các từ của anh ấy/cô ấy vào các danh mục được xác định trước. Điều tra ngôn ngữ và đếm từ [LIWC] [] là một trong những công cụ phổ biến nhất để đếm các từ trong các danh mục có ý nghĩa tâm lý và tính toán mức độ mà mọi người sử dụng các danh mục từ khác nhau. Nó chỉ đơn giản là một từ điển các từ và gốc từ, mỗi từ thuộc một hoặc nhiều danh mục. Đưa ra một văn bản, LIWC tính toán tỷ lệ phần trăm của các từ được bao gồm trong mỗi danh mục. Ý tưởng chính đằng sau LIWC là cách sử dụng từ trong ngôn ngữ hàng ngày tiết lộ suy nghĩ, tính cách và cảm giác của các cá nhân. Đã có nhiều phiên bản khác nhau từ năm 2001. Thông tin thêm có sẵn tại https. //liwc. wpengine. com/ và có hơn 80 danh mục trong LIWC2015. Các tính năng Mairesse [] và Lập trình có cấu trúc để trích xuất tín hiệu ngôn ngữ [SPLICE] là các tùy chọn khác cung cấp các tính năng ngôn ngữ cho các từ

Trong phân tích của họ về APP từ những từ mà mọi người sử dụng, Yuan et al. [] đã điều tra tính cách của các nhân vật trong tiểu thuyết bản ngữ. Họ đã tạo một vectơ cho mỗi hộp thoại bằng các tính năng của LIWC, phản ánh tâm lý của các nhân vật. Cuối cùng, các vectơ đã được ánh xạ tới các đặc điểm tính cách Big Five, để dự đoán các nhãn tính cách cuối cùng. Mairesse và cộng sự. [] cũng đã điều tra một loạt các đặc điểm dựa trên từ vựng khác nhau để dự đoán các đặc điểm tính cách Big Five từ văn bản viết và hội thoại nói

Trong số các báo cáo đầu tiên về APP từ văn bản truyền thông xã hội, Golbeck et al. [] đã xem xét các tính năng LIWC trên 167 mẫu nội dung văn bản Facebook cũng như thông tin hồ sơ của người dùng. Kết quả xác nhận những cải tiến hạn chế trong APP. Theo cách tương tự, các tác giả trong [] đã nghiên cứu Năm đặc điểm tính cách lớn từ các bài đăng trên Twitter bên cạnh các thuộc tính hồ sơ của người dùng. Họ thực sự có ý định tìm ra những đặc điểm chống đối xã hội của chứng ái kỷ, Machiavellians và bệnh thái nhân cách [thường được gọi là bộ ba đen tối] thông qua việc sử dụng các tính năng của LIWC. Việc xem xét các kết quả được báo cáo ngụ ý rằng việc dự đoán các đặc điểm tính cách từ văn bản trên mạng xã hội bằng các phương pháp dựa trên từ vựng không thể cải thiện đáng kể độ chính xác của APP

Sau đó, trong một nghiên cứu được đặt ra để dự đoán các đặc điểm tính cách từ các tiểu blog của mạng xã hội, Han và cộng sự. [] đã phát hiện ra rằng kiến ​​​​thức về từ ngữ dựa trên ngữ cảnh có thể có lợi cho việc dự đoán tính cách. Họ tin rằng vì các từ vựng tâm lý học truyền thống [như LIWC] phù hợp với các văn bản trang trọng, nên chúng không thể được áp dụng một cách hiệu quả trong các văn bản trang trọng của mạng xã hội. Do đó, họ đã đề xuất một cách tiếp cận để tự động trích xuất từ ​​vựng tính cách từ các mạng xã hội, thông qua việc sử dụng các kỹ thuật trích xuất từ ​​khóa và sau đó phân cụm các từ khóa được trích xuất theo ngữ nghĩa. Cuối cùng, họ chỉ đơn giản là kết hợp từ vựng được trích xuất [như một nguồn kiến ​​thức trước đó] với các vectơ nhúng từ và đưa chúng vào một mô hình phân loại, để dự đoán nhãn của các đặc điểm tính cách của Big Five. Họ đã nâng cao một phần độ chính xác của dự đoán, mặc dù họ chỉ tận dụng kiến ​​thức từ vựng của từ.

3. 2. Phương pháp kết hợp [, , , ]

Nhìn chung, trong các tài liệu, các nhà nghiên cứu dường như không có xu hướng sử dụng các phương pháp dựa trên từ vựng, mà chỉ. Nói sự thật, thật khó công bằng khi chuyển tất cả trách nhiệm của APP cho họ, vì kiến ​​​​thức hời hợt của họ về các yếu tố văn bản. Do đó, một khối tài liệu lớn và ngày càng phát triển đã điều tra sự kết hợp của các phương pháp dựa trên từ vựng với các phương pháp có kiến ​​thức đầy đủ hơn, điều này đã cải thiện tương ứng với độ chính xác của các dự đoán.

Thiết kế một mạng thần kinh tích chập [CNN], sử dụng các tính năng Mairesse ở cấp độ tài liệu [được trích xuất từ ​​văn bản đầu vào] trong một lớp bên trong, đã hình thành trọng tâm nghiên cứu của Majumder et al. []. Họ đã đào tạo một bộ phân loại nhị phân giống hệt nhau riêng biệt cho từng đặc điểm trong số năm đặc điểm tính cách trong mô hình Big Five để nhận từng câu của văn bản đầu vào và sau đó tổng hợp chúng thành một vectơ cấp độ tài liệu. Bên cạnh đó, họ cuối cùng đã bỏ qua tất cả các câu trung lập về mặt cảm xúc, để cải thiện hiệu suất. Nguyên và cộng sự. [] đã thực hiện một nghiên cứu để dự đoán tính cách của người dùng từ nội dung trạng thái trên Facebook của họ. Trên thực tế, họ đã kết hợp các tính năng của LIWC với các tính năng sâu hơn được trích xuất thông qua mô hình học sâu. Đầu tiên họ trích xuất các đặc điểm ngôn ngữ thông qua công cụ LIWC, sau đó sử dụng CNN, họ đã tự động trích xuất các đặc điểm từ nội dung văn bản. Sau đó, hai tính năng được trích xuất đã được kết hợp để dự đoán các nhãn tính cách

Trong một cuộc điều tra khác về APP từ các văn bản trong mạng xã hội trực tuyến, các tác giả trong [] đã đề xuất một mô hình LSTM hai chiều, được gọi là 2CLSTM. Để phát hiện tính cách của người dùng bằng cách sử dụng cấu trúc của văn bản, mô hình đã được củng cố bởi CNN cũng như mô-đun nhóm câu tiềm ẩn, được áp dụng để nắm bắt các câu được kết nối chặt chẽ. Xu và cộng sự. [] đã nghiên cứu ảnh hưởng của việc biểu diễn ngữ nghĩa của từ trong hệ thống APP. Họ đã thu được biểu diễn ngữ nghĩa cấp độ từ của các phần tử văn bản và sau đó đưa chúng vào một mạng lưới thần kinh để thu được ngữ nghĩa cấp cao hơn của các phần tử văn bản

3. 3. Phương pháp nhúng [–, –]

Bên cạnh những nghiên cứu này, nhiều nỗ lực đã được thực hiện với mục đích sử dụng các phương pháp phức tạp sử dụng các phương án thay thế thậm chí còn hiểu biết hơn cho các thành phần văn bản. Thật vậy, họ đã thành công trong việc đạt được kết quả tốt hơn trong quá trình dự đoán. Họ chủ yếu đặc biệt chú ý đến các phương thức nhúng, giúp chuyển đổi các thành phần văn bản từ không gian văn bản sang không gian vectơ có giá trị thực. Nhìn chung, các phương pháp này, mặc dù đa dạng, nhưng có hiệu suất tốt hơn trong APP, thay vì các phương pháp đã đề cập trước đây. Khả năng này là kết quả của sự khéo léo của các phương pháp nhúng trong việc thu nhận và biểu diễn ý nghĩa. Trong một nghiên cứu được đặt ra để phát hiện tính cách dựa trên phân tích nội dung văn bản, Ren et al. [] đã điều tra một mô hình học tập dự đoán tính cách đa nhãn mới, kết hợp các đặc điểm cảm xúc và ngữ nghĩa. Đặc biệt, họ đã tận dụng Biểu diễn bộ mã hóa hai chiều từ Transformers [BERT], để tạo các nhúng cấp câu để trích xuất các đặc điểm ngữ nghĩa từ văn bản, cũng như từ điển cảm tính cho mục đích phân tích cảm xúc văn bản. Bộ mã hóa chủ yếu được thiết kế để đạt được sự thể hiện đầy đủ của văn bản đầu vào. Họ đã sử dụng các mô hình đặc điểm tính cách Myers-Briggs Type Indicator [MBTI] và Big Five trong nghiên cứu của họ. Xu và cộng sự. [] cũng đã thiết kế một phương pháp dựa trên học sâu để dự đoán tính cách từ văn bản, được đăng trên các mạng xã hội trực tuyến. Họ đã đề xuất AttRCNN, một mô hình phân cấp sử dụng bộ mã hóa cấp độ câu, theo sau là bộ mã hóa cấp độ tài liệu để đạt được các tính năng ngữ nghĩa sâu sắc của bài đăng văn bản. Hơn nữa, họ đã kết hợp các đặc điểm ngữ nghĩa sâu sắc với các đặc điểm ngôn ngữ thống kê thu được trực tiếp từ các bài đăng văn bản và đưa chúng vào một mô hình hồi quy để dự đoán nhãn của Năm đặc điểm tính cách lớn. Khai thác các khả năng của phương pháp nhúng, trong nghiên cứu của họ, Christian et al. [] đã đề xuất một kiến ​​trúc học sâu đa mô hình để dự đoán tính cách, được kết hợp với nhiều mô hình ngôn ngữ được đào tạo trước khác nhau bao gồm BERT, RoBERTa và XLNet như một phương pháp trích xuất tính năng trên văn bản mạng xã hội. Ý tưởng chính đằng sau cuộc điều tra của họ là do các mô hình học sâu phổ biến như mạng thần kinh tái phát [RNN] và LSTM gặp phải một số nhược điểm bị đánh bại bằng các phương pháp nhúng, nên các phương pháp nhúng thực tế vượt trội hơn chúng. Cụ thể, họ chủ yếu trải qua thời gian đào tạo dài và không có khả năng nắm bắt thông tin dựa trên ngữ cảnh của từ và do đó nghĩa thực sự của từ. Cuối cùng, các dự đoán cuối cùng đã được thực hiện dựa trên việc lấy trung bình đầu ra của các mô hình tiền xử lý khác nhau. Các nghiên cứu khác [[, –]] cũng đã nghiên cứu thiết kế các mô hình APP dựa trên nhúng để đưa ra dự đoán từ văn bản

3. 4. Phương pháp mô hình tập hợp [, , –]

Trong khi đó, việc tận dụng lợi thế của một số bộ phân loại và đồng thời mang lại lợi ích cho khả năng dự đoán của chúng là vấn đề đáng quan tâm đối với một số nghiên cứu. Sử dụng các dự đoán mô hình APP khác nhau, các tác giả trong [] đã đề xuất một phương pháp lập mô hình tập hợp. Cụ thể, họ đã đề xuất năm mô hình APP riêng biệt, bao gồm các phương pháp dựa trên véc tơ tần số, dựa trên bản thể học, dựa trên bản thể luận phong phú, dựa trên phân tích ngữ nghĩa tiềm ẩn và dựa trên học sâu [BiLSTM]. Sau đó, tất cả năm mô hình riêng lẻ đã được thu thập thông qua Mạng chú ý phân cấp [HAN] dưới dạng siêu mô hình. Do đó, họ đã được hưởng lợi từ khả năng của năm mô hình APP riêng biệt, để đưa ra quyết định cuối cùng về các đặc điểm tính cách của Big Five. Trong nghiên cứu của họ, El-Demerdash et al. [] đã đề xuất một phương pháp APP dựa trên học tập chuyển giao có lợi ích của các mô hình ngôn ngữ được đào tạo trước hàng đầu như Elmo, ULMFiT và BERT. Để nâng cao hiệu suất dự đoán tính cách tổng thể, họ đã áp dụng một mô hình bao gồm các chiến lược hợp nhất ở cấp độ dữ liệu và cấp độ phân loại. Thông qua các mô hình được đào tạo trước dạng cây, họ đã sử dụng sự kết hợp của các Bài luận và bộ dữ liệu tính cách của tôi để tinh chỉnh thêm các mô hình được đề xuất. Sử dụng các trình phân loại độc lập, mỗi mô hình thực hiện APP riêng. Sau đó, các kết quả đã được đưa vào một mô hình học tập đồng bộ kết hợp nhiều đầu ra của bộ phân loại để có được dự đoán đáng tin cậy hơn. Có cùng mục tiêu, các nhà nghiên cứu khác [–] đã đặt câu hỏi về tính hữu ích của cách tiếp cận như vậy

3. 5. Phương pháp dựa trên mạng [, ]

Ngoài ra còn có một số cuộc điều tra nhằm mục đích đạt được một đại diện khác. Họ chủ yếu tập trung vào mô hình mạng giữa những người dùng phương tiện truyền thông xã hội trực tuyến. Báo cáo đầu tiên về dự đoán tính cách cấp độ nhóm được thực hiện bởi Sun et al. []. Họ đã đề xuất một phương pháp học tính năng không giám sát có tên là AdaWalk, tận dụng lợi thế của sự độc lập với tập dữ liệu được dán nhãn. Thực ra nó được thiết kế dựa trên phương pháp Học biểu diễn mạng [NRL] do tác giả đề xuất. Thực tế, nó xây dựng một đồ thị hoàn chỉnh trong đó các đỉnh của nó là người dùng. Biểu đồ cũng chứa các văn bản được tạo cho mỗi người dùng, sự giống nhau giữa các văn bản của mỗi người dùng và các nhãn tính cách trong mô hình Big Five. Sau đó, áp dụng các bước đi ngẫu nhiên [AdaWalks] trên biểu đồ, họ đã biến mạng thành một tập hợp các chuỗi và cuối cùng đã dự đoán nhãn tính cách của họ sau khi nhúng tất cả chúng. Đồng quan điểm, Guan et al. [] đã đề xuất tính cách2vec, dự đoán các nhãn tính cách dựa trên NRL bằng cách sử dụng các văn bản của mạng xã hội trực tuyến. Các tác giả đã có ý định sử dụng đầy đủ thông tin về ngữ nghĩa, tính cách và cấu trúc của các văn bản do người dùng tạo

Về sự phát triển, tuyên bố đã nói ở trên rằng tất cả các đóng góp đã được cố gắng đạt được các lựa chọn thay thế có ý nghĩa hơn cho các yếu tố văn bản để giải quyết, do đó dường như có thể biện minh được. Trên thực tế, những đóng góp cung cấp bằng chứng thực nghiệm mạnh mẽ rằng nhiều lựa chọn thay thế đầy đủ hơn cho các thành phần văn bản có thể dẫn đến kết quả đáng tin cậy hơn. Điều chưa rõ ràng là tác động của cách tiếp cận cơ bản dựa trên biểu diễn tri thức của các thành phần văn bản trên APP. Một cách tiếp cận cung cấp các lựa chọn thay thế thực sự hiểu biết cho các thành phần văn bản truyền tải tất cả các thông tin liên quan và hiểu biết về các khái niệm cũng như mối quan hệ của chúng

4. Vật liệu và phương pháp

Mục đích của phương pháp biểu diễn tri thức là để chứng minh nhận thức nhận thức đằng sau các khái niệm chính trên thế giới, cũng như các mối quan hệ giữa chúng. Sự khéo léo của chức năng thông minh có mối tương quan đáng kể với kiến ​​thức đại diện tồn tại, cho cả con người và dường như cho máy móc. Do đó, chúng tôi chủ yếu quyết định trình bày kiến ​​thức đằng sau các yếu tố văn bản đầu vào có lợi cho các mục tiêu của APP. Để làm như vậy, nó đã được quyết định thao tác mô hình RDF. Các khả năng đã nói ở trên của mô hình RDF chứng minh năng lực của nó trong biểu diễn tri thức

4. 1. Tập dữ liệu và một số thống kê về nó

Trong nghiên cứu này, các bài tiểu luận được cung cấp trong Essays Dataset [] đã được sử dụng để đào tạo và thử nghiệm mô hình APP được đề xuất. Nó bao gồm 2.467 bài tiểu luận, được viết bởi các sinh viên tâm lý học. Sau đó, họ được yêu cầu điền vào Bảng câu hỏi kiểm kê Big Five. Ở cuối mỗi bài luận, một nhãn nhị phân được gán cho mỗi năm đặc điểm tính cách. Xuyên suốt bài báo này, mỗi bài luận riêng lẻ sẽ được gọi là văn bản. Hơn nữa, cũng cần lưu ý rằng mô hình tính cách Big Five đã được sử dụng trong tất cả các cuộc điều tra.

Hãy để chúng tôi xem xét kỹ lưỡng nhiều thông tin hơn về Bộ dữ liệu Bài luận. Hình 1 mô tả sự phân bố các nhãn Đúng và Sai trong toàn bộ tập dữ liệu theo từng đặc điểm trong số năm đặc điểm tính cách. Sự khác biệt nhỏ giữa số lượng bài tiểu luận được gắn nhãn Đúng và Sai cho thấy bộ dữ liệu được cân bằng và phù hợp để học mô hình APP



Hình 1  

Sự phân bố các nhãn trong mỗi năm đặc điểm tính cách trong Bộ dữ liệu Bài luận

Hình 2 so sánh mối tương quan giữa năm đặc điểm tính cách trong Bộ dữ liệu bài luận. Có thể thấy, ma trận tương quan là ma trận đối xứng, trong đó tất cả các giá trị trên đường chéo chính đều bằng 1. Hệ số tương quan có thể nằm trong khoảng −1 và +1. Giá trị tuyệt đối của hệ số càng lớn thì mối quan hệ giữa hai tính trạng càng chặt chẽ. Cụ thể, một hệ số dương giữa hai đặc điểm có nghĩa là việc nhận thức được nhãn của một đặc điểm cho phép dự đoán chính xác về đặc điểm kia;



Hình 2  

Ma trận tương quan cho năm đặc điểm tính cách trong Essays Dataset

Đồ thị UpSet [] của năm bộ đặc điểm tính cách được trình bày trong Hình 3. Biểu đồ UpSet thực sự được coi là sự thay thế cho sơ đồ Venn, khi xử lý nhiều hơn 3 bộ. Có năm bộ đặc điểm tính cách [cụ thể là O, C, E, A và N], biểu đồ UpSet giúp cung cấp một cách hiệu quả để hình dung các giao điểm của năm bộ. Mỗi hàng ở dưới cùng của Hình 3 biểu thị cho một tập hợp và mỗi cột tương ứng với một phân đoạn trong sơ đồ Venn, được mô tả bằng năm vòng tròn sáng hoặc đen. Vòng tròn màu đen biểu thị rằng tập hợp tương ứng đang tham gia giao lộ và vòng tròn màu sáng ngược lại. Thật vậy, một vòng sáng chỉ ra rằng phần bù của tập hợp đang tham gia vào giao điểm. Cụ thể, cột ngoài cùng bên phải có 5 hình tròn đen ứng với cả 5 bộ thì bằng [O  C  E  A  N]. Biểu đồ thanh trên cùng của Hình 3 thể hiện lực lượng của từng giao lộ tương ứng. Điều đáng nói là cốt truyện mô tả các giao điểm giữa các bộ tiểu luận được dán nhãn thực sự. Điều đó có nghĩa là, chỉ những bài luận được dán nhãn thực sự trong các đặc điểm DƯƠNG mới được xem xét.



Hình 3  

Biểu đồ UpSet của các giao điểm giữa các tập hợp đặc điểm tính cách được dán nhãn thực sự trong Bộ dữ liệu Bài luận. ghi chú. [i] các tập hợp {O, C, E, A, N} được sắp xếp theo lực lượng của chúng theo thứ tự tăng dần;

4. 2. Kiến Trúc Hệ Thống

Nhằm mục đích trả lời các câu hỏi nghiên cứu đã nêu ở phần đầu của nghiên cứu này, chúng tôi đã đề xuất một cách tiếp cận ba giai đoạn, được phác thảo trong Hình 4. Thí nghiệm tiến hành với các giai đoạn sau đây



Hình 4  

Kiến Trúc Hệ Thống

4. 2. 1. Giai đoạn 1. Sơ chế

Trong giai đoạn này, mục đích là làm sạch và chuyển đổi văn bản đầu vào thành dạng dễ hiểu hơn để máy xử lý trong giai đoạn tiếp theo. Thực tiễn phổ biến và nổi bật truyền thống này trong xử lý ngôn ngữ tự nhiên về cơ bản bao gồm các hoạt động linh tinh tùy thuộc vào nhiệm vụ hiện có. Dưới đây là mô tả về các hoạt động tiền xử lý đã được thực hiện trong giai đoạn đầu tiên, như được mô tả trong Hình 4

[i] Token hóa. Có một văn bản, “tokenization” là nhiệm vụ cắt nó thành nhiều phần gọi là token, gần tương ứng với các từ []. Mã thông báo cũng được coi là đơn vị ngữ nghĩa hữu ích nhỏ nhất để xử lý. Với mục đích này, bộ mã thông báo, được cung cấp bởi Bộ công cụ ngôn ngữ tự nhiên [NLTK] [], đã được sử dụng

[ii] Loại bỏ tiếng ồn. Để đạt được nhiều văn bản thuần túy hơn, cần phải loại bỏ các phần văn bản đầu vào không mong muốn và gây nhiễu. Đối với nhiệm vụ hiện tại, chúng tôi đã xóa dấu câu, dấu hiệu và từ dừng bằng cách sử dụng NLTK

[iii] Bình thường hóa. “Chuẩn hóa” là quá trình chuẩn hóa các mã thông báo thành một chuỗi thống nhất hơn, để các kết quả trùng khớp xảy ra bất chấp sự khác biệt bề ngoài trong chuỗi ký tự của các mã thông báo []. Nó thực tế làm giảm lượng thông tin mà máy phải xử lý, những thông tin tương tự về mặt khái niệm, nhưng khác về hình thái. Trong nỗ lực chuẩn hóa văn bản đầu vào, việc viết thường và từ vựng đã được thực hiện

Bổ đề hóa là phân tích hình thái của các từ nhóm các dạng biến cách của chúng lại với nhau và trả về các cơ sở hoặc dạng từ điển của chúng, được gọi là bổ đề. Vì từ vựng chuyển đổi các từ thành dạng từ điển có ý nghĩa của chúng và tạo ra dạng khái niệm chính xác, thực sự tồn tại trên thế giới so với từ gốc, đây là một phương pháp thay thế để rút gọn các từ bị biến thành từ gốc và thường được hoàn thành thông qua việc cắt bỏ các ký tự kết thúc của từ . Các khái niệm có ý nghĩa thu được sẽ được truy vấn trong quá trình xây dựng sơ đồ tri thức ở giai đoạn sau. Trong nghiên cứu này, việc bổ sung từ vựng cũng được thực hiện bằng cách sử dụng NLTK

[iv] Nhận dạng thực thể được đặt tên [NER]. Để đạt được kiến ​​​​thức đằng sau các từ, cần phải nhận ra các thực thể được đặt tên từ văn bản đầu vào. Các chuỗi từ thực sự là tên của sự vật [nghĩa là tên của tổ chức, người, công ty, sự kiện, v.v. ]. Trên thực tế, chúng truyền tải nhiều thông tin hơn các từ khác. Trong nghiên cứu hiện tại, spaCy NER [] đã được sử dụng để nhận dạng các thực thể được đặt tên

Sau khi hoàn thành giai đoạn tiền xử lý, những gì tồn tại tạo thành một tập hợp các khái niệm, truyền tải các khái niệm cơ bản đã xuất hiện trong văn bản đầu vào. Cần phải đề cập rằng, sau NER, các yếu tố trùng lặp đã bị loại bỏ khỏi bộ khái niệm. Sau đó, để chuẩn bị các phần tử khớp với các mục cơ sở kiến ​​thức DBpedia, viết hoa chữ cái đầu tiên được thực hiện cho tất cả các phần tử và thay thế khoảng trắng bằng dấu gạch dưới cũng được thực hiện cho các phần tử nhiều từ. Giờ đây, mọi thứ đã sẵn sàng để khám phá thế giới đằng sau những con chữ

Tóm tắt ngắn gọn về giai đoạn 1, như thể hiện trong Hình 4, có thể được mô tả như sau. [i]Đầu vào. văn bản của bài luận từ Tập dữ liệu bài luận;[ii]Đầu ra. một tập hợp các khái niệm được trích xuất cho mỗi văn bản;[iii]Mục tiêu. để chuẩn bị một dạng văn bản đầu vào dễ tiêu hóa hơn cho các quy trình chính trong các giai đoạn tiếp theo.

4. 2. 2. Giai đoạn 2. Biểu diễn tri thức

Như đã nêu trong phần Giới thiệu, chúng tôi đã chọn cấu trúc biểu đồ để thể hiện kiến ​​thức hiện có về các khái niệm trong văn bản đầu vào, cũng như các mối quan hệ giữa chúng và để tạo ra một biểu đồ tri thức cho mỗi văn bản. Hai bước đầu tiên trong phần dưới đây mô tả đầy đủ cách xây dựng sơ đồ tri thức cho mỗi văn bản. Mục đích của giai đoạn hiện tại là đạt được một biểu diễn toàn diện về kiến ​​thức hiện có của tập hợp các khái niệm đầu vào, để nó có thể được áp dụng cho các tính toán tiếp theo. Do đó, biểu đồ tri thức thu được đã được chuyển sang không gian số bằng phương pháp nhúng biểu đồ ở bước thứ ba. Quy trình ba bước được đề xuất được hiển thị trong Hình 4 và tiến hành như sau

Bước 1. Xây dựng sơ đồ tri thức
Thực tế, tập hợp các khái niệm được trích xuất từ ​​văn bản đầu vào trong giai đoạn 1 về cơ bản đã tổ chức các khái niệm tồn tại trong đó. Luôn có kiến ​​thức đằng sau mọi khái niệm. Bước hiện tại nhằm trích xuất kiến ​​thức về các khái niệm đã xuất hiện trong văn bản đầu vào từ cơ sở kiến ​​thức DBpedia [] và sau đó cố gắng thiết lập một sơ đồ tri thức tổ chức và biểu diễn hiệu quả kiến ​​thức chứa các phần tử văn bản [].
Sơ đồ tri thức là một cơ sở tri thức quy mô lớn bao gồm một số lượng lớn các thực thể [đối tượng, sự kiện hoặc khái niệm] và mối quan hệ giữa chúng []. Trên thực tế, nó là một đa đồ thị có hướng không đồng nhất [có các đỉnh/cạnh thuộc các loại khác nhau] được dán nhãn [một đồ thị, được phép có nhiều cạnh có hướng giữa cùng một cặp đỉnh], trong đó các nhãn có ý nghĩa được xác định rõ ràng []. Cấu trúc đồ thị trong đồ thị tri thức khéo léo sở hữu những gì cần thiết trong biểu diễn tri thức []. Giống như tất cả các đồ thị, nó bao gồm các đỉnh và các cạnh, trong đó các đỉnh đại diện cho các thực thể của thế giới thực và các cạnh kết nối các cặp đỉnh theo mối quan hệ của chúng. Hơn nữa, các nhãn truyền tải thông tin chính xác [đôi khi được gọi là ngữ nghĩa] về mối quan hệ hiện có [cạnh] giữa các đỉnh. Kiến thức bao gồm trong biểu đồ tri thức được lưu trữ dưới dạng bộ ba giống như [h, r, t] là viết tắt của [thực thể đầu, mối quan hệ, thực thể đuôi]. Điều đó có nghĩa là, có một tập hợp các đỉnh V, cùng với một tập hợp các nhãn L, biểu đồ tri thức sẽ là một tập hợp con của tích chéo V  L  V; . Mỗi bộ ba cũng có thể được hiểu là [chủ ngữ, vị ngữ, tân ngữ]; . [] cung cấp thông tin chi tiết về biểu đồ tri thức.
Trong khi đó, có một khung phù hợp phù hợp nhất có thể với yêu cầu ba của sơ đồ tri thức, cụ thể là Khung mô tả tài nguyên hoặc RDF. Về bản chất, nó là một tiêu chuẩn để biểu diễn thông tin trên Web. Tương tự, khung này được tạo thành từ bộ ba [chủ ngữ, vị ngữ, đối tượng]. Một tập hợp các bộ ba RDF xây dựng tập dữ liệu RDF cũng có thể được xem như một đa đồ thị có nhãn không đồng nhất có hướng [như đồ thị tri thức], còn được gọi là đồ thị RDF []. Trong biểu đồ RDF, các đỉnh [chủ thể và đối tượng] là Mã định danh tài nguyên được quốc tế hóa [IRI], viết tắt của chuỗi Unicode đại diện cho tài nguyên hoặc chữ có chứa các giá trị như chuỗi, số và ngày tháng. Ngoài ra, các cạnh [các vị từ hoặc nhãn] cũng là các IRI đại diện cho các vị từ hoặc các mối quan hệ. Thông tin chi tiết hơn về RDF có sẵn tại https. //www. w3. org/TR/rdf11-concept/.
Dự định xây dựng biểu đồ tri thức của văn bản đầu vào trong bước xây dựng biểu đồ ở giai đoạn 2, như đã đề cập trước đây, cơ sở tri thức DBpedia được sử dụng. DBpedia thực sự là một nỗ lực của cộng đồng để trích xuất thông tin có cấu trúc từ Wikipedia và cung cấp chúng trên Web. Bản phát hành 2016–04 của DBpedia chứa 9. 5 tỷ bộ ba RDF mô tả khoảng 6 triệu thực thể.
Người ta có thể dễ dàng truy vấn trực tuyến bộ dữ liệu DBpedia thông qua điểm cuối SPARQL, đây là ngôn ngữ và giao thức truy vấn tiêu chuẩn dành cho cơ sở dữ liệu RDF và dữ liệu mở được liên kết. Do đó, chúng tôi đã truy vấn tất cả các yếu tố của bộ khái niệm đầu vào trên DBpedia và trích xuất tất cả kiến ​​thức liên quan của từng khái niệm. Nó được thực hiện thông qua “MÔ TẢ” trong ngôn ngữ truy vấn SPARQL [không có ràng buộc trong mệnh đề SELECT và không có mẫu trong WHERE]. Cụ thể, nó yêu cầu mô tả về khái niệm được truy vấn [đôi khi được gọi là tài nguyên] và nhận bất kỳ khái niệm hoặc tài nguyên nào liên quan trực tiếp đến khái niệm được truy vấn [để biết thêm chi tiết về ngôn ngữ truy vấn SPARQL, vui lòng tham khảo []]. Như đã đề cập trước đó trong Phần , kết quả trả về từ các truy vấn ở dạng bộ ba RDF cung cấp một tập hợp, còn được gọi là biểu đồ RDF. Biểu đồ RDF tổ chức kiến ​​thức của các khái niệm trong một đa đồ thị có nhãn không đồng nhất có hướng, được gọi là biểu đồ tri thức. Nó gần như bao gồm tất cả các kiến ​​thức [tồn tại] về các khái niệm. Người ta có thể tìm thấy kết quả cho một truy vấn X nhất định trên DBpedia tại https. //dbpedia. tổ chức/trang/X. Sự phong phú của các RDF kết quả cho một truy vấn khiến chúng tôi không thể hiển thị kết quả cuối cùng cho một truy vấn mẫu. Xin lưu ý rằng viết hoa chữ cái đầu tiên và thay thế khoảng trắng bằng dấu gạch dưới cho các khái niệm đa từ là cần thiết.

Bước 2. Làm giàu sơ đồ tri thức
Sau khi xây dựng sơ đồ tri thức cho văn bản đầu vào, các mẩu thông tin khác nhau [tương tự ở dạng bộ ba RDF] làm phong phú sơ đồ tri thức hiện tại trong quá trình này . Làm phong phú thêm biểu diễn chắc chắn sẽ tập trung nhiều hơn vào một số khía cạnh bị bỏ quên của các sự kiện về các thực thể. Nói cách khác, việc có những khía cạnh tri thức hạn chế sẽ hạn chế nhận thức về thế giới của tác nhân thông minh []. Do đó, việc làm giàu biểu đồ sau đây được thực hiện trên biểu đồ tri thức kết quả.
[i] Làm giàu dựa trên Ontology. Bản thể học thực sự là một nhánh của siêu hình học liên quan đến bản chất và mối quan hệ của các sinh vật []. Nó cho thấy mọi thứ có liên quan với nhau như thế nào trong một phân loại thứ bậc có hệ thống.
Cần phải hết sức chú ý rằng các cơ sở tri thức về cơ bản được tạo thành từ các thể hiện chứ không phải các khái niệm; .
Để làm như vậy, chúng tôi đã sử dụng bản thể luận DBpedia. Nó bao gồm 768 lớp [danh sách đầy đủ các lớp được bao phủ có sẵn trong []], được mô tả bởi 3.000 thuộc tính cho khoảng 4.233.000 trường hợp. Người ta có thể dễ dàng tìm thấy biểu diễn dựa trên bản thể luận của một khái niệm X đã cho trong bản thể luận DBpedia tại https. //dbpedia. tổ chức/bản thể luận/X. Khi bắt đầu thành lập, nó đã được tạo dựa trên các hộp thông tin được sử dụng phổ biến nhất trong Wikipedia [năm 2008] trước khi nó phát triển thành một nỗ lực tìm nguồn cung ứng đám đông. Tất cả các RDF có được từ việc khớp các khái niệm với bản thể luận DBpedia đã được thêm vào biểu đồ RDF đã đạt được trước đó.
[ii] Làm giàu thuộc tính NRC. Các từ có thể được liên kết với các cường độ khác nhau của một cảm xúc. Từ điển cường độ cảm xúc NRC [], được cung cấp bởi Hội đồng nghiên cứu quốc gia Canada [NRC], chứa điểm số cường độ có giá trị thực cho tám cảm xúc cơ bản [cụ thể là tức giận, mong đợi, ghê tởm, sợ hãi, vui mừng, buồn bã, ngạc nhiên và tin tưởng] . Từ vựng chủ yếu bao gồm các từ và thuật ngữ tiếng Anh phổ biến hơn cùng với những từ phổ biến hơn trên mạng xã hội. Mục đích của phần hiện tại là làm phong phú thêm việc thể hiện văn bản đầu vào thông qua việc nâng cao tám mức độ cảm xúc được cung cấp cho các từ được bao gồm. Điểm số của cảm xúc cho từng khái niệm đã được thêm vào biểu đồ RDF hiện có ở dạng RDF theo nghĩa đen cho mỗi từ, trong trường hợp được đưa vào NRC.
[iii] Làm phong phú tài sản của MRC. Quá trình làm giàu biểu đồ tri thức cuối cùng là tăng cường các thuộc tính ngôn ngữ tâm lý cho biểu đồ RDF. Nó được thực hiện thông qua cơ sở dữ liệu ngôn ngữ tâm lý MRC []. MRC là một từ điển có thể sử dụng bằng máy được cung cấp công khai, chứa [tối đa 26] thuộc tính ngôn ngữ và tâm lý ngôn ngữ [như các đặc điểm cú pháp, âm vị học, chính tả và ngữ nghĩa] cho 150.837 từ tiếng Anh. Các thuộc tính này cũng được thêm vào biểu đồ RDF hiện có ở dạng RDF theo nghĩa đen cho mỗi từ.

Bước 3. Nhúng sơ đồ tri thức
Cho đến nay, chúng ta đã có được sơ đồ tri thức cho một văn bản nhất định về cơ bản được tạo thành từ RDF, cho cả đỉnh và cạnh. Bước này chuyển đổi biểu đồ tri thức kết quả thành một không gian vectơ và tạo ra ma trận nhúng tương đương của nó. Nó cố gắng duy trì tối đa cấu trúc của biểu đồ, mặc dù nó thực sự thực hiện việc giảm kích thước trên nó. Trong nghiên cứu này, các sơ đồ tri thức được nhúng theo phương pháp do Ristoski và cộng sự đề xuất. []. Trong phần đóng góp quan trọng của mình, họ đã đề xuất RDF2vec, một công cụ để tạo biểu diễn véc-tơ của đồ thị RDF. RDF2vec thực sự được lấy cảm hứng từ word2vec [], đây là một phương thức nhúng từ nổi tiếng [biểu diễn các từ trong không gian vectơ số]. RDF2vec gần như hoạt động tương tự như word2vec; . Trong khi word2vec nhận một tập hợp các câu để đào tạo mô hình học tập làm chuỗi đầu vào, RDF2vec sử dụng các bước đi ngẫu nhiên trên biểu đồ RDF để tạo chuỗi các đỉnh RDF để đưa chúng vào cùng một mô hình học tập. Kết quả là, các đỉnh giống nhau được đặt gần nhau trong không gian vectơ cuối cùng và các đỉnh khác nhau thì không, giống như những gì xảy ra với các từ sau khi nhúng vào word2vec. Nói một cách ngắn gọn, ở bước này, ma trận nhúng tương ứng cho một biểu đồ tri thức đã cho đã đạt được.
Chúng tôi đặt độ sâu tối đa cho mỗi lần đi bộ và số lần đi bộ tối đa cho mỗi thực thể, cả hai đều bằng 5 trong tất cả các lần đi bộ ngẫu nhiên, được thực hiện trên biểu đồ tri thức. Cần lưu ý rằng, trên thực tế, hai giai đoạn đầu tiên, cụ thể là tiền xử lý và biểu diễn tri thức, được thực hiện lặp đi lặp lại cho tất cả các bài luận trong Bộ dữ liệu Bài luận [vui lòng tham khảo Hình 4] và kéo dài hơn bốn tháng. Các thử nghiệm được chạy trên máy tính có bộ xử lý Intel i7-7700K, sử dụng 64 GB ram và chạy Windows 10. Kết quả của việc lặp lại như vậy là đã đạt được một tập hợp các ma trận nhúng do nhúng biểu đồ tri thức, trong đó các hàng của mỗi ma trận được dành riêng cho các khái niệm hiện có trong bài luận tương ứng và các cột được dành riêng cho các thứ nguyên nhúng. Số lượng hàng trong mỗi ma trận là khác nhau tùy thuộc vào số lượng khái niệm hiện có trong bài luận tương ứng. Do đó, để cố định số hàng và đạt được ma trận nhúng có cùng số hàng, chúng tôi đã chọn 10.000 khái niệm thường gặp nhất trong tất cả các biểu đồ tri thức có kết quả cuối cùng cho các bài tiểu luận của Essays Dataset. Số lượng hàng lớn hơn dẫn đến sự thưa thớt của các ma trận nhúng và số lượng hàng nhỏ hơn dẫn đến việc bỏ qua các khái niệm được bao gồm. Số lượng cột [kích thước nhúng], được chỉ định bởi RDF2vec, theo mặc định bằng 500.
Do đó, một bản tóm tắt ngắn gọn về giai đoạn 2, như có thể thấy trong Hình 4, có thể được mô tả như sau. [i]Đầu vào. một tập hợp các khái niệm cho mỗi văn bản;[ii]Đầu ra. ma trận nhúng tương đương cho mỗi văn bản;[iii]Mục tiêu. biểu diễn tri thức cho từng văn bản; .

4. 2. 3. giai đoạn 3. Dự đoán tính cách tự động

Cuối cùng, bốn mô hình phân loại riêng biệt đã được phát triển để thực hiện dự đoán tính cách, bao gồm dựa trên mạng thần kinh tích chập- [CNN-], dựa trên mạng thần kinh hồi quy đơn giản- [RNN-], dựa trên bộ nhớ dài hạn ngắn hạn- [LSTM-] và hai chiều. . Để đánh giá năng lực của APP chỉ hỗ trợ biểu đồ tri thức được đề xuất, một số mô hình phân loại học sâu cơ bản và nổi tiếng nhất, với kiến ​​trúc tương tự tối đa và cấu hình giống nhau, đã được sử dụng. Phân loại trong tất cả các đặc điểm Big Five đã được thực hiện đồng thời. Trên thực tế, mỗi mô hình thực hiện phân loại nhị phân nhiều nhãn, gán năm nhãn cho mỗi đặc điểm OCEAN cho một văn bản nhất định. Một số cài đặt phổ biến, được áp dụng trong tất cả các mô hình APP được đề xuất, được trình bày trong Bảng 1. Hơn nữa, như trong Hình 5, kiến ​​trúc của mỗi mô hình bao gồm hai bộ phân loại xếp chồng lên nhau [như CNN], dẫn đến kết quả tốt hơn so với một bộ phân loại duy nhất. Sau đó, các bộ phân loại được theo sau bởi quá trình chuẩn hóa hàng loạt, để đẩy nhanh quá trình đào tạo và chính quy hóa mô hình. Tiếp theo, áp dụng một lớp tổng hợp cũng như một lớp bỏ học sẽ giúp tránh trang bị quá mức thông qua việc cung cấp một dạng biểu diễn trừu tượng. Cuối cùng, các mô hình được theo sau bởi hai lớp dày đặc liên tiếp để phân loại các tính năng được trích xuất từ ​​​​các lớp trước đó, thay đổi kích thước của vectơ và có thể đưa ra dự đoán cuối cùng trong lớp đầu ra

Bảng 1  

Cài đặt của các tham số phổ biến trong số tất cả các mô hình APP được đề xuất [bao gồm CNN, RNN, LSTM và BiLSTM]


[một]


[b]


[c]


[d]


[a]

[b]

[c]

[d]

Hình 5  

Tóm tắt các phân loại APP được đề xuất. [a] Mô hình CNN. [b] Mô hình RNN. [c] Mô hình LSTM. [d] Mô hình BiLSTM

[i] Bộ phân loại dựa trên mạng thần kinh tích chập- [CNN-]. Mạng thần kinh tích chập, như một mô hình với hiệu suất ấn tượng, đã được nghiên cứu rộng rãi trong các vấn đề khác nhau bao gồm nhận dạng hình ảnh, nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên []. Để phân loại các ma trận nhúng kết quả, một mô hình có hai lớp tích chập một chiều, theo sau là lớp chuẩn hóa hàng loạt, lớp tổng hợp, lớp bỏ học để chuẩn hóa và cuối cùng là hai lớp được kết nối đầy đủ đã được phát triển. Trong mỗi lớp tích chập, 128 bản đồ tính năng song song và kích thước hạt nhân là 7, cùng với cùng một phần đệm, đã được áp dụng. Hình trình bày một bản tóm tắt của mô hình

[ii] Trình phân loại dựa trên mạng nơ-ron tái phát- [RNN-]. Mạng thần kinh tái phát đã thể hiện sự khéo léo tuyệt vời trong các nhiệm vụ phân loại văn bản. Nền tảng của RNN [] cho phép sử dụng đầu ra của bước trước làm đầu vào cho bước hiện tại. Nói lại, trong khi các mạng thần kinh truyền thống xử lý các đầu vào độc lập với nhau, RNN thao tác một tập hợp các đầu vào trước đó. Hơn nữa, trạng thái bên trong của RNN, hoạt động như bộ nhớ, trao quyền cho nó học hỏi từ thông tin trước đó và cấp đặc quyền xử lý các đầu vào tuần tự như văn bản. Trình phân loại dựa trên RNN đơn giản được đề xuất bao gồm hai lớp RNN đơn giản, tiếp theo là lớp chuẩn hóa hàng loạt, lớp tổng hợp, lớp bỏ học để chuẩn hóa và cuối cùng là hai lớp được kết nối đầy đủ. Một bản tóm tắt của mô hình được hiển thị trong Hình

[iii] Bộ phân loại dựa trên Trí nhớ Ngắn hạn Dài hạn- [LSTM-]. Các mạng bộ nhớ dài hạn ngắn hạn như một loại RNN được đề xuất để giải quyết vấn đề học phụ thuộc dài hạn []. Nói một cách đơn giản, các RNN đơn giản có một nhược điểm lớn; . Hai LSTM xếp chồng lên nhau, theo sau là lớp chuẩn hóa hàng loạt, lớp tổng hợp, lớp bỏ học để chuẩn hóa và cuối cùng là hai lớp được kết nối đầy đủ xây dựng thiết kế của mô hình phân loại dựa trên LSTM được đề xuất. Sơ đồ mô hình được mô tả trong Hình

[iv] Bộ phân loại dựa trên bộ nhớ ngắn hạn dài hai chiều- [BiLSTM-]. Thật vậy, như có thể suy ra, BiLSTM là một dạng LSTM hai chiều. Nói một cách đơn giản, LSTM là một mạng đơn hướng, sử dụng thông tin trước đó đã truyền qua nó theo hướng thuận trong quá trình xử lý chuỗi, trong khi mạng BiLSTM khai thác cả thông tin trước đó và thông tin trong tương lai theo hướng tiến và lùi, tương ứng. Nói thật là nó gồm 2 con LSTM. một phân tích chuỗi đầu vào từ đầu đến cuối theo hướng thuận và phân tích còn lại, từ đầu đến đầu theo hướng lùi []. Đầu ra cuối cùng là sự kết hợp của hai LSTM. Hai BiLSTM xếp chồng lên nhau, theo sau là lớp chuẩn hóa hàng loạt, lớp tổng hợp, lớp bỏ học và cuối cùng là hai lớp được kết nối đầy đủ, bao gồm kiến ​​trúc của trình phân loại dựa trên BiLSTM được đề xuất. Hình mô tả tóm tắt mô hình

Cuối cùng, phác thảo ngắn gọn về giai đoạn 3 như có thể thấy trong Hình 4 như sau. [i]Đầu vào. một tập hợp các ma trận nhúng;[ii]Đầu ra. nhãn dự đoán cho các đặc điểm OCEAN cho từng ma trận nhúng;[iii]Mục tiêu. dự đoán tính cách bằng mô hình phân loại đa nhãn.

Thuật toán 1 nêu chi tiết quy trình từng bước của phương pháp được đề xuất sẽ giúp hiểu rõ hơn về phương pháp

[1]Tập dữ liệu bài luận luận văn[2] Giai đoạn 1. Thực hiện các hoạt động tiền xử lý, bao gồm. [i] Tokenization  [ii] Loại bỏ tiếng ồn [dấu chấm câu, ký hiệu và từ dừng]  [iii] Chuẩn hóa [viết thường và từ vựng]  [iv] Nhận dạng thực thể được đặt tên [NER][3] Giai đoạn 2. Biểu diễn tri thức cho , cụ thể hơn. [i] Xây dựng biểu đồ tri thức [KG] tương ứng cho , thông qua DBpedia  [ii] Làm giàu KG thu được bằng cách sử dụng bản thể luận DBpedia, NRC và MRC  [iii . [i] Mô hình phân loại nhị phân đa nhãn dựa trên CNN để thực hiện APP  [ii] Mô hình phân loại nhị phân đa nhãn dựa trên RNN để thực hiện APP  [iii] Mô hình phân loại nhị phân đa nhãn dựa trên LSTM để thực hiện APP  [iv] Một đa nhãn dựa trên BiLSTM

Thuật toán 1  

Thuật toán của phương pháp đề xuất

5. Kết quả

5. 1. Số liệu đánh giá

Theo truyền thống, các mô hình phân loại được đánh giá thông qua một số chỉ số đánh giá nổi tiếng bao gồm độ chính xác, độ thu hồi, độ đo f và độ chính xác []. Có hai tập hợp xác định, đóng vai trò quan trọng đối với các giá trị của chúng, cụ thể là tập hợp các “nhãn thực tế” của các bài tiểu luận, đôi khi được gọi là bản vị vàng và tập hợp “các nhãn dự đoán của hệ thống”. ” Trên thực tế, đối với mỗi dự đoán trong một lớp nhất định [cụ thể là O, C, E, A và N], có bốn kết hợp có thể có của nhãn thực tế và nhãn dự đoán của hệ thống, bao gồm. [i]Dương tính thực [TP]. xảy ra khi nhãn thực tế là đúng và nhãn dự đoán của hệ thống cũng đúng;[ii]Phủ định đúng [TN]. xảy ra khi nhãn thực tế là sai và nhãn do hệ thống dự đoán cũng sai;[iii]Dương tính giả [FP]. xảy ra khi nhãn thực tế là sai, trong khi nhãn dự đoán của hệ thống là đúng;[iv]Phủ định sai [FN]. xảy ra khi nhãn thực tế là đúng, trong khi nhãn dự đoán của hệ thống là sai.

Về cơ bản, trong đánh giá hệ thống APP, TP và TN đóng vai trò chủ đạo, do thực tế là, trong các hệ thống phân loại như vậy, điều nổi bật là dự đoán thực sự rằng một văn bản nhất định thực sự thuộc về hay không thuộc về . Trong cả TP và TN, nhãn dự đoán của hệ thống bằng với nhãn thực tế; . Do đó, tỷ lệ các dự đoán chính xác của hệ thống trên tổng số dự đoán cho thấy chất lượng của dự đoán; . Tức là, .

Hơn nữa, độ chính xác và khả năng thu hồi cũng như giá trị trung bình điều hòa có trọng số của chúng, được gọi là thước đo f, truyền tải một số thông tin về hiệu suất của hệ thống phân loại. Độ chính xác [P] chủ yếu liên quan đến các dự đoán được dán nhãn thực của hệ thống. Nó tiết lộ rằng tỷ lệ dự đoán được gắn nhãn thực sự của hệ thống có nhãn thực tế. Nói cách khác, , trong khi thu hồi [R] chủ yếu liên quan đến nhãn thật theo tiêu chuẩn vàng. Nó cố gắng tiết lộ rằng tỷ lệ các mẫu được dán nhãn thực theo tiêu chuẩn vàng đã đạt được nhãn thực, sau dự đoán của hệ thống. Điều đó có nghĩa là .

Cả độ chính xác và khả năng thu hồi đều là chỉ số không đáng tin cậy trong đánh giá của hệ thống phân loại khi chúng được xem xét riêng rẽ. Nói cách khác, có thể có một số trường hợp đồng thời có giá trị độ chính xác cao và giá trị thu hồi thấp và ngược lại. Chủ yếu là do họ đưa tin một phần và báo cáo không đầy đủ. Do đó, f-đo lường được đề xuất để giải quyết vấn đề này. Trên thực tế, nó tạo ra sự cân bằng giữa độ chính xác và khả năng thu hồi và kết hợp các dữ kiện đi kèm của chúng; . . Tuy nhiên, nó vẫn còn một nhược điểm đáng kể. Trên thực tế, TN là một yếu tố nổi bật trong đánh giá hoàn toàn bị bỏ quên. Như một minh họa, nó bỏ qua tất cả các mẫu được dán nhãn sai chính xác theo hệ thống. Do đó, độ chính xác được ưu tiên hơn f-đo trong đánh giá hệ thống APP.

5. 2. Những kết quả đánh giá

Nghiên cứu này được thực hiện để thiết kế một hệ thống dự đoán tính cách tự động hỗ trợ biểu đồ tri thức và đánh giá hiệu quả của việc hỗ trợ biểu đồ tri thức của một hệ thống dự đoán tính cách. Theo đó, một cách tiếp cận ba giai đoạn đã được đề xuất, bằng cách tiếp nhận một văn bản, tiến hành thực hiện một số tiền xử lý trong giai đoạn đầu tiên, sau đó xây dựng, làm phong phú và nhúng liên tiếp biểu đồ tri thức tương ứng trong giai đoạn thứ hai, vì nó được xem xét kỹ lưỡng hoàn toàn trong Phần. Hình 6 cung cấp các kết quả thu được từ giai đoạn thứ hai cho một bài luận mẫu trong Essays Dataset. Cuối cùng, ma trận nhúng kết quả được phân loại thông qua bốn mô hình phân loại độc lập trong giai đoạn thứ ba và các nhãn dự đoán trong mỗi đặc điểm OCEAN đã được chỉ định. Phần này tóm tắt những phát hiện và đóng góp


[một]


[b]


[a]

[b]

Hình 6  

Biểu đồ tri thức cuối cùng thu được từ giai đoạn 2 cho một bài luận mẫu [2004_139] trong Essays Dataset [bao gồm 226.763 đỉnh và 532.146 cạnh]. Các cạnh và nhãn trong sơ đồ tri thức được phát ra để hiển thị rõ hơn. [a] Các đỉnh của biểu đồ tri thức [được cung cấp bởi Gephi, thuật toán ForceAtlas2]. [b] Biểu đồ tri thức nhúng trong không gian 2D

Cụ thể, có bốn mô hình phân loại APP được đề xuất, đó là các bộ phân loại dựa trên CNN, dựa trên RNN, dựa trên LSTM và dựa trên BiLSTM. Tuy nhiên, độ chính xác vượt trội hơn độ chính xác, thu hồi và đo lường f trong đánh giá của hệ thống APP và chúng tôi sẽ báo cáo kết quả đánh giá cho tất cả chúng. Mặc dù vậy, chúng tôi sẽ chủ yếu dựa vào độ chính xác. Tất nhiên, bất chấp sự thật đằng sau độ chính xác, độ thu hồi và thước đo f, tính khả dụng của các giá trị của chúng sẽ hữu ích khi so sánh các nghiên cứu vừa báo cáo kết quả đánh giá cho chúng, hơn là độ chính xác

Bảng 2 cung cấp các kết quả thu được từ việc đánh giá bốn bộ phân loại APP. So sánh các giá trị độ chính xác giữa bốn phân loại được đề xuất, kết quả nổi bật nhất đã đạt được thông qua BiLSTM. Cụ thể, nó có dự đoán chính xác nhất về tất cả các đặc điểm DƯƠNG so với các phân loại khác. Do đó, độ chính xác trung bình cao nhất đầu tiên trong năm đặc điểm đã đạt được bằng BiLSTM. Ngoài ra, LSTM đạt được độ chính xác trung bình cao thứ hai. Tuy nhiên, so sánh độ chính xác trong từng đặc điểm riêng lẻ cho thấy rằng nó có dự đoán chính xác hơn về O, C, E và A thay vì RNN và CNN, trong khi CNN ở N thực tế có dự đoán tốt hơn. Tuy nhiên, LSTM kết luận kết quả chính xác hơn là RNN đơn giản trong N. Sau đó, RNN vượt trội hơn CNN về mọi đặc điểm ngoại trừ N. Hình 7 so sánh các giá trị chính xác trong năm đặc điểm tính cách do bốn mô hình phân loại

Bảng 2  

Kết quả đánh giá cho các bộ phân loại APP được đề xuất, bao gồm các bộ phân loại dựa trên CNN, dựa trên RNN, dựa trên LSTM và BiLSTM



Hình 7  

Giá trị chính xác cho bốn phân loại APP được đề xuất, trong từng đặc điểm trong số năm đặc điểm tính cách trong mô hình Big Five [kết quả được làm tròn]

Như Bảng 2 cho thấy, xếp hạng tương tự xảy ra khi xem xét độ chính xác đã đạt được bằng các mô hình phân loại khi xem xét thước đo f trung bình. Điều đó có nghĩa là, BiLSTM, LSTM, RNN và cuối cùng là CNN lần lượt được xếp hạng đầu tiên đến thứ tư, mặc dù thứ hạng không kéo dài khi so sánh các giá trị f-đo riêng lẻ trong từng đặc điểm. Về các giá trị trung bình thu hồi, LSTM với một chút khác biệt so với BiLSTM và CNN có hiệu suất tốt hơn. Cuối cùng, trong số bốn phân loại được đề xuất, BiLSTM, LSTM, RNN và CNN lần lượt có dự đoán chính xác nhất, như có thể thấy trong Bảng 2

6. Thảo luận

Mục tiêu chính của nghiên cứu hiện tại là điều tra tính hiệu quả của hệ thống dự đoán tính cách tự động hỗ trợ biểu đồ tri thức. Do đó, chúng tôi đã sử dụng bốn bộ phân loại deep learning cơ sở đơn giản, được thiết kế giống nhau nhất. Hơn nữa, chúng tôi cố tình tránh thiết kế các mạng phức tạp để chỉ đánh giá hiệu quả của việc kích hoạt biểu đồ tri thức của hệ thống APP. Theo đó, chúng tôi đã đề xuất một bộ phân loại dựa trên CNN cũng như ba bộ phân loại lặp lại, cụ thể là một bộ phân loại dựa trên RNN đơn giản cùng với một bộ phân loại dựa trên LTSM và một bộ phân loại dựa trên LSTM- [BiLSTM-] hai chiều.

Liên quan đến các giá trị độ chính xác kết quả trong Bảng 2 cho mỗi bộ phân loại, rõ ràng là các bộ phân loại lặp lại thường dẫn đến kết quả tốt hơn, thay vì CNN. Có vẻ như những kết quả này là do khả năng xử lý thông tin tạm thời của chúng được trình bày theo trình tự đầu vào. Nói một cách đơn giản, các mạng hồi quy về cơ bản được thiết kế cho các vấn đề dự đoán trình tự như văn bản. Cụ thể hơn, họ có thể nắm bắt thông tin tuần tự, xác định chính xác các phụ thuộc hiện có giữa các từ trong suốt chuỗi từ đầu vào

Trong số ba mạng lặp lại được đề xuất, BiLSTM cho kết quả vượt trội. Trên thực tế, nó vượt trội hơn LSTM và RNN đơn giản, điều này dường như là do nó thực sự là một phiên bản nâng cao của LSTM, trong đó bản thân nó là phiên bản nâng cao của RNN đơn giản. Nói lại, các LSTM đã được đề xuất để giải quyết vấn đề của RNN trong việc lưu giữ thông tin qua một số dấu thời gian; . Do đó, công bằng mà nói BiLSTM cho kết quả tốt hơn LSTM và RNN đơn giản, và LSTM cho kết quả tốt hơn RNN đơn giản. Đây là những gì đã xảy ra trong tất cả các đặc điểm tính cách, mặc dù có một số khác biệt nhỏ trong một số đặc điểm. Vì vậy, kết quả thu được xác nhận kỳ vọng

Ngoài ra, bộ phân loại dựa trên CNN dẫn đến kết quả có thể so sánh được. Mặc dù thực tế là nó được xếp hạng thứ tư trong số bốn bộ phân loại, nhưng kết quả của nó rất gần với một số bộ phân loại lặp lại trong C và thậm chí nó còn vượt trội so với các bộ phân loại dựa trên RNN và LSTM đơn giản trong N. Chúng tôi suy đoán rằng điều này có thể là do khả năng tốt của bộ lọc trong việc trích xuất tính năng từ ma trận nhúng đầu vào

Các kết quả thu được từ bốn bộ phân loại được đề xuất có thể được so sánh với các hệ thống APP hiện đại, được thực hiện trên Bộ dữ liệu bài luận trong Bảng 3. Những kết quả này vượt xa những đóng góp trước đó, cho thấy rằng tất cả các phương pháp được đề xuất đều cho kết quả rõ ràng tốt hơn tất cả các phương pháp đó. Mặt khác, trong khi phương pháp được đề xuất xếp hạng đầu tiên của chúng tôi mang lại kết quả tốt hơn đáng kể, thì phương pháp được đề xuất xếp hạng thứ tư cũng vượt trội so với các báo cáo trước đó. Đây là một phát hiện quan trọng trong sự hiểu biết về sơ đồ tri thức cho phép hệ thống dự đoán tính cách tự động. Hơn nữa, người ta dự đoán rằng việc sử dụng các mô hình phân loại phức tạp hơn [như mô hình lai] sẽ dẫn đến dự đoán chính xác hơn

Bảng 3  

So sánh các kết quả thu được từ các phương pháp được đề xuất của chúng tôi và các báo cáo hiện đại trong APP từ văn bản, được thực hiện trên Bộ dữ liệu Bài luận

Cuối cùng, chúng tôi sẽ trả lời các câu hỏi nghiên cứu [như đã nêu trong phần Giới thiệu] theo quan sát của chúng tôi như sau. RQ. 1. Kết quả của thử nghiệm đã tìm thấy sự hỗ trợ rõ ràng cho việc kích hoạt biểu đồ tri thức của hệ thống APP. Trên thực tế, nó cho phép hệ thống APP mang lại kết quả chính xác hơn đáng kể. Cũng cần lưu ý rằng, trong nghiên cứu này, chúng tôi chỉ sử dụng các phần nhúng của biểu đồ tri thức thu được để thực hiện dự đoán tính cách, trong khi biểu đồ tri thức vốn bao gồm kiến ​​thức linh tinh về các khái niệm, có thể được sử dụng hiệu quả trong dự đoán tính cách tự động. RQ. 2. Phát hiện thú vị nhất là, khi phân loại các ma trận nhúng của biểu đồ tri thức, tất cả các bộ phân loại học sâu được đề xuất, cụ thể là các bộ phân loại dựa trên CNN, dựa trên RNN, LSTM và BiLSTM, đều vượt trội hơn đáng kể so với . Điều này rõ ràng đã được xác nhận khi so sánh kết quả của chúng tôi với kết quả của các nghiên cứu cũ. Bên cạnh đó, các quan sát thử nghiệm đã chứng minh rằng các bộ phân loại, dựa trên BiLSTM, LSTM, RNN đơn giản và CNN, mang lại kết quả tốt hơn, tương ứng, khi chúng được sử dụng để phân loại các phần nhúng của biểu đồ tri thức. RQ. 3. Về kết quả thu được từ một số bộ phân loại, rõ ràng là việc kích hoạt đồ thị tri thức của hệ thống APP giúp tăng cường hoàn toàn số lượng dự đoán chính xác về tất cả các đặc điểm tính cách của mô hình Big Five, mặc dù mô hình nâng cao không giống nhau trong tất cả các bộ phân loại.

7. Phần kết luận

Nghiên cứu hiện tại nhằm xác định tác động của việc kích hoạt biểu đồ tri thức đối với hệ thống dự đoán tính cách tự động. Để làm như vậy, một cách tiếp cận ba giai đoạn đã được đề xuất, trong đó một văn bản nhất định thực hiện một số quá trình tiền xử lý [bao gồm mã thông báo, loại bỏ nhiễu, chuẩn hóa và nhận dạng thực thể được đặt tên] trong giai đoạn đầu tiên. Giai đoạn thứ hai nhằm hướng tới việc đạt được một biểu diễn hiểu biết của văn bản đầu vào, cố gắng xây dựng biểu đồ tri thức tương ứng, sau đó làm phong phú thêm nó [sử dụng bản thể luận DBpedia, Từ vựng cường độ cảm xúc NRC và cơ sở dữ liệu ngôn ngữ tâm lý MRC] và cuối cùng là nhúng biểu đồ tri thức đã làm giàu. Cuối cùng, trong giai đoạn thứ ba, biểu đồ tri thức nhúng được đưa vào một số mô hình học sâu cơ bản [cụ thể là các bộ phân loại dựa trên CNN, dựa trên RNN đơn giản, dựa trên LSTM và dựa trên BiLSTM] để thực hiện dự đoán tính cách. Kết quả cho thấy hiệu quả mạnh mẽ của việc kích hoạt đồ thị tri thức trên hệ thống dự đoán tính cách tự động. Cụ thể hơn, những phát hiện chắc chắn đã xác nhận khả năng của phương pháp được đề xuất trong việc dự đoán tất cả năm đặc điểm tính cách của mô hình Big Five

Ý nghĩa thực tiễn lớn nhất của nghiên cứu này là cung cấp cơ sở hành vi giống con người cho máy móc trong một nhiệm vụ cụ thể, cụ thể là dự đoán tính cách tự động. Vì hành vi thông minh của con người là hệ quả của khả năng nhận thức của anh ta/cô ta, trong đó nó là kết quả của việc thể hiện tri thức về các khái niệm của thế giới; . Điều đó có nghĩa là, cung cấp một đại diện toàn diện về các khái niệm xuất hiện trong văn bản đầu vào mô hình hóa nhận thức của con người cho máy, cho phép máy thể hiện hiệu suất giống như con người. Các kết quả thu được, cũng như so sánh các phát hiện với kết quả của các nghiên cứu khác, đã xác nhận tuyên bố này

Trong công việc trong tương lai, chúng tôi dự định điều tra các mô hình học sâu phức tạp hơn, để đạt được những dự đoán chính xác hơn. Nghiên cứu hiện tại chỉ kiểm tra tính hiệu quả của hệ thống dự đoán tính cách tự động hỗ trợ biểu đồ tri thức và do đó để giảm thiểu tác động của các yếu tố bên ngoài càng nhiều càng tốt, nó chỉ dựa vào các mô hình học sâu cơ sở đơn giản. Đồng thời, vì biểu đồ tri thức kết quả thường rất lớn, nên cũng cần có nhiều nghiên cứu hơn để tìm ra cách đối phó với nó. Ngoài ra, cần có thêm các nghiên cứu thử nghiệm để xem xét các phương pháp nhúng biểu đồ khác và xác định hiệu quả của chúng. Ngoài ra, việc áp dụng phương pháp được đề xuất trên các bộ dữ liệu khác nhau trong các mô hình tính cách khác nhau có thể làm sáng tỏ hơn về hiệu quả của phương pháp được đề xuất. Nói rộng hơn, phương pháp biểu diễn tri thức được đề xuất có khả năng thực hiện các nhiệm vụ khác, liên quan đến văn bản, vì nó cung cấp một biểu diễn hiểu biết hơn về các thành phần văn bản cho máy móc. Do đó, vấn đề biểu diễn tri thức là một vấn đề hấp dẫn, có thể được khám phá một cách hữu ích trong một số nghiên cứu.

Dữ liệu sẵn có

Dữ liệu được sử dụng để hỗ trợ các phát hiện của nghiên cứu này có sẵn từ tác giả tương ứng theo yêu cầu

Chủ Đề