国产成年女人特黄特色毛片免_日本亚洲国产中文一区二区三区_国产精品福利一区_亚洲MA无码免费观看_欧美日韩一卡2卡三卡4卡乱码视频

生活 >

【時快訊】一種創(chuàng)建單詞列表的更好的新方法

時間:2023-03-14 11:06:58       來源:萬能網(wǎng)

單詞列表是許多領(lǐng)域的大量研究的基礎(chǔ)。ComplexityScienceHub的研究人員現(xiàn)已開發(fā)出一種算法,可以應(yīng)用于不同的語言,并且可以比其他算法更好地擴展單詞列表。

許多項目都是從創(chuàng)建單詞列表開始的,不僅在創(chuàng)建思維導(dǎo)圖的公司中如此,而且在所有研究領(lǐng)域也是如此。想象一下,您想通過分析Twitter帖子來了解人們在哪幾天心情特別好。僅僅尋找“快樂”這個詞是不夠的。

相反,您將不得不使用一種算法來檢測所有表明某人快樂的推文?!耙虼?,第一步是創(chuàng)建一個包含所有表明這一點的詞的列表。整個研究都是這樣做的,”維也納復(fù)雜性科學(xué)中心的研究員AnnaDiNatale解釋說。但是如何得出最準(zhǔn)確、最完整的單詞列表呢?


【資料圖】

一個很多人都關(guān)心的問題

這個普遍存在的問題不僅涉及想要了解公眾如何接受政客言論的輿論研究人員。公司也想通過情緒分析了解他們的產(chǎn)品是如何被感知的。

為了改進,DiNatale現(xiàn)在開發(fā)了一種名為LEXpander的新方法,該方法在兩種不同語言(德語和英語)中的性能優(yōu)于以前的算法。此外,有史以來第一次,她開發(fā)了一種完全可以比較不同工具的方法。

提高性能

與其他四種詞表擴展算法(WordNet、Empath2.0、FastText和GloVe)相比,LEXpander的表現(xiàn)要好得多,尤其是在德語中。例如,研究人員發(fā)現(xiàn),LEXpander在擴展英語單詞列表以獲得積極意義時,猜對了43%的單詞。相比之下,現(xiàn)有的流行模型FastText只有28%的時間是正確的。

獨立于語言本身

原因是該工具獨立于語言工作。它不是基于一種語言,而是基于所謂的colexification網(wǎng)絡(luò)。這一公認(rèn)的語言概念基于同音異義詞和多義詞,即具有兩個或更多不同含義的單個詞。例如:古希臘詞φìρμακον(pharmacon)可以表示藥物或毒藥。這是兩件不同的事情,但主題很接近。但還有其他一些并不暗示親屬關(guān)系——例如作為金融機構(gòu)的“銀行”或河流沿岸的土地。

“如果你用多種語言收集它們——在這里我們分析了大約19種不同的語言——你可以看到它們之間的聯(lián)系,”DiNatale說。當(dāng)這些并置化以跨不同語系的多種語言發(fā)生時,網(wǎng)絡(luò)就形成了,從而建立了聯(lián)系。

這種與語言本身的獨立性允許LEXpander在不同語言中取得更好的效果?!坝性S多針對英語開發(fā)的方法。它們工作得非常好,而且很快,每個人都在使用它們。嘗試將它們應(yīng)用于其他語言是可行的,但如果你已經(jīng)開始為德語或語開發(fā)方法,效果可能會差很多,”迪納塔萊解釋道。

對于COVID等新主題很重要

對于許多主題,已經(jīng)有很好的單詞列表。但對于新主題(例如COVID),必須創(chuàng)建新主題。到目前為止,它們通常是在同事之間集思廣益時手工創(chuàng)建的,并使用了多種工具來提供幫助。但直到現(xiàn)在還沒有辦法比較它們。

AnnaDiNatale和她的團隊現(xiàn)在創(chuàng)造了這種可能性,并且還開發(fā)了一種性能優(yōu)于其他工具的新工具。這可以成為未來各個領(lǐng)域許多研究項目的重要基石。

關(guān)鍵詞:

首頁
頻道
底部
頂部
閱讀下一篇