知乎上有人提問:GitHub 上有哪些有趣的關於 NLP 的Python專案?
先來說說什麼是NLP?
自然語言處理(NLP)的重點是使計算機能夠理解和處理人類語言。計算機擅長處理結構化資料,如電子表格;然而,我們寫或說的很多資訊都是非結構化的。
自然語言處理的目標是使計算機能夠理解非結構化文字並從中提取有意義的資訊。多虧了spaCy和NLTK等開源庫,我們只需幾行Python程式碼就可以實現許多NLP技術。
說到Github上的NLP專案,這裡強烈推薦一個36。9K star的倉庫:
「funNLPPublic」
這是一箇中文NLP專案,作者聲稱是NLP民工的樂園: 幾乎最全的中文NLP資源庫
我仔細看了該專案資源的結構,主要是分為各類行業詞庫、語料庫、分詞處理工具、語義判別工具、正則應用工具、NLP開源演算法、行業技術報告、各種NLP處理框架等等
凡是中文領域NLP沾邊的地方,作者通通匯總了相關資源,對初學者來說是不錯的一個檢索倉庫。
雖然看起來比較亂,作者沒有去做詳細的歸類,但良心在於很全,能讓你輕鬆地玩轉各種nlp知識,也不失趣味。
下面分別舉例一些資源,供大家參考,詳細的可以去github倉裡自行查詢
行業詞庫、語料庫(IT、汽車、醫學、動物、財經、法律等)
NLP論文、行業報告
PDF文件處理
語音處理工具
行業應用場景
nlp框架和工具
當然上述案例只是該專案的一小部分,我看了下總共有將近400個NLP資源,非常全。
其他關於NLP的好專案也很多,比如NLP-progress、HanLP、spaCy、jina等等,大家可以自己去探索下。
加入知識星球
【我們談論資料科學】
500+
小夥伴一起學習!