cntext 是专为社会科学实证研究者设计的中文文本分析 Python 库。它不止于词频统计式的传统情感分析,还拥有词嵌入训练、语义投影计算,可从大规模非结构化文本中测量抽象构念——如态度、认知、文化观念与心理状态。 cntext 不追求黑箱预测,而致力于让 ...
在自然语言处理(NLP)领域,很多人会问:如何从零开始,构建一个真正可用的 NLP 流水线? 常见的教程往往只聚焦于某一个环节,比如“训练一个 Word2Vec 模型”或者“跑一次 LDA 主题建模”。但在真实项目中,往往需要一个系统性的流程:从原始文本 → 预 ...
Python 的 emoji 库是一个用于处理表情符号(Emoji)的第三方库,可以方便地在字符串中添加、移除或转换 Emoji 符号。 在使用即时通讯软件与朋友聊天时,我们常常发送一些表情来表达情感,丰富文字的内涵。这些表情符号并不是图片,而是文字。 当前,计算机 ...
Gensim是一个专为自然语言处理(NLP)和信息检索(IR)设计的Python库,它以其强大的主题建模和文档相似性分析功能而广受欢迎。通过Gensim,研究人员和开发人员可以高效地处理和分析大规模的文本数据,挖掘出隐藏在数据背后的信息。本文将详细介绍Gensim的 ...
机器学习和自然语言(QQ群号:436303759)是一个研究深度学习、机器学习、自然语言处理、数据挖掘、图像处理、目标检测、数据科学等AI相关领域的技术群。其宗旨是纯粹的AI技术圈子、绿色的交流环境。 本书介绍 大数据应用技术与我们日常生活密切相关 ...
PDF文献是学术研究中必不可少的资源,但是如何快速准确地找到所需信息却是一个难题。本文将介绍一种基于关键词词频统计的PDF文献分析方法,帮助读者更加高效地进行学术研究。 一、PDF文献关键词提取 首先需要从PDF文献中提取出关键词。常用的PDF阅读器如 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果