python如何提取文本信息?

乐乐1年前 (2023-11-19)阅读数 42#技术干货

文章标签标记

python如何提取文本信息?

1、信息提取

先用句子分段器将文档的原始文本分成句子，再用记号赋值器将每个句子进一步分成单词。其次，给每一个句子做词性标记。以nltk中的默认工具为例，将句子分段器、分词器、词性标记器连接。

defie_preprocess(document):

#nltk默认的句子分段器

sentences=nltk.sent_tokenize(document)

#nltk默认分词器

sentences=[nltk.word_tokenize(sent)forsentinsentences]

#nltk默认词性标记

sentences=[nltk.pos_tag(sent)forsentinsentences]

2、词块划分

词块划分是实体识别的基础技术，对多个词的顺序进行划分和标记。

如NounPhraseChunking(名词短语词块划分)

使用正则表达式来定义一个语法，来进行名词短语词块的划分

3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是，不是确定每个单词的正确单词性标记，而是根据每个单词的单词性标记，确定正确的单词块标记。

#使用一元标注器建立一个词块划分器。根据每个词的词性标记，尝试确定正确的词块标记。

classUnigramChunker(nltk.ChunkParserI):

#constructor

def__init__(self,train_sents):

#将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word，tag，chunk)的列表

train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]

forsentintrain_sents]

#训练一元分块器

#self.tagger=nltk.UnigramTagger(train_data)

#训练二元分块器

self.tagger=nltk.BigramTagger(train_data)

#sentence为一个已标注的句子

defparse(self,sentence):

#提取词性标记

pos_tags=[posfor(word,pos)insentence]

#使用标注器为词性标记标注IOB词块

tagged_pos_tags=self.tagger.tag(pos_tags)

#提取词块标记

chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]

#将词块标记与原句组合

conlltags=[(word,pos,chunktag)for((word,pos),chunktag)

inzip(sentence,chunktags)]

python如何提取文本信息?

#转换成词块树

returnnltk.chunk.conlltags2tree(conlltags)

以上就是python提取文本信息的方法，希望能对大家有所帮助，更多Python学习教程请关注IT培训机构:开发教育。

鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com

免责声明：我们致力于保护作者版权，注重分享，当前被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱：344225443@qq.com)

图片声明：本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明：本文中引用的各种信息及资料（包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主体（包括但不限于公司、媒体、协会等机构）的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理！本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)