项目背景从剧本的格式化文本中抽取网络的挑战主要集中在角色间关系的发现、认定与度量上。目前来讲,主要有两类方法,即基于同现的(co-occurrence)和基于对白的(line)。同现类方法的思想是,如果发现两个角色在某个场景(或舞台、段落、章节等)中同时出现,那么就将彼此用无向边相连接,其权重(往往表示亲密度)可以是他们协同出现的次数,也可以是他们间相隔文字(或行数)的倒数。对白类方法是建立在同现类基础上的,并以角色间的台词为直接考察对象。对于角色间有连接的判定,具体方法较多。有研究认为,两角色同在某场景内出现并均有发言即可;另有研究指出,两角色的发声如果先后再现,那么他们之间就是关系;更有研究通过台词间的距离来判定两角色间亲疏(反比);尚有研究利用了一个指数,即角色X台词中提及角色Y与否次数,作为XàY的权重(零代表无关)。再则就是利用自然语言处理(Natural Language Processing, NLP)技术,来辨析角色台词的针对性,并做出较准确的角色有向连接。对于同现类方法,所抽取出的虚拟社交网络精确度较难保障,其原因在于该类方法无法保证以下三点:1)两角色是否确实有面对面的机会,特别是通过行距与阈值来划分的场景;2)他们之间存在是否真实存在某种直接联系,即使直面对方;3)所抽取的角色关系没有指向。由于多数剧本的主体是角色对话,因此对白类方法相对更常用,但依然存在着一些需要改善的地方。对于非语义式,无法相对精准地挖掘角色间的直接联系是硬伤;对于自然语言处理式,通过训练,可能对部分剧本较准确,但是对于不同时代、不同风格、不同题材的海量剧本库来讲,其挖掘效果就会大打折扣,同时其复杂度也比其他算法要高,不利于扩展。2、技术创新点本技术的目的是通过舞台指示的解析来快速抽取剧本的角色网络。为了达到上述目的,本技术是提供了一种面向剧本的非语义式社交网络抽取方法,其特征在于,包括以下步骤:步骤1、对剧本中的角色、对白与舞台指示进行重新排版,形成剧本元素格式统一的规格化文档,其中,关于角色及舞台指示中出现的不定代词或连接词利用动态舞台来进行解析,从而用具体的角色名来替代:对于行时刻而言,其动态舞台由所有在舞台上的角色组成,即,表示角色,舞台或舞台上的角色随着情节的推进而动态变化,通过舞台指示中角色上下场提示信息来跟踪;步骤2、对步骤1得到的规格化文档进行全本扫描,收集剧本中出现的不同角色;步骤3、建立角色间的有向连接;步骤4、计算各有向连接的权重。3、技术的成熟度本技术面对海量戏剧剧本能够即时起用,无视它们间的异构特征(如时代、题材、作者、流派等)而给出较准确的虚拟社交网络表达,是亮点。能够协助文学鉴赏家与戏剧评论家,在短时间内对海量电子剧本进行初步理解与粗细条比对,特别是面向社交网络的分析,并有利于后续的分类、评判,甚至是剧本的自适应构建。4、技术的实用性和适用领域本技术涉及一种快速抽取剧本的角色网络(角色为节点,关系为连接,即剧本的虚拟社交网络)的方法,从而方便文学评论家对海量电子剧本进行在线比较与实时理解。