学术殿堂之重器      学术历史之奠基
  • 年鉴年份:
  • 主编:       
  • 年鉴名称:
请输入关键词
请选择来源年鉴
  • 年鉴年份:
  • 主编:       
  • 年鉴名称:
当前位置:首页 >>中国文学年鉴2016卷 >>文献详情

大数据时代的古典文学研究

来源: 中国文学年鉴2016 >> 论文摘要 作者: 刘京臣 浏览次数:21
摘要:  大多数基于图像内容的检索系统都是通过对不同图像进行相似度的计算来实现检索,但图像来源的不同,往往带来图像质量的差异,这必然影响检索的效果,因而学界又提出了基于语义分析的图像检索方法和面向用户的web图像检索技术。检索对研究者而言,便可实现由“文本”到“文本” ( Text-Text ) ,上升到由“文本”到“图像” ( Text-Image ) 、 “图像”到“图像” ( Image-Image ) 。三是图像检索能够最真实、直观地体现出不同文献之间的细微差异性,并能以数据化的言语描述和原始图像呈现,这样就能避免原来由“图像”到“文本” ( Image-Text )可能带来的识别错误。
  • 在线阅读
  • 原书中阅读
  • 大数据时代的古典文学研究
    作者: 刘京臣

    信息技术极大地推动了古典文学研究,这已成为学界共识。具体来说,这一推动主要表现在数据采集、数据检索等方面。社会已然进入了以大数据、云计算为代表的“挖掘时代”。对结构化文本的数据分析、对非结构化文本的数据挖掘,是文本研究领域的发展方向。图像检索随之被广泛应用于医疗、遥感、测绘等领域,并取得了相当成就。这些对传统的古典文学学科而言,是机遇,也是挑战。我们将文献分为两大类:一类是已经被机器识别(如txt、doc、rtf等文档)或可以直接被机器识别的文本文献;另一类是尚不能被机器直接识别的(如稿抄本中的疑难文字等)图像文献。

    “结构化文本的数据分析”包含这样三个概念。其一,“结构化文本”主要是指诗、词等体式较为固定的文体。其二,“结构化文本”还指排除掉文字识别、大字符集、分词、断句等因素干扰,完全满足用户需求的、已进行过标注与分类的数据。同时,还要尽可能多地加载满足分析所需要的第三方文献库——一类是具有词典性质的基础文献库;另外一类是已经数字化的历代研究者的研究专著。

    “数据分析”,是“数据检索”基础上的自动化分析,诸如以下三类结构化文本基本可以借助数据分析来实现预期设想。1.诗词韵、律等外部体式分析。2.诗歌用语与题材研究。3.文体互动、言说模式的提取。“结构化文本”的自身特征恰好具有较为明显的“特征”,所以面对这类文本,数据分析基本可以满足我们的需求。但大数据往往是“非结构化文本”,提取特征比较困难,这时就要用到“深度学习”(Deep Learning)。深度学习的动机是模拟人脑进行分析学习,它模仿人脑的机制来解释数据。数据挖掘面对的数据是海量的、杂乱的、无序的、非结构性的,通过挖掘,寻绎出数据中间隐含的、先前未知的并有潜在价值的信息。“非结构化文本”的数据挖掘,更多地体现出不可预知性,这也正是技术赋予古典文学信息化的魅力所在。

    1.文献辑佚。例如我们想对魏野诗歌进行梳理,只需选取《东观集》与其他文献进行挖掘即可。

    2.数据挖掘与GIS相结合。我们从事某项研究时,常会考虑事件的前因后果,当时的社会背景、时代风尚,对周边同仁和后人产生何种影响等等。比如利用GIS,并结合数据挖掘,再在时间纬度的基础上一并考虑空间维度,所得出的结论往往更有学理性——因为有大量的数据可以依赖。

    3.大数据视野下的文史哲融通观。传统学术要求从业者有较为融通的文史哲理念,对信息化而言更是这样,特别是大数据时代,多学科之间多元并参,会产生许多不可预知的论断。

  • 中国文学年鉴2016卷

    出版社:中国社会科学出版社

    出版日期:2017-01

    章节:《中国文学年鉴2016》 \  论文摘要

    在原书中阅读
  • 相似文献
  • 论儒家经典诠释的层级性

    来源: 中国哲学年鉴2016 \ 论文荟萃

    儒家经典的形成、传衍和流布是一个漫长的历史过程,在不断的诠释过程中,文本的内蕴逐渐丰厚化,其所传达的意义也因理解和解释的多样性而不断地扩展、弥散乃至歧出,形成了包容深广、意味无穷的思想原核。从经、传记、注疏、义理等儒家经典解释的层阶出发来把握儒家的内在机理,可以使我们对儒家发展的历史获得一个更好的理

    2010—2012年计算语言学科研究综述

    来源: 中国民族研究年鉴2010-2012 \ 第一篇 学科进展

    在数字化发展的今天,为了逾越民族地区信息化、数字化的鸿沟,缩小民族地区经济社会发展的差距,维护边疆地区社会稳定、民族团结,我国民族语言信息处理逐渐成为政府机关、科研院所极为重视的研究领域。尤其是针对蒙、藏、维文信息处理的资助不断增加,使我国民族语言信息处理领域百花齐放。当前少数民族信息处理包括字、词

    《文体与图像》

    来源: 中国文学年鉴2015 \ 论著评介

    身为形式美学的代表学者,赵宪章一贯倡导“通过形式阐发意义”,该书就是这一原则的充分体现。全书共25万字,汇集了作者十年来对文体的研究成果,以及关于“文学与图像关系”的探索,反映了作者的学术转向。全书以《对话文学理论之现实关怀》作为开篇前言,认为文学理论首先应当定义为“文学作为语言艺术的理论”,即从语言

    “民俗文本”的意义与边界——作为“文化实践”的口头艺术

    来源: 中国民俗学年鉴2015 \ 第六篇 重要论文摘编及摘要

    该文试图基于语言学、符号学以及语言人类学对于“文本”的思考,追问“民俗文本”的界限,同时考察获得“民俗文本”之“意义”的可能性,反思民俗学(考察)“意义”问题的局限性。一 符号学中“文本” 20世纪以来,以纯粹语言学的方式去理解“文本”的方法已经被抛弃,学者们开始尝试把“文本”还原到“交流事件”本身。受

中国文学年鉴

请输入收藏夹名称
您确定要删除吗?