文汇︱王兆鹏的大数据证明唐诗第一是《黄鹤楼》,名作多在落后地区完成
“李、杜在中国诗歌史上一直双雄并峙,但从名篇的数量来看,李白稍逊于杜甫。”4月29日,我国著名诗词专家,王兆鹏做客上海古籍书店,以“唐诗大数据”为题,跟大家讲了讲大数据时代下的诗词研究。
中国有句俗语,说“文无第一,武无第二”,练武可以出来一较高下,可作文章却不一样,很难分出高低来。这一方面是因为判断标准的不同,一方面也是因为比较的因素很难被量化。但王兆鹏却说,这是大数据的时代,以往只能作定性的文学研究,如今也可以作定量分析,并且作出的结论也须要数据的支撑。所以在王兆鹏的排行榜上,我们可以看到谁的作品影响力更大,李白和杜甫谁更厉害。
《黄鹤楼》夺得唐诗第一,杜甫、李白分列诗人前二
先来看一看排行榜。根据采集到的大量数据,王兆鹏制作了自己的数据库和排行榜,如唐诗的百首名篇排行榜、十大诗人排行榜。唐诗的第一名篇是崔颢的《黄鹤楼》。十大名篇,依次是:崔颢《黄鹤楼》、王之涣《凉州词》(黄河远上白云间)、杜甫《登高》、王之涣《登鹳雀楼》、张继《枫桥夜泊》、李白《蜀道难》、杜甫《登岳阳楼》、柳宗元《登柳州城楼》、王勃《送杜少府之任蜀州》、白居易《琵琶行》、杜甫《闻官军收河南河北》、王湾《次北固山下》。由于末三首得分完全相同,难分高下,故十大名篇实际为12篇。在这十大名篇中,杜甫独占3首,王之涣占2首,其他7人各为1首。
百首名篇,由36人分占,人均2.8篇,超过平均数3篇以上的正好是10人(另占2篇的4人、1篇的22人)。三百首名篇(含百首名篇),由74人分摊,人均4篇,达到4篇以上的为21人,另占3篇的4人、2篇的13人、1篇的36人。有趣的是,在这三百首名篇之中,名列前十位的也正好是百首名篇中位居前列的十家,除第九名的白居易和第十名的岑参名次略有变化之外,其他八人的名次完全相同。所以,王兆鹏据此制作了十大诗人排行榜:第一名:杜甫、第二名:李白、第三名:王维,以下依次是:李商隐、杜牧、王昌龄、孟浩然、刘禹锡、白居易、岑参。
“李、杜在中国诗歌史上一直双雄并峙,但从名篇的数量来看,李白稍逊于杜甫。”王兆鹏说道,“杜、李、王三人高居榜首,可称唐诗的三大‘天王’。尤其是杜、李,作为唐代诗坛的双子星座,分别以诗圣、诗仙之名震耀千秋,他俩创作的名篇数量之多亦分别居前一、二名。在百首名篇中,杜甫有16首,占百首名篇的16%,其次是李白,为13首,占13%。再从三百首名篇来看,也是杜甫和李白最多,二人分别为52首和38首,分别占17%和13%。二人在百首名篇和三百首名篇中所占比例基本相同。由此可见,诗圣杜甫和诗仙李白二人在中国诗史上的崇高地位,的确是不可移易的。”
对崔颢的《黄鹤楼》夺得榜首,王兆鹏也表示很意外,但也做了分析。首先,它得益于“第一发现人”——大诗人李白的高度认可和赞誉。李白读此诗后曾感叹“眼前有景道不得,崔颢题诗在上头”,自以为难以企及和超越。这无疑极大地提高了此诗的知名度。其次,历代诗评家也曾给予极高的评价,如宋代严羽的《沧浪诗话•诗评》说:“唐人七言律诗,当以崔颢《黄鹤楼》为第一。” 再从选本的情况来看,唐宋以来的选本,都高度关注此诗。
苏轼最爱往外跑,留名篇的大多是外地人
大数据不仅可以作排行榜,还可以得出很多有意思的结论。王兆鹏一直以来都致力于诗词的量化研究,前不久,由王兆鹏主持制作的《唐宋文学编年地图》历时五年成功上线。作家的年谱是以时间为轴线的,而他们的行走轨迹则需要自己去查阅历史地图才能确定空间位置。这两者的文献资料大多是分散的,查阅时很不方便。“如果能把前人的年谱和行走轨迹全部结合起来,打通时空的维度,这将会为大家提供很大的便利。”王兆鹏曾在采访中说道。
▲苏轼一生行迹 |
现在,有了这样一张电子地图,我们就可以清晰地知道一个作家一生的行迹以及在何地写了哪些作品。点开地图上的城市名称,就能看到有多少诗人来过、在这里写下了多少诗;选择一位诗人,则能看到他一生活动的轨迹。
谁是最爱往外跑的诗人呢?王兆鹏认为大概是苏轼:“他一生的轨迹信息高达近万条,遍布全国各地,我们统计和录入时都累坏了!”
根据这些信息,还可以知道唐宋诗人地域的分布格局。据介绍,唐代有时代。籍贯可考的诗人有1686人,北方诗人有949人,占56.3%;南方为737人,占43.7%,北方略占优势。到了宋代,北方诗人为786人,南方为4908人,占86.2%,南方占绝对优势。而浙江一省就有1437人,占到25.2%,一省诗人占了全国的四分之一。在唐代,河南籍的诗人最多,有236人,占了15.6%。
诗人不仅在地域上南北分布是不均衡的,在落后发达地区分布也是不均衡的,但结果出乎意料。据王兆鹏介绍,诗人虽然都是向文化政治中心集中,但是创作的优秀作品大多在落后的地区完成,在失意受贬谪的地区才更可能诞生名篇。而且优秀作品的作者大多不是本地人。“比如黄州、惠州打名片就爱说苏轼,可苏轼是四川人,写黄鹤楼那么多名篇,可没有一个人是湖北人写的。”王兆鹏说道。
大数据视野下的诗词研究
王兆鹏是从自己的方法论——数据采集讲起的。唐诗需要哪些数据呢?王兆鹏认为,数据的采集主要有三个方面:一:作家数据,其中包括时间、地域、身份诸项,即作家的生卒年月、创作起始时间、出生地、去世地、活动地点和在社会上扮演的身份等。二:作品数据,即作品的分体、分类、版本、编年、系地等诸项因素。三:读者数据,其中又有普通型读者、专家型读者和作家型读者三项分别。
▲王兆鹏在活动现场 |
数据又从哪里来呢?以唐诗为例,如作家、作品数据就可以根据现有的文献资料进行采集,如《全唐诗》、《全唐文》、《中国文学家大辞典》和诸多的年谱及生平考证等。如果说作家作品的数据是静态的,那么读者数据就是动态的。要判断一个诗人、一部作品的影响就得大量采集读者数据。针对普通型读者,王兆鹏认为就可以根据历史上的各种诗歌选本,采用唐宋金元明清以及现当代有代表性的70种诗歌选本进行统计,看每首作品入选的次数是多少。入选率越高,表明其受欢迎的程度越高。还可以根据网络上的数据,统计一首诗出现的频率有多少。还有根据被引用的频率判断哪一首诗进入日常生活。针对专家型读者,就得采集评点资料和研究论文的相关数据。每种资料对作品的评点,无论是褒是贬,是艺术分析还是记述本事,都按一次来统计。评点的次数越多,说明作品受关注的程度越高。反之亦然。
针对作家型读者这一项,王兆鹏指出,数据的采集相对有难度,比如要判断一个诗人是否对另一个诗人有“追和”和效仿,如何去定量分析的工作就很少有人做。但计算机的技术是成熟的,需要我们更进一步地对文学的量化,比如用计算机研究宋词的“追和”就比较容易些,因为它有特定的句式和用韵。“但是要把所有宋词中的‘追和’都找到,那可能一年都搞不定,但是用计算机两个小时就搞定了。只有你想不到的问题,没有计算机解决不了的问题。”王兆鹏说道,“我们现在的研究尽可能用计算机来处理,这可以提高工作效率和文献使用率。”
王兆鹏认为,虽然排行榜只有相对的意义,可反映其影响力的大小,而不是绝对的价值衡定。但是数据得出的结论并不是个人主观的结论,“数据不能解决所有的问题,但是能解决以前解决不了的问题。”王兆鹏说道,“定量分析不能替代定性分析,未来的文学研究应该是定性与定量研究并行,主观判断往往是靠不住的,大数据时代的结论需要数据支持。”
*文汇独家稿件,转载请注明出处。
来源:文汇
责任编辑:李勤余
频道邮箱:whapp2@whb.cn
> 我来回应