-
斑斑斑比:文本挖掘林夕、黄伟文的43万字歌词,他们到底在唱些什么?
关键字: 林夕歌词黄伟文歌词林夕黄伟文林夕黄伟文歌词分析(转自:大数据文摘|bigdatadigest,作者:斑斑斑比)
在我十几年的听歌生涯里,熟悉的歌曲可以说有80%以上的作词,都是出自香港两大金牌词人——林夕和黄伟文之手,粉丝界也出了不少文章从二人的韵脚使用、意识形态、选材议题尤其是爱情观等角度做分析,甚至网络上还有流传"林夕引进门,皈依黄伟文"的说法。作为他们的迷妹,并且最近恰好在看一些关于文本挖掘的文章,忍不住从文本挖掘的角度对他们的歌词做了一个颇粗浅的分析。
首先我通过Python爬虫在虾米音乐上抓取了所有他们的歌词文本,对比了虾米、网易云和QQ三大音乐门户,虾米上收录的比较全,但是抓取下来的数据也不能保证囊括了两人出道来所有的作品,所以呢结果仅作参考。
对抓取结果进行去重和去空文本后,约43万字,其中夕爷跟歪闷字数比例7:1左右,从文本歌曲数来看,夕爷跟歪闷大约一个8:1的比例,看来歪闷单曲平均字数更丰富(话唠)?夕爷年均产量63首,歪闷年均产量11首。可以说夕爷绝对属于天道酬勤自带天赋的努力型选手,这应该也是夕爷在大陆知名度更高的主要原因,生产力带动了市场覆盖率,虽然歪闷没有夕爷那么高产,不过在含金量方面应该是更胜一筹的多金型选手,毕竟分母更小。
接下来是对他们两人所有的歌词文本通过Python库(主要是jieba、snownlp)作分词、词性处理和情绪分析。我把每个文本里的"你、我、他"等单字和oh yeah之类的语气词去掉后,用剩下的词语分别生成了两人肖像字符云,上图是夕爷,下图是歪闷(排名不分先后)
"没有"是两人词云里最突出的词
"没有"是两人词云里最突出的词,前段时间有篇文章分析了香港四十年来歌曲关键字的变化,说在90年代后,歌坛关键词从以前的"相思、鸳鸯、我心"切换成了"没有",词云的结果就刚好对应上了这个结论,90年代后,夕爷和歪闷包揽了香港歌坛绝大部分传唱度高的词作,而这两人使用频度最高的词就是"没有"。
夕爷的重点关键词:没有、一个、为何、怎么、什么、我们……
歪闷的重点关键词:没有、一个、如何、什么、可以、为何……
从词性方面看两人平常惯用的招式
下图分别是夕爷和歪闷的词性使用频度
从词性来看两人惯用的前9招几乎是一模一样的:动词>名词>副词>形容词>代词>数词>连词>人名>时间词。一直到地名、其他名动词和方位词等才开始有所差别。
为了看两人具体用词的差别,我对动词,名词等常用词接着做细分,上图夕爷,下图歪闷
两人动词排名靠前的也很接近:没有、得到、需要,知道。在没有之后,有"需要",想"得到",也有领会("知道"),区别似乎是夕爷的在没有之后是"不会""恋爱"还念着"拥抱"("靠拥抱亦难任你拥有"——《富士山下》),歪闷的是"继续""恋爱"但是"害怕""没法"子("害怕一直也再没法恋爱"——《耿耿于怀》)。
- 原标题:文本挖掘林夕、黄伟文的43万字歌词,他们到底在唱些什么? 本文仅代表作者个人观点。
- 责任编辑:李泠
-
重庆通报“燃气费异常”:燃气集团党委书记被免职 评论 42“伊以都在降调”,国对国直接打击结束? 评论 65以色列“有限复仇”:选在了伊朗核计划中心 评论 354以色列“报复”开始:伊朗多地传出爆炸声 评论 5885.3%,一季度“开门红”能转化为“全年红”吗? 评论 153最新闻 Hot
-
以色列“有限复仇”:选在了伊朗核计划中心
-
5.3%,一季度“开门红”能转化为“全年红”吗?
-
两大家族开撕?菲第一夫人公开指责副总统:不道歉,这事就没完
-
美国一票否决,多方回应
-
李迅雷:发展服务业与做强制造业不矛盾,可参照德国、日本
-
欧盟跟着泼脏水:中国不仅坐山观虎斗,还下场了
-
美国积极促成沙以和好,“可以限制中国”
-
“这是拜登政府首次挑起加税,中方反制不会手软”
-
“预计今年将推出一揽子政策,旨在解决问题而非刺激经济”
-
美以私下做了个交易?美方紧急撇清
-
特朗普变口风:乌克兰的存亡对美国很重要,欧洲麻利点
-
“未来几年,这是各方关注中国市场的一个重要指标”
-
应韩企要求,美国拟恢复一项涉华关税
-
菲律宾“倒打一耙”
-
“以色列精心策划俩月,但严重低估了伊朗反应”
-
“你们愿意中国提前登月?不愿意?那就打钱”
-