【草莓科研】创新怎么影响企业信息披露的文章,这事儿得留个心眼记下来

咱们在讲这次的项目的时候,先得说这事儿跟中国的于李胜老师脱不了干系。于老师和王泽豪、王艳艳几位一起做了个顶刊的研究,就是那个关于创新怎么影响企业信息披露的文章,这事儿得留个心眼记下来。 咱们准备了从2024年一路倒推到2001年的上市公司数据,足足有6.5万个样本和5600多家企业呢。这里面有原始数据、代码还有算好的结果,大家随时能拿来验验准确性。 具体怎么算的?咱们把“VS模型”跟“TF-IDF算法”揉在一块儿用。说白了就是给每家上市公司的MD&A文本跟同一年度的其他公司的文本两两配对,算算它们的夹角余弦值,这就能看出文本有多像。 第一步先得把文本变成向量。我拿一份文本为例,把它里的每个词都变成一个维度的数。每个数的大小看词在这篇文章里出现得多不多。不过还得防着长文章占了便宜,所以要用总词数去加权平均一下,这就是TF。 接着是第二步的加权。我给每个词加了一个叫“逆文档频率”的权重。要是这词在很多文章里都有出现,那它的重要性就不高;要是只在很少的文章里出现过,那它就挺重要。这个计算方式是用样本里的总文本数D除以有这个词的文本数再加1,再取个对数,这就得出IDF了。 最后把这俩算法结合起来算相似度。具体的做法和公式我画成图贴在下面了。只要是会员都能免费下这套数据去看。 如果你对这个研究有兴趣,欢迎到草莓科研服务网的会员社区来看看。这可是咱们中国专业社科交流的平台呢!