【草莓科研】创新怎么影响企业信息披露的文章，这事儿得留个心眼记下来

咱们在讲这次的项目的时候，先得说这事儿跟中国的于李胜老师脱不了干系。于老师和王泽豪、王艳艳几位一起做了个顶刊的研究，就是那个关于创新怎么影响企业信息披露的文章，这事儿得留个心眼记下来。咱们准备了从2024年一路倒推到2001年的上市公司数据，足足有6.5万个样本和5600多家企业呢。这里面有原始数据、代码还有算好的结果，大家随时能拿来验验准确性。具体怎么算的？咱们把“VS模型”跟“TF-IDF算法”揉在一块儿用。说白了就是给每家上市公司的MD&A文本跟同一年度的其他公司的文本两两配对，算算它们的夹角余弦值，这就能看出文本有多像。第一步先得把文本变成向量。我拿一份文本为例，把它里的每个词都变成一个维度的数。每个数的大小看词在这篇文章里出现得多不多。不过还得防着长文章占了便宜，所以要用总词数去加权平均一下，这就是TF。接着是第二步的加权。我给每个词加了一个叫“逆文档频率”的权重。要是这词在很多文章里都有出现，那它的重要性就不高；要是只在很少的文章里出现过，那它就挺重要。这个计算方式是用样本里的总文本数D除以有这个词的文本数再加1，再取个对数，这就得出IDF了。最后把这俩算法结合起来算相似度。具体的做法和公式我画成图贴在下面了。只要是会员都能免费下这套数据去看。如果你对这个研究有兴趣，欢迎到草莓科研服务网的会员社区来看看。这可是咱们中国专业社科交流的平台呢！