使用文本挖掘/自然语言处理工具进行计量经济学


9

我不确定这个问题在这里是否完全合适,否则请删除。

我是经济学研究生。对于一个调查社会保险问题的项目,我可以访问大量涉及资格评估的行政案例报告(> 200k)。这些报告可以链接到单个管理信息。我想从这些报告中提取可用于定量分析的信息,最好是使用grep/ awk等进行简单的关键字/正则表达式搜索。

自然语言处理对此有多有用?还有哪些其他有用的文本挖掘方法?据我了解,这是一个很大的领域,很可能某些报告必须进行转换才能用作语料库。是否值得花一些时间来熟悉文献和方法?会有所帮助吗,以前做过类似的事情吗?就回报而言,是否值得?也就是说,我是否可以使用NLP进行潜在的有用信息来进行经济学实证研究?

可能会有资金雇用某人来阅读和准备一些报告。这是一个较大的项目,有可能申请更多的资金。如果绝对必要,我可以提供有关该主题的更多详细信息。一种潜在的并发症是该语言是德语,而不是英语。

关于资格,我主要接受计量经济学方面的培训,并且在Hastie等人的水平上对计算统计有所了解书。我知道Python,R,Stata,并且可能很快就会熟悉Matlab。给定这些库,我认为Python是为此选择的工具。如果相关的话,根本就不需要定性方法方面的培训,但是我知道我可以联系一些人。

我很高兴为此提供任何输入,即,如果这可能有用,那么,从哪里开始阅读,以及特别关注哪些工具。


LASSO,最小角度回归和逻辑分析是一些潜在的相关工具。您可能想看看我如何解决博士学位的类似问题。本文在这里和我的博客张贴有关NLP工具的经济学在这里。如果您对此有所了解,很高兴听到您的进度或可能遇到的任何挑战。
研究生2015年

Answers:


2

我认为定义要从数据中提取哪些信息将对您有所帮助。简单的关键字/正则表达式搜索实际上可能对您很有帮助。我从事保险业,我们经常使用这种文本挖掘技术-可以说是幼稚的,而且绝对不完美,但是相对于我们通常感兴趣的事物,这是一个相对不错的开始(或近似)。

但我要指出的是,为了弄清楚您所选择的方法是否合适,我建议定义要从数据中提取的确切内容。我认为这是最困难的部分。

在所有字符串中找到唯一的单词并执行前1000个单词左右的频率可能会很有趣。这在计算上可能会很昂贵(取决于您的RAM /处理器),但看起来可能很有趣。如果我在不了解数据的情况下浏览数据,那么这就是我的起点(其他人可能会提供不同的看法)。

希望能有所帮助。


谢谢,我绝对是在考虑从这样的事情开始。我知道我的问题含糊不清,但我对使用其他方法可以提取哪种信息更感兴趣。我承认我不确定在不知道具体情况的情况下是否可以回答这个问题。
ilprincipe 2013年

1
我认为,与数据相关的工作/专业始终是挑战。我可能会建议您查看一些数据,如果存在带有有关数据或保险事件的描述的变量,请阅读几打-以便对数据有所了解。请记住,我们一直想做的就是对数据的基础过程进行建模,并且要真正做到出色,您必须了解数据。
Francisco Arceo 2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.