Answers:
尝试使用SentiStrength(与同类算法相比效果更好)以及相关的研究论文。其他工具和方法的讨论可以在此处和此处找到。
我的印象是,这里所做的很多事情都是极具启发性的。实际上,大多数人似乎将此应用于Twitter语句的<120个字符。结果(虽然不是以这种方式计算)结果并不比计数带有少量位置信息的“正”和“负”字好得多(“ A优于B” = A表示正,B表示负)
然后,当您看到公司购买完整的Twitter提要(每秒多少兆位?)并声称要对此进行情绪分析时,这使我很想知道这里是否存在任何统计有效性。难怪例如雅虎在预测南卡罗来纳州的大选方面失败了:http : //www.technologyreview.com/web/39487/
人们很自豪并且热衷于完全能够处理大量数据,但他们似乎完全忽略了正确验证其性能的方法。
很抱歉对现有技术如此悲观。