您可以从一个名字中挖掘多少信息?


11

名称:首先,可能是中间名和姓。

我很好奇您可以使用公开可用的数据集从名字中挖掘出多少信息。我知道,使用美国人口普查数据,您可以在低高概率(取决于输入)之间的任意位置获得以下信息:1)性别。2)比赛。

例如,Facebook正是利用这一点准确地找到了其网站用户的种族分布(https://www.facebook.com/note.php?note_id=205925658858)。

还有什么可以开采的?我没有在寻找任何具体的问题,这是一个非常开放的问题,可以缓解我的好奇心。

我的示例是特定于美国的,因此我们假设该名称是位于美国的某人的名字;但是,如果有人知道其他国家/地区的公开数据集,那么我对他们也很开放。

我不太确定这是否是正确的地方,否则,如果有人可以将我指向一个更合适的地方,我将不胜感激。

我希望这是一个有趣的问题,并且这是合适的地方!


2
如果可以获取合适的匹配数据,大概还可以获得有关地理位置的信息?您还可以使用有关名字随着时间的流逝的信息(谷歌“婴儿名字向导”)来推断年龄...
Ben Bolker

1
我已将转移的问题与重复项合并。

Answers:


12

这不是一个认真的答案,但我只是想起了一年前读过的书中的一些内容。Freakonomics中有一章专门介绍您可以从名字中分辨出一个人。本章是基于作者的研究论文的独特黑名的原因及后果

我想我已经在本文中找到了节选或摘要

数据显示,平均而言,一个有着明显黑名的人-无论是名叫Imani的女人还是名叫DeShawn的男人-的寿命要比名叫Molly的女人或名叫Jake的男人要差。但这不是他或她的名字的错。如果两个黑人男孩,杰克·威廉姆斯和德肖恩·威廉姆斯,出生在同一个社区,并在相同的家庭和经济环境下出生,他们的人生结局可能会相似。但是,给儿子起名叫杰克的父母不会倾向于住在同一个街区,也不会与给儿子叫德肖恩的父母有共同的经济状况。这就是为什么平均而言,一个名叫杰克的男孩比一个名叫DeShawn的男孩倾向于赚更多的钱和得到更多的教育。德肖恩


4

从名字可以预测地区,年龄,第一代移民身份。通过姓氏,您可以预测原始顾客的地理位置。对于全名,您可以预测社会和经济地位(瑟斯顿·霍威尔三世)。


+1是吉利根岛(Gilligan's Island)角色在本网站上的第一次提及。
rolando2

4

只是为了补充这里的其他建议,家庭数据的最大来源之一是那里有许多家谱站点。我认为大多数西方人可能是由某个家庭成员列出的,他们中有一些是遥远的,或者其他的,这些都包含通常完整的家谱,并附有位置,出生细节等信息。

如果您将这些数据与Facebook中的朋友图交叉匹配,因为人们倾向于添加兄弟姐妹/表兄弟姐妹(有时还会添加父母/孩子),然后将位置数据与选举角色和目录一起使用,那么即使是那些名字相同的人,通常也可以查明他们的位置,并获得惊人的大量数据。


3

Freakonomics的最后一章(2005年,Steven D. Levitt和Stephen J. Dubner)对名称进行了有趣的讨论,尤其是与社会经济地位和种族有关的名称。

他们有一个名字列表,该名字可能与FB对姓氏的分析不太相关。它们还描述了名称选择如何随时间(跨时间)变化。

谁知道-父母的selection养名字可能比人们对普查的报道更准确。


3

上面您有很多不错的建议,所以我只想提一个有趣的轶事。一家公司研究实验室的一名暑期学生(现在是一位著名的计算机科学家)(该实验室现在将保持匿名)查看了该公司在线电话簿中的数据,并使用姓名中的字符n-gram建立了工资等级的预测模型。最有力的预测指标是ez_表示较低的薪级,我以为发现这个结果并不鼓励他谈论...


2

您可能会发现:

  1. 专业和可能的工作经历,如果一个人参加了任何专业讨论(通常可以通过电子邮件或签名中的域名找到当前工作,搜索也会显示过去的工作)
  2. 亲戚,如果有人在社交网络上保持形象。
  3. 当前位置,至少到城市为止。
  4. 种族背景,如果有一个不同的名字(例如,一个叫“卢博米尔”的人可能与斯拉夫的欧洲国家之一有联系,等等)。
  5. 来自社交网络的出生日期-人们倾向于在一个人的生日当天或前后祝贺他,如果幸运的话,您还会获得25、30、35等年龄的年份。其中一个值得祝贺的人可能会提到它如果不是那个人。
  6. 教育背景-来自LinkedIn等
  7. 爱好,喜爱的运动队等
  8. 如果一个人是宠物爱好者,他可能也会把所有宠物都放在社交网络上。

顺便说一句,您永远都不要使用以上列表中的任何内容作为密码,机密问题等。


与您同名的人呢...那里有许多“ Dean Harding”,其中之一甚至是一名职业足球运动员!Twitter上的“ DeanHarding”不是我,Facebook上还有数百个“ Dean Harding”,等等...

当然,这取决于机会。通常,您可以按职业,地理位置等找到哪个人。尽管我看到有3个人同名,从事同一职业并且大致居住在同一地区的情况。然后当然会变得更加困难:)

2

Darden and Robinson(1976)试图找到一种语言结构来指导人们对男子名字的联想。他们要求两组受试者(社会学专业的学生和海军军官)根据语义上的差异(例如软韧,普通贵族和城市农村)对一组通用的美国名字进行评分。他们还要求在不同名称对之间进行相似性判断,并通过验证的方式,使用TORSCA MDS程序,将语义差异中的手段与他们在三个和四个D解决方案中发现的维度相关联。

作者发现他们的3-D解决方案大致与Osgood的激活,评估和效能三重奏相对应。在四个维度上,空间对数据的拟合稍好一些,在这里,他们将结构解释为取决于“字符”,“成熟度”,“社交性”和“灵活度”,尽管这些比例似乎并没有像作者建议。该研究得出的一个令人惊讶的发现是,至少对于这两个小样本(n = 83和21),没有出现与给定名称和昵称之间的区别相对应的尺寸。

DK,Darden和IE,Robinson,(1976年)。男性名字的多维缩放:一种社会语言学方法。 Sociometry,39,4,422-431。


1

可以找到的信息量千差万别,从种族和性别到各种个人信息。获取信息的最佳选择是诸如facebook之类的社交网站,因为它们通常比cencus数据库提供更多的信息。


1

根据所使用的来源,您可以获得很多信息。人口普查数据是显而易见的。您还可以从Facebook,MySpace和其他社交网站获取信息。您也可以在公共新闻档案库中搜索提及其名称的信息。也许甚至有些州拥有那些被禁止的物业。

如果您想要一个现实世界中可以做什么的示例,请访问pipl.com。


您能告诉我们在哪里(世界上任何地方)可以找到具有名称的人口普查数据吗?
Whuber

1

您可以查询学位,驾驶执照,警察记录(翻译正确吗?)。使用facebook,您可以找到有关爱好,运动和喜欢的音乐的信息。您也可以使用给定名称查找其他人的社交媒体用户比例。(我会对这个结果感兴趣)



0

如果您知道有关个人所在地的信息,那么一个信息来源就是选民登记数据库。许多选民登记数据库都是可用的(收费;有些公司将其购买并提供收费的在线查询访问)。选民注册数据库可能包含个人的地址和/或出生日期。该信息可能使您能够在其他数据库中查找个人。

但是,这有多大限制。如果您知道此人居住的城市或县,并且他们的名字很不正常,这可能会有所帮助。但是,如果这是一个通用名称,或者您不知道他们的住所,那么可能对您没有帮助。


0

包括许多其他有用属性的可公开访问数据的最大来源之一是县财产办公室的财产记录。该问题涉及将所有数据收集在一起...有些州提供中央数据库,而其他州则没有。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.