Questions tagged «data»

数据是属于一组项目的定性或定量变量的值。计算(或数据处理)中的数据以结构表示,通常为表格结构(由行和列表示),树(具有父子关系的一组节点)或图结构(一组互连的节点)。

2
数据验证:是否是分隔类?
当我有大量需要验证的数据时,我应该仅出于验证目的创建一个新类,还是应该坚持方法内验证? 我的特定示例设想了一个锦标赛和一个事件/类别类:Tournament和Event,它模拟了一个体育锦标赛,每个锦标赛都有一个或多个类别。 这些类别中有很多事情需要验证:球员应该为空,应该是唯一的,每个球员应该参加的比赛数量,每次比赛都有的球员数量,预定义的对决,以及包括许多其他东西在内的非常重要的事情。复杂的规则。 我还需要整体验证某些部分,例如类如何相互集成。例如,对a Player进行单一验证就可以了,但是如果一个事件两次具有相同的玩家,那就是验证错误。 那怎么办呢::使用模型类的设置器和类似方法添加数据时,我完全忘记了任何预检查,而是让验证类来处理。 因此,我们将有类似EventValidator与Event作为成员,和validate()用来验证整个对象的方法,再加上单一的方法来验证所有成员的规则。 然后,在实例化有效对象之前,我将执行验证以防止出现非法值。 我的设计正确吗?我应该做些不同的事情吗? 另外,我应该使用布尔值返回验证方法吗?或者,如果验证失败,则抛出异常?在我看来,最好的选择是布尔返回方法,并在实例化对象时引发异常,例如: public Event() { EventValidator eventValidator = new EventValidator(this); if (!eventValidator.validate()) { // show error messages with methods defined in the validator throw new Exception(); // what type of exception would be best? should I create custom ones? } }
16 java  design  data  validation 

8
是否有非CRUD方法的示例?
我是一名程序员,但也曾担任过档案管理员。作为档案管理员,保存数据非常重要。 在数据操作方面,我经常与同事争论。我不太喜欢CRUD中的U和D。宁愿更新一条记录,我也喜欢添加一条新记录并引用旧记录。这样,您就可以建立变更历史。我也不喜欢删除记录,而是将它们标记为无效。 有这个用语吗?基本上只创建和读取数据?有这种方法的例子吗?

5
与构造函数相反的函数的正确术语是什么-从数据类型中解包值?
编辑:我改一下这个问题。显然,我引起了一些混乱,因为我没有意识到在OOP中使用析构函数一词是因为它们完全不同-它是在销毁对象时调用的函数。在函数式编程中,我们(尽量)避免发生可变状态,因此没有这种等效状态。(我在问题中添加了适当的标签。) 相反,我已经看到用于解开值的记录字段(尤其是用于newtypes的单值数据类型)有时称为destructor或deconstructor。例如,让我们(在Haskell中): newtype Wrap = Wrap { unwrap :: Int } 这Wrap是构造函数,unwrap是什么? 问题是: 我们如何unwrap在函数式编程中调用?解构器?破坏者?或其他术语? 并澄清一下,这个/其他术语是否适用于其他功能语言,还是仅在Haskell中使用? 或许,在非功能性语言中,对此是否有通用的术语? 我看过两个词,例如: ...通常,一个人为这些提供聪明的构造函数和析构函数以简化与它们的合作。... 在Haskell Wiki上,或 ...这里的一般主题是融合构造函数- 像...这样的解构函数对 在Haskell Wikibook上(这里的含义可能更笼统),或者 newtype DList a = DL { unDL :: [a] -> [a] } 该unDL功能是我们的解构,从而消除了DL构造。... 在现实世界中的Haskell。

6
存储三元或三态变量的最佳数据类型
免责声明:我知道数据类型有点受制于所使用的脚本/编程语言,我喜欢用Python编写;尽管我很高兴听到有关任何语言/实现的信息。 存储三态变量的最佳数据类型是什么?能够或代表积极,中立和消极的东西。 例如:整数-1,0,1。 优点:非常简洁。 Pro:可能有效,可以存储为单个2位带符号整数。 专业版:可用作刻度,例如浮点乘数。 实施例2: ,0,null(1或任何排列) 优点:非中立的用例可以是二进制的。 缺点:需要动态数据类型 缺点:可能不太简洁。 实施例3: ,+(空字符串),- 优点:非常简洁。 缺点:可以利用字符串逻辑来确定状态。 Pro ?:直观的图形表示。 也许有一些聪明的二进制逻辑可以做我什至无法想象的聪明事,也许有太多用例考虑。 另外,在调整三元状态以存储在数据库引擎中时,是否需要考虑任何因素?像Innodb供参考。

2
使用MongoDB作为变更日志的两个系统之间的同步
我们正在开发两个相关的系统。其中一个(A)将安装在我们客户的机器上。其余(B)将由我的组织使用。 每个系统都有其自己的数据库(关系型),并且其架构也不同。但是,两个系统都必须同步。另外,必须将B中的某些更改导出到所有A类系统,而其他仅导出到特定的系统。 有些客户没有Internet连接,因此在某些情况下,必须通过交换文件来完成同步。 因此,我们正计划解决以下问题: 每个系统都维护其数据库的变更日志。我们计划用MongoDB实施它。 当系统初始化同步过程时,它将从日志中检索所有进行的更改。如果系统是B,则检索到的更改取决于目标。然后,系统以XML格式对它们进行序列化,最后(通过文件或网络)发送它们。 当另一端点接收到变更集时,它将对它们进行反序列化。然后,系统对数据进行一些必要的转换,最后记录所做的更改。在这一步中,如果有必要,系统必须解决可能存在的冲突。 最后,接收器系统发送其更改(以及其他解决冲突的产品)。 这种方法可行,可扩展且优雅吗?您将进行哪些更改或添加?

5
以稳定高效的方式从网页获取数据
最近,我了解到,使用正则表达式来解析网站的HTML以获取所需的数据并不是最佳方法。 所以我的问题很简单:那么,什么/最好/最有效且通常稳定的方式来获取此数据? 我应该注意: 没有API 没有其他可以从中获取数据的来源(没有数据库,提要等) 无法访问源文件。(来自公共网站的数据) 假设数据是普通文本,显示在html页面的表格中 我目前在我的项目中使用python,但是独立于语言的解决方案/提示会很好。 附带提出一个问题:当通过Ajax调用构建网页时,您将如何处理? 编辑: 在HTML解析的情况下,我知道没有实际的稳定方法来获取数据。页面更改后,解析器就完成了。在这种情况下,我的意思是:一种有效的页面解析方法,只要页面没有变化,它总是可以为我提供相同的结果(显然是针对同一组数据)。
11 data  parsing 

2
软件是否应该有一个“数据卫生”索引,以表明程序的清洁程度?不留下临时文件等
软件是否应该有一个“数据卫生”索引,以表明程序的清洁程度?不创建未使用的临时文件,注册表项,环境变量等。 例如,在Windows中的“用户”文件夹中查看,您将看到应用程序使用的所有工作空间文件。 例如,这使得很难知道什么需要备份以及什么可以在机器生成时丢弃。

5
如何确定存储格式之间的区别,以及其中的一些示例用例?
我们有不同的方式来存储程序数据(在游戏,员工数据库,程序配置等中保存文件): 纯文本(.ini和.conf) XML格式 数据库(MySQL,SQLite ...) .zip 包含多个文件(格式不同)的类似文件 二进制文件(.doc例如,由序列化工具创建的文件等) 上面列出的格式有哪些不同的用例,它们的优点与缺点(考虑速度,灵活性,文件大小,易用性...)之间有什么分别?如何在不同任务之间做出决定? 关于压缩格式:仅用于包含其他文件。它也可以是另一种压缩格式。这允许几个文件的结构,包括图像文件,声音文件和文本文件。例如,假设您有一种消息的存储格式,其中可能包含文件。压缩文件中可以包含以下文件: message.txt (containing the message) attachments (folder containing attachments) audio.wav picture.jpg

4
术语:真正删除与设置IsDeleted(“软删除”)标志
我有一个普通用户可以删除记录的站点,发生的事情是IsDeleted设置了一个标志。在管理页面上,特权用户可以删除记录,而实际的SQL会DELETE永久删除这些记录。出于明显的原因,区别很重要,我想使用一致的术语来指代一种删除形式与另一种删除形式。我一直在玩的话Remove,Delete,Discard和可能Recycle,和Archive。 我的问题是:是否存在区分这两种行为的标准面向用户的术语?
10 terminology  data 

7
确定每周数据系列中交易的算法?
我正在尝试开发一个小型报告工具(具有sqlite后端)。我可以最好地将此工具描述为“交易”分类帐。我正在尝试做的是跟踪每周数据提取中的“交易”: “新”(或添加)-资源对于我的应用程序来说是新的,因为我的应用程序之前可能没有跟踪过该资源,因为尚未通过提取看到它。 “更新”(或命中)-最近使用了该资源,将保留期再更新一周。 “删除”(或删除)-自上次报告以来该项目未使用(可选,但是可以很好地绘制出每周对资源需求的变化图)。 我所得到的只是每周的数据提取(以竖线分隔的平面文件),这些数据来自我无法控制的旧版归档/记录管理系统。 每一行都可以大致提炼为: resource_id | resource info | customer_id | customer_info 样本数据: 10| Title X | 1 | Bob 11| Another title | 1 | Bob 10| Title X | 2 | Alice 目的是使报告X个月未使用过的资源变得容易(基于最后一次点击)。在保留期中,如果资源很受欢迎,则将其保留在附近以便于访问。尚未使用18个月的资源已标记为可在其他地方进行长期存档。 这一定是一个普遍的问题。想知道是否有通用算法来确定数据集之间的新内容/相同内容/已删除的内容(数据库还是最新摘录)?

1
如何分别解析多部分字段/文件数据?
我想两次解析一个多部分的表单:一次获取传入的字段,然后解析文件上传。 我正在尝试在Node应用程序中保持适当的关注点分离: 控制器负责处理传入字段。 模型负责上传文件的逻辑。 我需要将字段数据传递到模型中以创建新实例,因此在文件上传开始之前,字段数据需要可用。 当前,每个form.parse()或等效函数都将字段和文件解析在一起。示例:一起req.pipe(busboy)处理文件和字段。 我已经检查了节点多方,强大,busboy,multer之类的模块。似乎没有人对此有解决方案。 我想要实现的示例在这里:https : //stackoverflow.com/questions/22336177/node-js-busboy-parse-fields-and-files-seperatly 这有可能吗?
9 data  node.js  upload 

8
什么时候“优化代码” ==“构造数据”?
ycombinator最近发表的一篇文章列出了关于优秀程序员原理的评论。 #7.优秀的程序员:我优化代码。更好的程序员:我构造数据。最佳程序员:有什么区别? 承认主观和有争议的概念-有人对这意味着什么有立场吗?是的,但是我以后想根据自己的想法编辑这个问题,以免预先回答这些问题。

1
当前证据是否支持采用规范数据模型中的上下文?
“规范”思想在软件中无处不在。诸如Canonical Model,Canonical Schema,Canonical Data Model等模式似乎在开发中一次又一次出现。 像许多开发人员一样,我经常不加批判地遵循传统的常识,即需要规范的模型,否则您将面对映射器和翻译器的组合爆炸。或者至少,我用来做,直到几年前,当我第一次读到了几分臭名昭著的不信任投票EF: 曾经支持追求规范数据模型的假设既没有也不可能包含一旦将想法付诸实践就会发现的因素。通过多年的反复试验,我们发现针对每个单独的上下文使用单独的模型(可能在其中使用规范的数据模型)是最简单的方法,也是成本最低的方法,并且可以带来更大的可维护性和可扩展性使用上下文模型的应用程序和端点,并且这种方法不会像规范模型那样鼓励软件熵。 这篇文章没有提供任何证据来支持其主张,但是确实让我质疑CDM方法足够长的时间以尝试替代方法,并且所产生的软件在字面上或形象上都没有爆炸。但这并不意味着要孤立很多。我本来可以很幸运。 因此,我想知道,是否对软件系统或体系结构中的规范模型与上下文模型的实际,长期影响进行了认真的研究? 或者,如果现在提出这个要求还为时过早,那么有没有任何开发人员/架构师撰写过有关从CDM切换到独立上下文模型(反之亦然)的个人经验的书,以及对生产率,复杂性或可靠性等方面的实际影响是什么? 那么在不同级别上的差异又如何呢?也就是说,在单个应用程序中使用同一模型与在应用程序系统或整个企业中使用模型之间的差异呢? (请只提供事实;欢迎战争故事,但不能no测。)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.