从C#中的List <T>中删除重复项


Answers:


227

也许您应该考虑使用HashSet

从MSDN链接:

using System;
using System.Collections.Generic;

class Program
{
    static void Main()
    {
        HashSet<int> evenNumbers = new HashSet<int>();
        HashSet<int> oddNumbers = new HashSet<int>();

        for (int i = 0; i < 5; i++)
        {
            // Populate numbers with just even numbers.
            evenNumbers.Add(i * 2);

            // Populate oddNumbers with just odd numbers.
            oddNumbers.Add((i * 2) + 1);
        }

        Console.Write("evenNumbers contains {0} elements: ", evenNumbers.Count);
        DisplaySet(evenNumbers);

        Console.Write("oddNumbers contains {0} elements: ", oddNumbers.Count);
        DisplaySet(oddNumbers);

        // Create a new HashSet populated with even numbers.
        HashSet<int> numbers = new HashSet<int>(evenNumbers);
        Console.WriteLine("numbers UnionWith oddNumbers...");
        numbers.UnionWith(oddNumbers);

        Console.Write("numbers contains {0} elements: ", numbers.Count);
        DisplaySet(numbers);
    }

    private static void DisplaySet(HashSet<int> set)
    {
        Console.Write("{");
        foreach (int i in set)
        {
            Console.Write(" {0}", i);
        }
        Console.WriteLine(" }");
    }
}

/* This example produces output similar to the following:
 * evenNumbers contains 5 elements: { 0 2 4 6 8 }
 * oddNumbers contains 5 elements: { 1 3 5 7 9 }
 * numbers UnionWith oddNumbers...
 * numbers contains 10 elements: { 0 2 4 6 8 1 3 5 7 9 }
 */

11
它令人难以置信的快速... List的100.000字符串需要400秒和8MB内存,我自己的解决方案需要2.5秒和28MB,哈希集需要0.1秒!以及11MB的ram
sasjaq 2013年

3
HashSet 没有索引,因此并非总是可以使用它。我必须一次创建一个没有重复的庞大列表,然后ListView在虚拟模式下使用它。HashSet<>首先创建然后将其转换为超级快List<>(因此ListView可以按索引访问项目)。List<>.Contains()太慢了。
Sinatr

58
如果有一个示例说明如何在此特定上下文中使用哈希集,则将有所帮助。
弥敦道(Nathan McKaskle),2015年

23
这怎么算答案呢?这是一个链接
mcont 2015年

2
HashSet在大多数情况下都很棒。但是,如果您有一个类似DateTime的对象,它会按引用而不是按值进行比较,因此最终仍会重复。
杰森·麦金德利

813

如果您使用的是.Net 3+,则可以使用Linq。

List<T> withDupes = LoadSomeData();
List<T> noDupes = withDupes.Distinct().ToList();

14
该代码将失败,因为.Distinct()返回IEnumerable <T>。您必须添加.ToList()。
ljs

此方法只能用于具有简单值的列表。
北极星

20
不,它适用于包含任何类型对象的列表。但是,您将必须为您的类型覆盖默认的比较器。像这样:public
over

1
用类覆盖ToString()和GetHashCode()始终是一个好主意,这样这类事情就可以了。
B

2
您还可以使用MoreLinQ Nuget程序包,该程序包具有.DistinctBy()扩展方法。非常有用。
yu_ominae 2013年

178

怎么样:

var noDupes = list.Distinct().ToList();

在.net 3.5中?


它会复制列表吗?
darkgaze

1
@darkgaze这只会创建另一个仅包含唯一条目的列表。因此,所有重复项都将被删除,您将得到一个列表,其中每个位置都有一个不同的对象。
hexagod

这对列表项的列表
有用吗(

90

只需使用相同类型的List初始化HashSet即可:

var noDupes = new HashSet<T>(withDupes);

或者,如果您希望返回列表:

var noDupsList = new HashSet<T>(withDupes).ToList();

3
...并且如果您需要使用List<T>结果new HashSet<T>(withDupes).ToList()
蒂姆·施梅尔特

47

对其进行排序,然后将两个和两个相邻检查,因为重复项将聚集在一起。

像这样:

list.Sort();
Int32 index = list.Count - 1;
while (index > 0)
{
    if (list[index] == list[index - 1])
    {
        if (index < list.Count - 1)
            (list[index], list[list.Count - 1]) = (list[list.Count - 1], list[index]);
        list.RemoveAt(list.Count - 1);
        index--;
    }
    else
        index--;
}

笔记:

  • 从头到尾进行比较,以避免每次删除后都诉诸清单
  • 现在,此示例使用C#值元组进行交换,如果无法使用,则替换为适当的代码
  • 最终结果不再排序

1
如果我没记错的话,上面提到的大多数方法只是这种例程的抽象,对吗?我会在这里采用您的方法,Lasse,因为这是我如何从心理上描绘数据移动的方式。但是,现在我对某些建议之间的性能差异感兴趣。
伊恩·帕特里克·休斯

7
实施它们并为其计时,这是确保的唯一方法。甚至Big-O表示法也无法帮助您获得实际的性能指标,而仅与增长效果关系有关。
拉瑟五世卡尔森

1
我喜欢这种方法,它更易于移植到其他语言。
杰瑞·梁

10
不要那样做 超级慢。RemoveAt是一个非常昂贵的操作List
克莱门特

1
Clément是正确的。挽救这种情况的一种方法是将其包装在使用枚举器产生且仅返回不同值的方法中。或者,您可以将值复制到新的数组或列表中。
JHubbard80

33

我喜欢使用以下命令:

List<Store> myStoreList = Service.GetStoreListbyProvince(provinceId)
                                                 .GroupBy(s => s.City)
                                                 .Select(grp => grp.FirstOrDefault())
                                                 .OrderBy(s => s.City)
                                                 .ToList();

我的列表中包含以下字段:Id,StoreName,City,PostalCode我想在具有重复值的下拉列表中显示城市列表。解决方案:按城市分组,然后从列表中选择第一个。

希望对您有所帮助:)


31

它为我工作。只需使用

List<Type> liIDs = liIDs.Distinct().ToList<Type>();

将“类型”替换为所需的类型,例如int。


1
与MSDN页面所报告的不同,在Linq中而不是System.Collections.Generic中。
Almo 2014年

5
该答案(2012年)似乎与此页面上的其他两个答案都与2008年相同?
乔恩·施耐德

23

正如kronoz在.Net 3.5中所说的,您可以使用 Distinct()

在.Net 2中,您可以模仿它:

public IEnumerable<T> DedupCollection<T> (IEnumerable<T> input) 
{
    var passedValues = new HashSet<T>();

    // Relatively simple dupe check alg used as example
    foreach(T item in input)
        if(passedValues.Add(item)) // True if item is new
            yield return item;
}

这可用于对任何集合进行重复数据删除,并以原始顺序返回值。

通常,过滤一个集合(这Distinct()和本示例都一样)要比从集合中删除项目要快得多。


这种方法的问题是,它是O(N ^ 2)-ish,而不是哈希集。但至少它在做什么是显而易见的。
Tamas Czinege,09年

1
@DrJokepu-实际上我没有意识到HashSet构造函数已重复数据删除,这使其在大多数情况下都更好。但是,这将保留排序顺序,而HashSet不会。
基思

1
HashSet <T>在3.5中引入
thorn

1
@thorn真的吗?很难跟踪。在这种情况下,你可以只使用一个Dictionary<T, object>代替,替换.Contains.ContainsKey.Add(item).Add(item, null)
基思

@Keith,根据我的测试,HashSet保留顺序,Distinct()但不保留。
丹尼斯T-恢复莫妮卡

13

扩展方法可能是一种不错的方法...像这样:

public static List<T> Deduplicate<T>(this List<T> listToDeduplicate)
{
    return listToDeduplicate.Distinct().ToList();
}

然后像这样调用,例如:

List<int> myFilteredList = unfilteredList.Deduplicate();

11

在Java中(我假设C#大致相同):

list = new ArrayList<T>(new HashSet<T>(list))

如果您确实要更改原始列表,请执行以下操作:

List<T> noDupes = new ArrayList<T>(new HashSet<T>(list));
list.clear();
list.addAll(noDupes);

要保留顺序,只需将HashSet替换为LinkedHashSet。


5
在C#中将是:List <T> noDupes = new List <T>(new HashSet <T>(list)); list.Clear(); list.AddRange(noDupes);
smohamed 2012年

在C#中,这种方式更容易:var noDupes = new HashSet<T>(list); list.Clear(); list.AddRange(noDupes);:)
nawfal 2014年


9

使用LINQ的联合方法。

注意:除了它之外,此解决方案不需要任何Linq知识。

首先将以下内容添加到类文件的顶部:

using System.Linq;

现在,您可以使用以下命令从名为的对象中删除重复项obj1

obj1 = obj1.Union(obj1).ToList();

注意:重命名obj1为对象的名称。

怎么运行的

  1. Union命令列出了两个源对象的每个条目之一。由于obj1都是两个源对象,因此将obj1减少为每个条目之一。

  2. ToList()返回一个新的列表。这是必需的,因为Linq命令(例如)Union将结果作为IEnumerable结果返回,而不是修改原始List或返回新List。


7

作为辅助方法(没有Linq):

public static List<T> Distinct<T>(this List<T> list)
{
    return (new HashSet<T>(list)).ToList();
}

我认为Distinct已经采取。除此之外(如果您重命名方法),它应该可以工作。
Andreas Reiff 2015年

6

如果你不关心顺序你可以推的项目进入HashSet,如果你想要保持你可以做这样的事情的顺序:

var unique = new List<T>();
var hs = new HashSet<T>();
foreach (T t in list)
    if (hs.Add(t))
        unique.Add(t);

或Linq方式:

var hs = new HashSet<T>();
list.All( x =>  hs.Add(x) );

编辑:HashSet方法是O(N)时间和O(N)同时分拣空间,然后制作独特的(通过@的建议lassevk等)的O(N*lgN)时间和O(1)空间,所以它不是那么清楚,我(因为它是在第一眼)的排序方式是劣质(我暂时的不赞成票表示歉意...)


6

这是用于原位删除相邻重复项的扩展方法。首先调用Sort()并传递相同的IComparer。这应该比Lasse V. Karlsen的版本更有效,后者反复调用RemoveAt(导致多次块存储移动)。

public static void RemoveAdjacentDuplicates<T>(this List<T> List, IComparer<T> Comparer)
{
    int NumUnique = 0;
    for (int i = 0; i < List.Count; i++)
        if ((i == 0) || (Comparer.Compare(List[NumUnique - 1], List[i]) != 0))
            List[NumUnique++] = List[i];
    List.RemoveRange(NumUnique, List.Count - NumUnique);
}

5

通过Nuget 安装MoreLINQ软件包,您可以通过属性轻松区分对象列表

IEnumerable<Catalogue> distinctCatalogues = catalogues.DistinctBy(c => c.CatalogueCode); 

3

只需确保没有将重复项添加到列表中可能会更容易。

if(items.IndexOf(new_item) < 0) 
    items.add(new_item)

1
我目前正在这样做,但是条目越多,检查重复项所需的时间就越长。
罗伯特·斯特劳奇

我在这里有同样的问题。我List<T>.Contains每次都使用该方法,但是有超过1,000,000个条目。此过程会使我的应用程序变慢。我正在使用List<T>.Distinct().ToList<T>()第一个。
RPDeshaies 2014年

这种方法非常慢
凝视

3

您可以使用联盟

obj2 = obj1.Union(obj1).ToList();

7
解释为什么它会起作用肯定会使这个答案更好
Igor B

2

.Net 2.0中的另一种方式

    static void Main(string[] args)
    {
        List<string> alpha = new List<string>();

        for(char a = 'a'; a <= 'd'; a++)
        {
            alpha.Add(a.ToString());
            alpha.Add(a.ToString());
        }

        Console.WriteLine("Data :");
        alpha.ForEach(delegate(string t) { Console.WriteLine(t); });

        alpha.ForEach(delegate (string v)
                          {
                              if (alpha.FindAll(delegate(string t) { return t == v; }).Count > 1)
                                  alpha.Remove(v);
                          });

        Console.WriteLine("Unique Result :");
        alpha.ForEach(delegate(string t) { Console.WriteLine(t);});
        Console.ReadKey();
    }

2

有很多解决方法-列表中的重复项是以下之一:

List<Container> containerList = LoadContainer();//Assume it has duplicates
List<Container> filteredList = new  List<Container>();
foreach (var container in containerList)
{ 
  Container duplicateContainer = containerList.Find(delegate(Container checkContainer)
  { return (checkContainer.UniqueId == container.UniqueId); });
   //Assume 'UniqueId' is the property of the Container class on which u r making a search

    if(!containerList.Contains(duplicateContainer) //Add object when not found in the new class object
      {
        filteredList.Add(container);
       }
  }

干杯拉维·加内森


2

这是一个简单的解决方案,不需要任何难以理解的LINQ或列表的任何先前排序。

   private static void CheckForDuplicateItems(List<string> items)
    {
        if (items == null ||
            items.Count == 0)
            return;

        for (int outerIndex = 0; outerIndex < items.Count; outerIndex++)
        {
            for (int innerIndex = 0; innerIndex < items.Count; innerIndex++)
            {
                if (innerIndex == outerIndex) continue;
                if (items[outerIndex].Equals(items[innerIndex]))
                {
                    // Duplicate Found
                }
            }
        }
    }

您可以使用此方法对重复项进行更多控制。如果您有要更新的数据库,则更多。对于innerIndex,为什么不从outerIndex + 1开始而不是每次都开始?
NolmëINFORMATIQUE

2

David J.的答案是一种好方法,不需要额外的对象,排序等。但是,可以在以下方面进行改进:

for (int innerIndex = items.Count - 1; innerIndex > outerIndex ; innerIndex--)

因此,外循环在整个列表中位于顶部底部,而内循环则在“直至到达外循环位置之前”排在底部。

外循环确保处理了整个列表,内循环找到实际的重复项,这些重复项只能发生在外循环尚未处理的部分。

或者,如果您不希望对内部循环自下而上,则可以使内部循环从outerIndex + 1开始。


2

所有答案都会复制列表,或创建新列表,或使用速度慢的功能,或者非常缓慢。

据我了解,这是我所知道的最快,最便宜的方法(也是由一个专门从事实时物理优化的经验丰富的程序员支持)。

// Duplicates will be noticed after a sort O(nLogn)
list.Sort();

// Store the current and last items. Current item declaration is not really needed, and probably optimized by the compiler, but in case it's not...
int lastItem = -1;
int currItem = -1;

int size = list.Count;

// Store the index pointing to the last item we want to keep in the list
int last = size - 1;

// Travel the items from last to first O(n)
for (int i = last; i >= 0; --i)
{
    currItem = list[i];

    // If this item was the same as the previous one, we don't want it
    if (currItem == lastItem)
    {
        // Overwrite last in current place. It is a swap but we don't need the last
       list[i] = list[last];

        // Reduce the last index, we don't want that one anymore
        last--;
    }

    // A new item, we store it and continue
    else
        lastItem = currItem;
}

// We now have an unsorted list with the duplicates at the end.

// Remove the last items just once
list.RemoveRange(last + 1, size - last - 1);

// Sort again O(n logn)
list.Sort();

最终费用为:

nlogn + n + nlogn = n + 2nlogn = O(nlogn),这非常不错。

关于RemoveRange的注意事项: 由于我们无法设置列表的数量并且避免使用Remove函数,因此我不确切知道此操作的速度,但是我想这是最快的方法。


2

如果您有两个班级ProductCustomer并且我们想从其列表中删除重复的项目

public class Product
{
    public int Id { get; set; }
    public string ProductName { get; set; }
}

public class Customer
{
    public int Id { get; set; }
    public string CustomerName { get; set; }

}

您必须按照以下形式定义通用类

public class ItemEqualityComparer<T> : IEqualityComparer<T> where T : class
{
    private readonly PropertyInfo _propertyInfo;

    public ItemEqualityComparer(string keyItem)
    {
        _propertyInfo = typeof(T).GetProperty(keyItem, BindingFlags.GetProperty | BindingFlags.Instance | BindingFlags.Public);
    }

    public bool Equals(T x, T y)
    {
        var xValue = _propertyInfo?.GetValue(x, null);
        var yValue = _propertyInfo?.GetValue(y, null);
        return xValue != null && yValue != null && xValue.Equals(yValue);
    }

    public int GetHashCode(T obj)
    {
        var propertyValue = _propertyInfo.GetValue(obj, null);
        return propertyValue == null ? 0 : propertyValue.GetHashCode();
    }
}

然后,您可以删除列表中的重复项。

var products = new List<Product>
            {
                new Product{ProductName = "product 1" ,Id = 1,},
                new Product{ProductName = "product 2" ,Id = 2,},
                new Product{ProductName = "product 2" ,Id = 4,},
                new Product{ProductName = "product 2" ,Id = 4,},
            };
var productList = products.Distinct(new ItemEqualityComparer<Product>(nameof(Product.Id))).ToList();

var customers = new List<Customer>
            {
                new Customer{CustomerName = "Customer 1" ,Id = 5,},
                new Customer{CustomerName = "Customer 2" ,Id = 5,},
                new Customer{CustomerName = "Customer 2" ,Id = 5,},
                new Customer{CustomerName = "Customer 2" ,Id = 5,},
            };
var customerList = customers.Distinct(new ItemEqualityComparer<Customer>(nameof(Customer.Id))).ToList();

此代码删除重复项,Id如果要通过其他属性删除重复项,则可以更改nameof(YourClass.DuplicateProperty) 相同nameof(Customer.CustomerName)项,然后再按CustomerName属性删除重复项。


1
  public static void RemoveDuplicates<T>(IList<T> list )
  {
     if (list == null)
     {
        return;
     }
     int i = 1;
     while(i<list.Count)
     {
        int j = 0;
        bool remove = false;
        while (j < i && !remove)
        {
           if (list[i].Equals(list[j]))
           {
              remove = true;
           }
           j++;
        }
        if (remove)
        {
           list.RemoveAt(i);
        }
        else
        {
           i++;
        }
     }  
  }

1

一个简单的直观实现:

public static List<PointF> RemoveDuplicates(List<PointF> listPoints)
{
    List<PointF> result = new List<PointF>();

    for (int i = 0; i < listPoints.Count; i++)
    {
        if (!result.Contains(listPoints[i]))
            result.Add(listPoints[i]);
        }

        return result;
    }

这种方法也很慢。创建一个新列表。
Darkgaze
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.