Цитата:
Первоначальное сообщение от Oracul
не 4 миллиона это 50 мегов,а вот как удалять дубли???я не знаю этого метода(функции)
|
4 миллиона означает только одно -- слишком много повторений! Т.е. одно и тоже слово повторяется несколько раз (2-10, а то и 100

)
java.util.* -- Есть богатый набор классов для работы с коллекциями. Среди них есть классы поддерживающие хэш и деревья. Кроме того имеются даже классы с сохранением порядка добавления элементов.
Хэш и дерево (есть ещё множество -- Set) не допускают наличия двух одинаковых элементов -- как раз что тебе нужно! Просто при чтении файла добавляешь всё в коллекцию, а потом пробегаешь её итератором и скидываешь всё в выходной файл.
В зависимости от выбранного класса будет различатся скорость добавления элемента и сканирования коллекции. Дерево выглядит наиболее подходящим + получишь отсортированный словарь.