Показать сообщение отдельно
Старый 26.08.2003, 09:56     # 6
aleh
Junior Member
 
Регистрация: 27.12.2002
Адрес: Belarus
Сообщения: 129

aleh Путь к славе только начался
Цитата:
Первоначальное сообщение от Oracul
не 4 миллиона это 50 мегов,а вот как удалять дубли???я не знаю этого метода(функции)
4 миллиона означает только одно -- слишком много повторений! Т.е. одно и тоже слово повторяется несколько раз (2-10, а то и 100 )

java.util.* -- Есть богатый набор классов для работы с коллекциями. Среди них есть классы поддерживающие хэш и деревья. Кроме того имеются даже классы с сохранением порядка добавления элементов.

Хэш и дерево (есть ещё множество -- Set) не допускают наличия двух одинаковых элементов -- как раз что тебе нужно! Просто при чтении файла добавляешь всё в коллекцию, а потом пробегаешь её итератором и скидываешь всё в выходной файл.

В зависимости от выбранного класса будет различатся скорость добавления элемента и сканирования коллекции. Дерево выглядит наиболее подходящим + получишь отсортированный словарь.
aleh вне форума