Когда возникает задача оптимизации базы данных или меняется ее структура, иногда появляется попутная задача организации уже накопленных данных. Хорошо, если таблица уже при разработке приведена в нормальную форму, и вся система организована так, что она не копит лишней дублирующей информации. Если же это не так, то при доработке такой системы хочется избавиться от всех избыточных данных и сделать все наиболее качественно.
В этой статье рассмотрим задачу удаления дублирующих строк в таблице БД. Сразу же отмечу, что речь идет о необходимости удалить именно повторяющиеся строки. Например, записи в таблице заказов с полями "код заказа", "код товара", "код покупателя", "дата заказа" могут различаться только кодом заказа, так как все же один покупатель в один день может заказать один и тот же товар несколько раз. А главный показатель здесь, что все правильно – наличие ключевого поля.
Если же мы видим таблицу, изобилующую повторяющимися полями, без явной необходимости каждой записи, то это именно то, что должно быть исправлено.
Пример явно избыточной таблицы:
id (код записи) | country_id (код страны) | city_name (код города) |
1 | 1 | Москва |
2 | 1 | Хабаровск |
3 | 1 | Самара |
4 | 1 | Кисловодск |
5 | 1 | Хабаровск |
6 | 1 | Самара |
7 | 1 | Кисловодск |
8 | 1 | Кисловодск |
Теперь рассмотрим, как можно решить эту проблему. Здесь можно применить несколько методов.
1. Можно написать функцию для сравнения и перебора всех данных. Это долго, да и писать код для одноразового использования не всегда хочется.
2. Другое решение – создать запрос на выборку с группировкой данных, так чтобы получить только уникальные строки:
SELECT country_id, city_name
FROM mytable
GROUP BY country_id, city_name
Получаем следующую выборку:
country_id | city_name |
1 | Кисловодск |
1 | Москва |
1 | Самара |
1 | Хабаровск |
Затем, полученный набор данных записываем в другую таблицу.
3. В указанных решениях применяется дополнительный программный код или дополнительные таблицы. Однако, было бы удобней сделать все, используя только запросы SQL без дополнительных таблиц. И вот пример такого решения:
DELETE a.* FROM mytable a,
(SELECT
b.country_id, b.city_name, MIN(b.id) mid
FROM mytable b
GROUP BY b.country_id, b.city_name
) c
WHERE
a.country_id = c.country_id
AND a.city_name = c.city_name
AND a.id > c.mid
После выполнения такого запроса в таблице останутся только уникальные записи:
id | country_id | city_name |
1 | 1 | Москва |
2 | 1 | Хабаровск |
3 | 1 | Самара |
4 | 1 | Кисловодск |
Теперь разберемся подробнее, как все это работает. При запросе на удаление, необходимо задать условие, которое укажет какие данные нужно удалить, а какие оставить. Нам необходимо удалить все не уникальные записи. Т.е. если существует несколько одинаковых записей (одинаковые они, если у них равны значения country_id и city_name), то нужно взять одну из строк, запомнить ее код и удалить все записи с такими же значениями country_id и city_name, но другим кодом (id).
Строка SQL запроса:
DELETE a.* FROM mytable a,
указывает, что удаление будет производиться из таблицы mytable.
Затем запрос на выборку формирует вспомогательную таблицу, где мы группируем записи так, чтобы все записи были уникальными:
(SELECT
b.country_id, b.city_name, MIN(b.id) mid
FROM mytable b
GROUP BY b.country_id, b.city_name
) c
MIN(b.id) mid – формирует столбец mid (сокращение min id), в который вносятся минимальное значение id, в каждой подгруппе.
В результате получается таблица, содержащая уникальные записи и id первой строки для каждой группы дублирующих записей.
country_id | city_name | mid |
---|---|---|
1 | Кисловодск | 4 |
2 | Москва | 1 |
3 | Самара | 3 |
4 | Хабаровск | 2 |
Теперь мы имеем две таблицы. Одну общую, содержащую все записи. Из нее будут удаляться лишние строки. Вторая содержит информацию о строках, которые нужно сохранить.
Остается только сформировать условие, где указывается: удалить нужно все строки, где совпадают поля country_id и city_name, а id совпадать не будет. В данном случае выбирается минимальное значение id, поэтому удаляются все записи, id которых больше чем выбранный во временную таблицу.
Стоит еще отметить, что описанную операцию можно выполнить при наличии в таблице ключевого поля. Если вдруг встретилась таблица без уникального идентификатора, то просто добавляем его:
ALTER TABLE ` mytable` ADD `id` INT( 11 ) NOT NULL AUTO_INCREMENT , ADD PRIMARY KEY ( `id` )
Выполнив такой запрос, получим дополнительный столбец, заполненный уникальными числовыми значениями для каждой строки таблицы.
Выполняем все необходимые действия. После того, как операция по очистке таблицы от дубликатов записей выполнена, это поле можно так же удалить.
Переименование таблицы БД запросом SQL (RENAME TABLE)
Удаление или замена слова в строке запросом SQL (REPLACE)
Копирование в таблицу данных из другой таблицы запросом SQL
Антон Сенников
- 04 октября 2022, 13:55 ↓1. много записей — руками удалять нереально.
2. есть дублирующие записи и неважно, какие именно из повторов удалять.
3. других условий нет.
Тогда, как раз подходит алгоритм выше. Только предварительно нужно будет добавить дополнительное поле, которое будет уникальным ID. При этом тип поля будет числовой, инкрементный, чтобы автоматом назначить уникальные ключи для каждого поля.
Фаиль
- 04 октября 2022, 13:37 ↓Антон Сенников
- 04 октября 2022, 12:33 ↓В случае, если у вас некорректная БД, то стоит ввести отдельное поле где назначить уникальные идентификаторы, а далее уже что-то продумывать исходя из новых ключей.
Фаиль
- 04 октября 2022, 11:58 ↓Никита
- 19 апреля 2021, 04:58 ↓Антон Сенников
- 26 октября 2020, 16:52 ↓Илья
- 26 октября 2020, 13:21 ↓Кстати, если в подзапрос:
(SELECT
b.country_id, b.city_name, MIN(b.id) mid
FROM mytable b
GROUP BY b.country_id, b.city_name
) c
добавить условие HAVING COUNT(*) > 1, то поиск по большим таблицам данных будет происходить значительно быстрее.
евгений
- 20 июня 2020, 21:12 ↓