пятница, 23 июля 2010 г.

Утилита для очистки ключевых слов KCleaner

На днях написал на C++ небольшую утилиту KCleaner (от Keys Cleaner) в помощь веб-мастерам и SEO-шникам. Она позволяет чистить базы кеев по спискам стоп-слов. Утилита консольная, работает в среде OS Windows (гарантированно проверял работу в Windows XP SP2).

Главный упор при её написании я делал на возможность обработки больших массивов данных с сохранением высокой скорости работы. Так, например, для обработки базы ключевиков объемом ~500 000 ключевых слов при файле стоп-слов объемом ~50 000 слов моей утилите требуется около 7-8 секунд на железе Sempron 2500 1.4GHz + 512MB RAM.

Есть несколько важных моментов для корректной работы программы:
- список стоп-слов должен включать именно слова, а не фразы (то есть, внутри стоп-слов не должно быть пробелов);
- фильтрация выполняется по полному вхождению стоп-слова (именно как отдельного слова, а не просто части строки ключевика);
- файлы ключевиков и стоп-слов должны быть в кодировке Windows-1251 (ну или, наверное, любой другой однобайтной кодировке с дополнительным условием, что она одна и та же для обоих файлов).

Все желающие могут приобрести утилиту KCleaner в магазине цифровых товаров Plati.ru.
Вот ссылка:  Утилита для очистки ключевых слов KCleaner
Стоимость - всего 2$.

2 комментария:

  1. Можете привести ситуацию, когда эта программа применяется?

    ОтветитьУдалить
  2. Здравствуйте.
    Приятно прочитать первый комментарий в этом блоге )
    Мне видится такое применение этой программы:
    допустим, у вас есть большой список ключевых слов для поисковой системы. Вы желаете удалить из этого списка те ключевые слова (ключевые фразы), которые содержат определенные слова. Тогда вы просто составляете список таких слов (стоп-слов), а затем прогоняете вышеозначенной программой, указав на входе 2 файла: общий полный список ключевиков и файл стоп-слов.
    Список стоп-слов не обязательно каждый раз составлять заново. Его можно один раз создать, а затем по мере необходимости просто пополнять новыми, нужными вам словами.

    ОтветитьУдалить