Есть обычный текст, например их книги, в котором также встречаются HTML-теги, спецсимволы ( и т.п.).
Нужно получить из этого текста список слов (за исключением стоп-слов) в массиве, отсортированных по частоте их "встречания" в тексте.
Как лучше сделать. Т.е. что и в каком порядке делать?